Обязанности и достижения:
Обязанности и достижения
Работал Data Engineer'ом на проектах коммерческих и госзаказчиков.
- Разработка и поддержка ETL-процессов для расчёта витрин и
отчетности.
- Создание DAG'ов в Apache Airflow
- Реализация Spark-процессов (PySpark) для обработки и агрегации
событий из Kafka, сохранение результатов в ClickHouse и Greenplum.
- Чтение сообщений из Kafka: параллельные консумеры управлением
оффсетом, дедупликацией и обработкой по батчам.
- Разработка витрин в ClickHouse, включая партиционирование, TTL,
агрегированные представления.
- Автоматизация загрузки данных в хранилище из S3 и внешних API.
- Оптимизация Spark-джоб: настройка репартиций, кэширования,
контроль размера shuffle.
- Логирование процессов и алертинг через Slack-нотификации,
отслеживание лагов Kafka.
- Участие в ревью SQL-запросов и тестировании ETL-кода.
Применяемые навыки
Git, PostgreSQL, Python, Docker, Базы данных, Apache Kafka, CI/CD, SQL,
Apache Hadoop, Apache Airflow, Apache Spark, ETL, DWH, ClickHouse,
Jupyter Notebook, Pandas, Анализ данных, MatPlotLib, Большие данные