Обязанности и достижения:
Бэкенд-разработчик DataScience-платформы
(платформа для создания, применения и внедрения ML-моделей)
Сервис и библиотека профилирования и генерации синтетических данных:
- Автор концепции и технический лидер проекта: от идеи до вывода в production
- Реализовал RESTful микросервис и библиотеку для профилирования таблиц в СУБД и генерации синтетических данных
- Микросервис с UI позволяет выполнять профилирование и генерацию в Airflow (гибкое масштабирование, абстракция от локальной инфраструктуры, решение проблем нехватки ресурсов)
- Поддержка прикладных проектов по генерации данных
- Решение ускорило подготовку тестовых данных и позволило быстрее проверять ML-модели и сервисы
- С решением выступил на конференции SmartData 2024
Сервис формирования метаданных DWH:
- Реализовал RESTful микросервис для автоматического сбора метрик и статистик по данным (распределения, null-доли, кардинальности и др.)
- Интеграция с произвольными источниками данных через Airflow
- Гибкая настройка профилирования для мониторинга качества и классификации бизнес-данных
- Обеспечил мониторинг качества и автоматическую классификацию бизнес-данных, что снизило ручные трудозатраты и повысило прозрачность работы с DWH
Технологический стек:
- Backend: Python (FastAPI, SQLAlchemy, Alembic, Asyncio, Pydantic, Pandas, NumPy), Postgresql
- Data & Workflow: Airflow (разработка DAG’ов, интеграции), Impala
- Infrastructure: Kubernetes, Docker (helm-чарты, создание образов)
- CI/CD: TeamCity (пайплайны для сборки, релизов, сканирования образов), ArgoCD
- Дизайн и документация: Figma (согласование UI/UX с дизайнерами), Confluence