Обязанности и достижения:
• Разработка и внедрение моделей ML (classic ML, Time Series, NLP) с выведением в промышленное использование
• Разворачивание пайплайнов CI/CD на Airflow и GitLab CI
• Peer review проектов коллег, участие в выборе и валидации метрик, проверка корректности гипотез
• Ad-hoc аналитика и проверка бизнес-гипотез: эластичности объемов, оптимизации выручки, зависимостей ценообразования, сезонности заказов
• Повышение прозрачности решений через интеграцию моделей ML в бизнес-процессы. Требуется меньше времени на принятие решений от 3 дней до 1 дня с помощью дашборда.
• Улучшение точности предсказания MAPE с 50% до 5-10% в разных направлениях продаж на основе моделей Linear Regression. В результате получен эффект увеличения заказов по оптимальной цене на 10%
• Построение универсальной библиотеки классов для легкого масштабирования ML решения. Выпуск новой подмодели занимает несколько дней вместо 2 недель
• Автоматизация построения более 1200 зависимостей между двумя признаками для быстрой проверки гипотез. Решение составляет отчеты за пару часов, вместо создания таблиц в течении несколько дней
• Разработка и внедрение предобработчика логов информационной системы для поиска аномалий. Высокообъемные файлы (больше 100 ГБ) заменились на сжатый список полезной информации для возможности решения задачи с помощью NLP эмбеддингов
• Внедрение модели в оценку промышленного показателя на заводе с точность до 80% для исключения человеческого присутствия в процессе измерения. Также получен эффект поиска узких мест с помощью интерпретации признаков модели CatBoost
• Получена модель регуляризации технологического процесса по управляемым параметрам как признакам линейной модели с R2 от 0,95 и выше.
• Построение 200+ паритетов с различными формулами из нескольких файлов для расчета признаков модели регрессий
• Создание и ведение мастермайнда - регулярных встреч группы аналитиков и data scientist-ов для обмена опытом и решения накопившихся проблем