Обязанности и достижения:
С нуля создали новое подразделение, собрали команду из аналитиков данных, data scientist’ов и разработчиков, организовали ETL-процессы и развернули инфраструктуру для разработки и сервинга ML моделей.
1) Обучила текстовый классификатор обращений граждан на темы на базе BERT.
2) Разработала и внедрила модель кластеризации комментариев на базе SentenceTransformers+HDBSCAN. Обработка до 1,6 млн. сообщений ежедневно позволила ускорить анализ в кризисных ситуациях.
3) Написала библиотеку для обработки текстов (предпроцессинг, лемматизация, эмбеддинги).
4) Разработала функционал суммаризации жалоб граждан при помощи LLM в рамках сервиса алертирования о кризисных ситуациях.
5) Разработала сервис маршрутизации сообщений из алерт-чатов (FastAPI, aiogram, nats), обрабатывающий >1000 сообщений в день для 100+ пользователей, для оперативного информирования органов власти.
6) Разработала сервис парсинга, валидации и загрузки данных (до 10 тыс. в сутки) на основе MongoDB.
Как заместитель руководителя отдела:
- Отвечаю за исследовательское направление (проведено более десятка исследований данных и сдано более 50 аналитических документов для органов власти).
- Отвечаю за коммуникацию с заказчиком.
- Курировала аналитическое сопровождение проектирования datalake: провела полный аудит полноты и качества данных, повысила точность данных на ~30%.
Культура работы:
- Работа в команде в концепции Gitflow.
- Чистый код с использованием линтеров/форматтеров (ruff) и проверки типизации (mypy).
- Работа в окружениях: conda, venv, poetry, uv.
- Покрытие кода тестами (pytest, unittest).
- Проведение экспериментов при помощи MLFlow.
- Использование Docker.