Обязанности и достижения:
Проект "Проверка гипотез сервиса по прокату самокатов": Предобработал данные и провел исследовательский анализ с помощью Pandas и графиков. Проверил гипотезы. Используя scipy, смоделировал события. Создал рекомендации для бизнеса.
Проект "Анализ данных c помощью PostgreSQL": Проанализировал данные StackOverflow с помощью продвинутого SQL. В запросах использовал оконные функции, CTE, подзапросы.
Проект "Оценка рисков нефтедобычи с помощью Bootstrap": Предсказал целевой признак, используя sklearn. С помощью Bootstrap оценил риски убытков при разработке региона.
Проект "Предсказание ухода клиента телеком компании": Подключился к базе данных телеком компании, провел EDA. Для предсказания оттока клиентов создал несколько моделей. В том числе нейросеть на Keras. В конце интерпретировал лучшую модель и создал рекомендации для заказчика по удержанию клиентов.
Проект "Предсказание стоимости жилья с помощью PySpark": На PySpark подготовил данные о жилье в Калифорнии. Затем создал пайплайн линейной регрессии для предсказания медианной стоимости жилья в районе.
Проект "Поисковик по изображениям": Создал поисковик по изображениям. Задачу решал следующим образом. Получил эмбеддинги через ResNet50 и Bert на TensorFlow. Эмбеддинги передал в нейросеть на Keras. C помощью scikeras подобрал гиперпараметры. Нейросеть решает задачу регрессии на отрезке. Выдается наиболее релевантное изображение. Модель регрессии на отрезке сравнил с моделью LightGBM. Чтобы перейти к задаче ранжирования или рекомендаций, нужно заменить loss и метрику.
Буду рад рассказать об остальных проектах!