Обязанности и достижения:
Тестировщик команды SRE (Site Reliability Engineers).
Реагирование и разбор инцидентов на production серверах:
проблемы с релизами, ддос, выпадение серверов, всплеск 5XX.
Тестирование автоматического переключения соединений при проблемах бд.
Тестирование graceful shutdown сервисов.
Развитие с нуля и проведения нагрузочного тестирования сайта:
написание скриптов анализирующих профиль нагрузки, автоматическая генерация профиля нагрузки с использованием реальных запросов пользователей.
Благодаря нагрузочным тестам, выявлялись проблемы неправильной конфигурации сервисов и баз, неправильной политики балансировки и ретраев, находились проблемные урлы в сервисах, неподходящие настройки tcp на уровне операционной системы.
Конфигурирование и настройка балансировки:
настройка балансировщиков таких как nginx и haproxy, чтобы при выпадении, выключении серверов на сайте не было ошибок.
Дебианизация сервисов;
Развитие и поддержка инфраструктуры тестового окружения: конфигурирование тестовых стендов для большего соответствия продакшну; поддержка, починка системы обновления стендов.