- Развивать культуру работы с данными
- Участвовать в разработке data pipeline на всех этапах: от обсуждения с источниками данных формата получения данных, до презентации новой фичи потребителям
- Разрабатывать API для высоконагруженных сервисов получения доступа к данным
- Проектировать и строить процессы хранения, обработки, очистки и обогащения данных
- Создавать единую систему обработки, хранения и валидации данных.
- Участвовать в проектировании системы и принятии архитектурных решений совместно с командой разработки
- Писать интеграционные и юнит-тесты, разрабатывать средства автоматизации для валидации и мониторинга на основе состояния данных, а также делиться знаниями с разработчиками на внутренних Knowledge Sharing
Стек:Linux, bash, Python, SQL. Hadoop-стек: Spark (pyspark), HIve Airflow, MLFlow Docker, Jenkins, Kubernetes/Openshift