Data Engineer
Опыт от 1 до 3 лет
от 140.000 ₽ до 200.000 ₽
Описание вакансии
Позиция: Data Engineer
Опыт работы: 2–3 года
Полная занятость
График: 5/2
Формат работы: удалённо
Компания: 7RedLines
Оформление: ТК РФ
Оклад на руки: 140 000 – 200 000 р.
Мы ищем Data Engineer для разработки и поддержки ETL-процессов, обеспечивающих загрузку, обработку и хранение данных. Вам предстоит работать с Airflow, Hadoop (PySpark), S3 (minio) и PostgreSQL, чтобы создавать надежные и масштабируемые пайплайны данных.
Обязанности:
• Разработка и поддержка ETL-пайплайнов в Apache Airflow
• Загрузка данных из различных источников (API, базы данных, файлы) и их сохранение в S3
• Обработка больших данных с помощью PySpark в Hadoop-кластере
• Оптимизация производительности Spark-задач (партиционирование, кэширование, настройка ресурсов)
• Выгрузка результатов обработки в PostgreSQL
• Мониторинг и обеспечение надежности пайплайнов
• Взаимодействие с аналитиками и разработчиками для уточнения требований
Требования:
• Опыт работы с Apache Airflow версии 2.0 и выше (написание DAG, сенсоры, операторы), от 3х лет
• Знание PySpark и опыт работы с Hadoop (HDFS, YARN), от 2х лет
• Умение работать с облачными хранилищами (S3 или аналоги)
• Опыт работы с PostgreSQL (оптимизация запросов, партиционирование), от 2х лет
• Понимание принципов распределенных вычислений
• Уверенные знания Python и SQL (оптимизация запросов), от 3х лет
• Желателен опыт с Docker, Kubernetes (для оркестрации)
Опыт работы: 2–3 года
Полная занятость
График: 5/2
Формат работы: удалённо
Компания: 7RedLines
Оформление: ТК РФ
Оклад на руки: 140 000 – 200 000 р.
Мы ищем Data Engineer для разработки и поддержки ETL-процессов, обеспечивающих загрузку, обработку и хранение данных. Вам предстоит работать с Airflow, Hadoop (PySpark), S3 (minio) и PostgreSQL, чтобы создавать надежные и масштабируемые пайплайны данных.
Обязанности:
• Разработка и поддержка ETL-пайплайнов в Apache Airflow
• Загрузка данных из различных источников (API, базы данных, файлы) и их сохранение в S3
• Обработка больших данных с помощью PySpark в Hadoop-кластере
• Оптимизация производительности Spark-задач (партиционирование, кэширование, настройка ресурсов)
• Выгрузка результатов обработки в PostgreSQL
• Мониторинг и обеспечение надежности пайплайнов
• Взаимодействие с аналитиками и разработчиками для уточнения требований
Требования:
• Опыт работы с Apache Airflow версии 2.0 и выше (написание DAG, сенсоры, операторы), от 3х лет
• Знание PySpark и опыт работы с Hadoop (HDFS, YARN), от 2х лет
• Умение работать с облачными хранилищами (S3 или аналоги)
• Опыт работы с PostgreSQL (оптимизация запросов, партиционирование), от 2х лет
• Понимание принципов распределенных вычислений
• Уверенные знания Python и SQL (оптимизация запросов), от 3х лет
• Желателен опыт с Docker, Kubernetes (для оркестрации)