Яндекс
Big Data Engineer (NRT/Spark)
В архиве c 5 апреля 2026
Санкт-Петербург
251 000 - 329 000 ₽
Здесь ты столкнёшься с:
- Высокими нагрузками: Миллионы транзакций, таблицы с объёмом далеко за 1 млн записей
- Распределёнными данными: Используются Greenplum, ClickHouse, Hadoop, Spark для обработки огромных массивов информации
- Архитектурой DWH: Строятся сложные хранилища данных, витрины для отчётности (регуляторной и управленческой), настраиваются ETL-процессы
- Безопасностью и интеграцией: Проработка интеграций с внешними источниками (БКИ, СМЭВ), автоматизация ручных процессов бэк-офиса, работа с автоматизированными банковскими системам
Какие задачи вас ждут:
- Проектирование и развитие облачной data-платформыОптимизация текущей инфраструктуры и проектирование новых компонентов платформы с использованием облачных технологий Yandex Cloud. Готовимся к кратному росту объемов обрабатываемых данных.
- Миграция с GreenPlum на Trino / S3Переход с дорогостоящего в поддержке и эксплуатации Greenplum на доступ к данным в S3 через Trino. Используем современные технологии для быстрого доступа к данным в основном хранилище.
- Построение единой observability-платформы для таблиц DWHСоздание единой точки входа для мониторинга статусов сборки, качества данных и анализа зависимостей, включая построение datalineage и процессы логирования. Обеспечиваем наблюдаемость и контролируемость процессов.
- Ускорение текущих процессов поставки данныхОптимизация существующих и построение новых надежных процессов поставки данных, включая процессы взятия снепшотов, загрузки инкрементов напрямую, из аудит-таблиц и CDC, а также внедрение Spark Streaming или аналогичных решений для обеспечения near-real-time обновления данных. Ускоряем обработку растущих потоков данных.
- Автоматизация ручных процессовПостроение CI/CD пайплайнов для автоматизации процессов развертывания инфраструктуры, построения новых интеграций. Отадем рутину автоматике.
- Повышение безопасности доступа к даннымВыстраивание процессов автоматической выдачи и контроля доступов во всех системах, включая доступ к инфраструктуре, данным и аудит действий пользователей. Обеспечиваем безопасный и контролируемый доступ к банковским данным.
- Построение тестовых окруженийСоздание изолированных сред разработки, тестирования и предпрод с автоматизированными процессами тестирования. Выстраиваем среду безопасной разработки и повышаем надежность разрабатываемых решений
- Развитие фреймворков обработки данныхРазвитие внутренних фреймворков для загрузки, трансформации и контроля качества данных. Делаем low-code решения для ускорения разработки.
Ключевые требования
- Опыт коммерческой разработки от 4 лет
- Глубокое понимание устройства БД: оптимизация запросов, планы выполнения, партиционирование, шардирование и индексы
- Владение разными типами СУБД: PostgreSQL, Oracle, MongoDB, Greenplum
- Реальный опыт с CDC (Change Data Capture) — понимание принципов и умение реализовывать пайплайны
- Уверенная работа с S3-совместимыми хранилищами
Стек для ежедневных задач:
- Языки: Python (основной для разработки пайплайнов и скриптов)
- Оркестрация: Apache Airflow (разработка пайплайнов)
- Обработка данных: Apache Spark (Spark SQL, DataFrame)
- Запросы: Trino (работа с данными через движок)

Помочь с выбором?
Поможем устроиться на эту работу или лучше!
Вакансия в архиве
Посмотрите похожие вакансии