Максим Зиналь, Дмитрий Рыбалко — Как обрабатывать данные с помощью Spark в облаке

Автор: SmartData

Загружено: 2024-07-16

Просмотров: 389

Описание:

Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/BVC3Cu

Многие компании предпочитают выстраивать работу с большими данными на базе Spark, однако в последнее время выбор end-to-end решений, предоставляющих возможность работы на масштабируемых Spark-кластерах в России, оказался ограниченным. Yandex Cloud предоставляет стек технологий, которые закрывают большую часть необходимой функциональности и позволяют параллельно обрабатывать данные с помощью Spark.

Из доклада вы узнаете:
— Как можно выстроить пайплайн обработки данных с помощью сервисов облака (DataProc и DataSphere), настроить взаимодействие со Spark-кластером через Jupyter-ноутбуки и почему удобно делать это в managed-сервисах.
— Как можно научить систему поднимать кластер под вас — именно тогда, когда он нужен, и экономить на этом.
— С какими сложностями сталкиваются компании при миграции, и какие пути решений они находят.
— Какие особенности есть у облачных сервисов.
— К чему надо быть готовым и какие могут понадобиться доработки.

Отдельный акцент сделан на взаимодействии инструментов для ML-разработки и кластера Spark.

Целевая аудитория: дата-инженеры, дата-сайентисты, аналитики.

Максим Зиналь, Дмитрий Рыбалко — Как обрабатывать данные с помощью Spark в облаке

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео