Запуск заданий Apache Spark на бессерверном Dataproc
Автор: PracticalGCP
Загружено: 2023-04-23
Просмотров: 7662
Сегодня я рад поделиться практическим примером использования пользовательского контейнера для объединения всех зависимостей заданий Spark и их выполнения на бессерверном Dataproc. Эта мощная функция обеспечивает оптимизированный подход к запуску заданий Spark без необходимости управления какой-либо инфраструктурой, предлагая при этом расширенные возможности, такие как тонкая настройка автоматического масштабирования, — и всё это без необходимости использования постоянно работающего кластера. #ApacheSpark #GoogleCloud #Serverless #Dataproc #BigData
00:17 — Содержание
01:19 — Что такое Dataproc?
01:53 — Dataproc против бессерверного Dataproc
03:52 — Пользовательские контейнеры на Dataproc
08:14 — Пример использования на практике
11:33 — Разбор кода
20:43 — Посмотрите на это в действии!
25:55 — Резюме
Полезные ссылки
— код: https://github.com/rocketechgroup/spa...
— слайды: https://docs.google.com/presentation/...
— пользовательский контейнер: https://cloud.google.com/dataproc-ser...
— сравнение Serverless и Compute Engine: https://cloud.google.com/dataproc-ser...
— отправка Spark через REST: https://cloud.google.com/dataproc-ser...
взаимодействие между сервисами: https://cloud.google.com/run/docs/aut...
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: