Запуск заданий Apache Spark на бессерверном Dataproc

Автор: PracticalGCP

Загружено: 2023-04-23

Просмотров: 7662

Описание:

Сегодня я рад поделиться практическим примером использования пользовательского контейнера для объединения всех зависимостей заданий Spark и их выполнения на бессерверном Dataproc. Эта мощная функция обеспечивает оптимизированный подход к запуску заданий Spark без необходимости управления какой-либо инфраструктурой, предлагая при этом расширенные возможности, такие как тонкая настройка автоматического масштабирования, — и всё это без необходимости использования постоянно работающего кластера. #ApacheSpark #GoogleCloud #Serverless #Dataproc #BigData

00:17 — Содержание
01:19 — Что такое Dataproc?
01:53 — Dataproc против бессерверного Dataproc
03:52 — Пользовательские контейнеры на Dataproc
08:14 — Пример использования на практике
11:33 — Разбор кода
20:43 — Посмотрите на это в действии!
25:55 — Резюме

Полезные ссылки
— код: https://github.com/rocketechgroup/spa...
— слайды: https://docs.google.com/presentation/...
— пользовательский контейнер: https://cloud.google.com/dataproc-ser...
— сравнение Serverless и Compute Engine: https://cloud.google.com/dataproc-ser...
— отправка Spark через REST: https://cloud.google.com/dataproc-ser...
взаимодействие между сервисами: https://cloud.google.com/run/docs/aut...

Запуск заданий Apache Spark на бессерверном Dataproc

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Cloud Run with IAP

Cloud Run with IAP

Run Spark and Hadoop faster with Dataproc

Run Spark and Hadoop faster with Dataproc

Redmine Installation & Google OAuth Login Integration

Redmine Installation & Google OAuth Login Integration

ЕДИНСТВЕННОЕ учебное пособие по PySpark, которое вам когда-либо понадобится.

ЕДИНСТВЕННОЕ учебное пособие по PySpark, которое вам когда-либо понадобится.

Centralised Data Sharing using Analytics Hub

Centralised Data Sharing using Analytics Hub

BEST way to protect GCP resources - VPC Service Perimeter

BEST way to protect GCP resources - VPC Service Perimeter

[Частично недоступно] Разверните своего агента ADK менее чем за 5 минут с помощью стартового паке...

[Частично недоступно] Разверните своего агента ADK менее чем за 5 минут с помощью стартового паке...

Putin boi się końca wojny | Oto dlaczego

Putin boi się końca wojny | Oto dlaczego

A Powerful Combination: A2A + Cloud Run + Gemini Enterprise

A Powerful Combination: A2A + Cloud Run + Gemini Enterprise

Building stream processing pipelines with Dataflow

Building stream processing pipelines with Dataflow

Как создать конвейер данных с помощью BigQuery и Airflow! Руководство для начинающих по BigQuery ...

Как создать конвейер данных с помощью BigQuery и Airflow! Руководство для начинающих по BigQuery ...

Using PySpark on Dataproc Hadoop Cluster to process large CSV file

Using PySpark on Dataproc Hadoop Cluster to process large CSV file

BigQuery — отслеживание изменений с использованием DML MERGE

BigQuery — отслеживание изменений с использованием DML MERGE

Manage Data Quality at Scale with Dataplex and Gemini

Manage Data Quality at Scale with Dataplex and Gemini

Optimising Open Source LLM Deployment on Cloud Run

Optimising Open Source LLM Deployment on Cloud Run

Управляемая служба Google Dataproc BigData

Управляемая служба Google Dataproc BigData

When Cloud Run Meets Deepseek

When Cloud Run Meets Deepseek

How to Read and Write data from Bigquery Using Dataproc cluster using gcloud CLI

How to Read and Write data from Bigquery Using Dataproc cluster using gcloud CLI

Near real-time CDC using DataStream

Near real-time CDC using DataStream

Twitter Data Pipeline using Airflow for Beginners | Data Engineering Project

Twitter Data Pipeline using Airflow for Beginners | Data Engineering Project