22. Оптимизация объединений в Spark и понимание группировки для более быстрых объединений | Объед...
Автор: Ease With Data
Загружено: 2023-12-29
Просмотров: 29890
Видео объясняет: как оптимизировать объединения в Spark? Что такое SortMerge Join? Что такое ShuffleHash Join? Что такое Broadcast Join? Что такое сегментирование и как его использовать для повышения производительности?
Главы
00:00 — Введение
00:48 — Как Spark объединяет данные?
03:25 — Shuffle Hash Join
04:20 — Sort Merge Join
04:59 — Broadcast Join
07:50 — Оптимизация Big и Small Table Join
13:32 — Оптимизация Big и Big Table Join
16:09 — Что такое Bucket в Spark?
18:39 — Оптимизация объединения с помощью контейнеров
Локальная настройка PySpark Jupyter Lab — • 03 Data Lakehouse | Data Warehousing with ...
Основы Python — https://www.learnpython.org/
Ссылка на код на GitHub — https://github.com/subhamkharwal/pysp...
Серия представляет собой пошаговое руководство по изучению PySpark, популярного фреймворка для распределённых вычислений с открытым исходным кодом, используемого для обработки больших данных.
Новое видео каждые 3 дня ❤️
#spark #pyspark #python #dataengineering
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: