Apache Spark для Джуна | Что такое Spark и как он работает?
Автор: Евгений Виндюков
Загружено: 9 дек. 2024 г.
Просмотров: 7 958 просмотров
Запусти свой Spark: https://github.com/halltape/HalltapeS...
Roadmap для Data Engineer: https://github.com/halltape/HalltapeR...
Таймкоды:
00:00:00 Начало
00:00:59 Как работает Pandas
00:01:32 Принцип работы Spark
00:02:53 Операция shuffle
00:07:30 YARN Выделяем ресурсы
00:09:03 Установка Spark
00:10:30 Запуск Spark
00:12:10 Чтение данных
00:14:56 Работа со схемой данных
00:19:40 Группировка и агрегирование
00:24:09 Фильтрация данных
00:26:57 Spark UI
00:27:50 Сохранение данных на диск
00:40:38 Чтение данных
00:46:16 JOIN
00:49:55 Cache и Persist
00:55:10 Repartition vs Coalesce
01:01:30 Out of Memory
01:03:02 Заключение
Видео по Apache Spark я сделал для тех, кто уже знаком с Python и SQL. Здесь я не касаюсь темы Spark Memory Management, темы спилов данных и так далее, так как это более продвинутый уровень. Данное видео поможет с нуля разобраться в Spark, а также запустить его на своем локальном ПК в режиме библиотеки или режиме кластера через docker-compose. Я специально упростил некоторые схемки для простоты объяснения, чтобы джуны не чокнулись раньше времени...
Полезные ссылки:
Telegram канал: https://t.me/halltape_data
Twitch канал: / halltape
GitHub: https://github.com/halltape
Канал с подкастами: / @beyond_the_code

Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: