4. AWS Glue — ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ: соединения Glue для источников данных с помощью Crawler
Автор: Cloud - DeepTech
Загружено: 2025-10-27
Просмотров: 17
Это второй том курса по инжинирингу данных. В этом курсе я расскажу о технологиях обработки данных с открытым исходным кодом — Spark и Kafka, которые являются наиболее используемыми и популярными фреймворками для пакетной и потоковой обработки данных. В этом курсе вы изучите Spark с уровня 100 по уровень 400, используя практические примеры и реальные проекты. Я также познакомлю вас с Data Lake на AWS (S3) и Data Lakehouse на базе Apache Iceberg.
Я буду использовать AWS в качестве платформы хостинга и расскажу о сервисах AWS — EMR, S3, Glue и MSK. Я также покажу вам интеграцию Spark с другими сервисами, такими как AWS RDS (MySQL или PostgreSQL), Redshift и DynamoDB.
У вас будет возможность выполнить практические задания с большими наборами данных (100–300 ГБ и более). Этот курс предоставит вам практические упражнения, соответствующие сценариям реального времени, таким как пакетная обработка Spark, потоковая обработка, настройка производительности, потоковая передача данных, оконные функции, транзакции ACID в Iceberg и т. д.
Другие важные моменты:
15 проектов с различными наборами данных. Общий размер набора данных — 250 ГБ и более.
Другие рассматриваемые технологии: EC2, EBS, VPC и IAM.
Дополнительные видео по Python
Дополнительные видео по основам AWS и SQL
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: