Создайте задание AWS Glue ETL для очистки и преобразования данных | Заполнение пропущенных значен...
Автор: KnoDAX
Загружено: 2025-10-18
Просмотров: 335
Выбор и внедрение решения для преобразования данных
В этой практической лабораторной работе AWS мы рассмотрим весь процесс создания задания AWS Glue ETL для очистки и преобразования данных во время их получения. Вы узнаете, как загрузить пример CSV-файла в Amazon S3, создать каталог данных с помощью поискового робота Glue и реализовать пользовательское преобразование для автоматического заполнения пропущенных значений и исправления некорректных адресов электронной почты.
Мы подробно рассмотрим каждый этап — от создания задания Glue и написания логики преобразования в PySpark до настройки целевого выходного файла и проверки результатов в S3. К концу этого видео вы узнаете, как автоматизировать повышение качества данных и подготовить их для рабочих процессов аналитики и машинного обучения.
✅ Что вы научитесь:
Загружать и регистрировать данные в каталоге данных AWS Glue
Создавать и настраивать задания ETL в AWS Glue Studio
Создавать пользовательское преобразование для замены «[at]» на «@» в полях электронной почты
Автоматически заполнять отсутствующие значения возраста значениями по умолчанию
Сохранять очищенные данные обратно в S3 в формате CSV и проверять вывод
Это руководство идеально подходит для всех, кто готовится к экзаменам AWS Certified Data Engineer – Associate или AWS Certified Machine Learning – Specialty, а также для инженеров по данным и аналитиков, работающих с AWS Glue в реальных проектах.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: