Процесс ETL: получение, очистка, объединение данных
Автор: Центр digital профессий ITtensive
Загружено: 3 мая 2020 г.
Просмотров: 7 000 просмотров
Запишетесь на полный курс Машинного обучения на Python по адресу [email protected]
ETL расшифровывается как Extract, Transform, Load - Извлечь, Преобразовать, Загрузить.
Поиск данных
Даже после сбора первичного набора данных может потребоваться его обогащение - добавление к данным дополнительных особенностей, которые не были изначально учтены. Например, в случае с погодой это может быть информация об официальных выходных днях, что влияет на количество выбросов в атмосферу.
При отсутствии заранее подготовленного набора данных для решения задачи, потребуется найти и оценить источники данных и собрать данные из этих источников.
В процессе проверки качества модели возможно неоднократное возвращение к ETL процессу для улучшения качества модели за счет добавления в нее данных.
Очистка данных
Исходные данные могут содержать неточности, опечатки, проблемы форматирования и пропуски. Эти все проблемы необходимо устранить до начала использования данных, ведь "мусор на входе - мусор на выходе".
Также на стадии очистки данных иногда удаляют "некачественные" данные из исходной выборки. "Качество" данных обычно становится понятно после проведения исследовательского анализа данных или проверки работы модели.
Объединение данных
Очищенные данные из всех источников необходимо объединить и сделать плоскими: свести описание каждой анализируемой ситуации к одному набору данных, а не набору наборов: модели машинного обучения работают с кортежем признаков на входе.
Например, у нас данные респондентов и информация по городам их проживания. Городов существенно меньше, и информация по ним хранится отдельно, но для задач машинного обучения потребуется к данным каждого респондента добавить и данные по его городу.
Процесс ETL не завершается даже при готовности модели (соответствии ее заданному критерию точности). Ведь при изменении данных или необходимости оценки новых данных их также потребуется очистить и объединить.

Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: