Обзор 49 для профессионального инженера по машинному обучению в Google Cloud: Подготовка данных
Автор: Jules of Tech
Загружено: 2026-01-14
Просмотров: 2
Цель встречи
Обзор лучших практик подготовки данных для экзамена GCP ML Engineer.
Основные выводы
Предотвращение утечки данных
Соответствие методов типу данных
Понимание требований к алгоритмам
Осторожное использование аугментации данных
Основные темы
Утечка данных
Проблема: Использование статистических методов (например, нормализация, импутация), вычисленных на полном наборе данных, приводит к сбоям в производственной среде.
Почему: Распределение данных в производственной среде отличается от распределения данных в тестовой среде.
Правило: В процессе обучения никогда не следует использовать тестовые или будущие данные.
Обработка пропущенных данных
Удаление
Удаление строк, если пропущенных данных менее 5%.
Удаление признаков, если большинство из них имеют значение NULL.
Импутация
Среднее (числовое) / Мода (категориальное) для умеренного количества пропущенных данных.
LOCF для временных рядов.
Прогностическое моделирование для сложных случаев.
Рабочий процесс BigQuery
Идентификация пропущенных значений (COUNTIF).
Вычислять статистику только на обучающей выборке.
Заполнять пропущенные значения на обучающих данных.
Подтверждать, что статистика отличается от данных тестирования, чтобы избежать утечки информации.
Обнаружение выбросов
Ошибки: Удалить (некорректные данные, сбои датчиков).
Редкие события: Сохранить (мошенничество, аномалии).
Методы
Z-оценка (нормальное распределение).
IQR (ненормальное распределение).
DBSCAN (многомерные выбросы).
Масштабирование признаков
Зачем: Предотвращение доминирования крупномасштабных признаков.
Методы
Масштабирование по методу Мин-Макс (0–1).
Стандартизация Z-оценки.
Необходимо для:
KNN, K-Means, SVM, линейных моделей, нейронных сетей.
Не требуется для:
Моделей на основе деревьев.
Рекомендация: Обучать масштабирующие функции только на обучающих данных.
Категориальное кодирование
One-Hot: Номинальные категории; высокий риск высокой размерности.
Ordinal: Только при наличии естественного порядка.
Embeddings: Признаки с высокой кардинальностью.
Hashing-функции: Очень большие словари; допускает коллизии.
Инженерное проектирование временных рядов
Извлечение временных компонентов (день, месяц, час).
Создание признаков задержки.
Использование скользящей статистики.
Отслеживание времени с момента последнего события.
Правило: Никогда не использовать будущие данные.
Предварительная обработка текста
Строгое написание, аккуратная пунктуация (с осторожностью).
Токенизация текста.
Осторожное удаление стоп-слов.
Стемминг: Быстро, менее точно.
Лемматизация: Медленнее, более точно.
Кодирование
Мешок слов
TF-IDF
Векторные представления слов (Word2Vec, GloVe, BERT)
Предварительная обработка и аугментация изображений
Изменение размера и нормализация изображений.
Сохранение соотношения сторон.
Обеспечение корректности цветовых каналов.
Аугментация
Геометрические и цветовые преобразования.
Аугментация текста путем перефразирования.
Ограничения
Метки должны оставаться действительными.
Аугментация может усиливать предвзятость.
Предпочтительнее использовать аугментацию «на лету» во время обучения.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: