Обзор 49 для профессионального инженера по машинному обучению в Google Cloud: Подготовка данных

Автор: Jules of Tech

Загружено: 2026-01-14

Просмотров: 2

Описание:

Цель встречи

Обзор лучших практик подготовки данных для экзамена GCP ML Engineer.

Основные выводы

Предотвращение утечки данных

Соответствие методов типу данных

Понимание требований к алгоритмам

Осторожное использование аугментации данных

Основные темы
Утечка данных

Проблема: Использование статистических методов (например, нормализация, импутация), вычисленных на полном наборе данных, приводит к сбоям в производственной среде.

Почему: Распределение данных в производственной среде отличается от распределения данных в тестовой среде.

Правило: В процессе обучения никогда не следует использовать тестовые или будущие данные.

Обработка пропущенных данных

Удаление

Удаление строк, если пропущенных данных менее 5%.

Удаление признаков, если большинство из них имеют значение NULL.

Импутация

Среднее (числовое) / Мода (категориальное) для умеренного количества пропущенных данных.

LOCF для временных рядов.

Прогностическое моделирование для сложных случаев.

Рабочий процесс BigQuery

Идентификация пропущенных значений (COUNTIF).

Вычислять статистику только на обучающей выборке.

Заполнять пропущенные значения на обучающих данных.

Подтверждать, что статистика отличается от данных тестирования, чтобы избежать утечки информации.

Обнаружение выбросов

Ошибки: Удалить (некорректные данные, сбои датчиков).

Редкие события: Сохранить (мошенничество, аномалии).

Методы

Z-оценка (нормальное распределение).

IQR (ненормальное распределение).

DBSCAN (многомерные выбросы).

Масштабирование признаков

Зачем: Предотвращение доминирования крупномасштабных признаков.

Методы

Масштабирование по методу Мин-Макс (0–1).

Стандартизация Z-оценки.

Необходимо для:

KNN, K-Means, SVM, линейных моделей, нейронных сетей.

Не требуется для:

Моделей на основе деревьев.

Рекомендация: Обучать масштабирующие функции только на обучающих данных.

Категориальное кодирование

One-Hot: Номинальные категории; высокий риск высокой размерности.

Ordinal: Только при наличии естественного порядка.

Embeddings: Признаки с высокой кардинальностью.

Hashing-функции: Очень большие словари; допускает коллизии.

Инженерное проектирование временных рядов

Извлечение временных компонентов (день, месяц, час).

Создание признаков задержки.

Использование скользящей статистики.

Отслеживание времени с момента последнего события.

Правило: Никогда не использовать будущие данные.

Предварительная обработка текста

Строгое написание, аккуратная пунктуация (с осторожностью).

Токенизация текста.

Осторожное удаление стоп-слов.

Стемминг: Быстро, менее точно.

Лемматизация: Медленнее, более точно.

Кодирование

Мешок слов

TF-IDF

Векторные представления слов (Word2Vec, GloVe, BERT)

Предварительная обработка и аугментация изображений

Изменение размера и нормализация изображений.

Сохранение соотношения сторон.

Обеспечение корректности цветовых каналов.

Аугментация

Геометрические и цветовые преобразования.

Аугментация текста путем перефразирования.

Ограничения

Метки должны оставаться действительными.

Аугментация может усиливать предвзятость.

Предпочтительнее использовать аугментацию «на лету» во время обучения.

Обзор 49 для профессионального инженера по машинному обучению в Google Cloud: Подготовка данных

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Как происходит модернизация остаточных соединений [mHC]

Как происходит модернизация остаточных соединений [mHC]

Обзор 50 пунктов от Vertex AI для профессиональных инженеров по машинному обучению в Google Cloud

Обзор 50 пунктов от Vertex AI для профессиональных инженеров по машинному обучению в Google Cloud

X‑Spanformer: A Deep Dive into Token‑Free Auto‑Encoding

X‑Spanformer: A Deep Dive into Token‑Free Auto‑Encoding

Что я реально делаю как Data Scientist в США за $410.000/год

Что я реально делаю как Data Scientist в США за $410.000/год

Обзор 48 раздела «Каталог данных и Dataplex» для профессиональных инженеров по машинному обучению...

Обзор 48 раздела «Каталог данных и Dataplex» для профессиональных инженеров по машинному обучению...

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Пошаговое руководство для профессионального инженера по машинному обучению в Google Cloud: раздел...

Пошаговое руководство для профессионального инженера по машинному обучению в Google Cloud: раздел...

Economic and Tech Trends for your Career (January 2026)

Economic and Tech Trends for your Career (January 2026)

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

How I Passed the Google Cloud Professional ML Engineer Exam

How I Passed the Google Cloud Professional ML Engineer Exam

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Возможно ли создать компьютеры с техпроцессом меньше 1 нм

Возможно ли создать компьютеры с техпроцессом меньше 1 нм

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

Дерек уходит из Veritasium?

Дерек уходит из Veritasium?

Я Обманул Экспертов Элитной Парфюмерии Спреем с Пердежом

Я Обманул Экспертов Элитной Парфюмерии Спреем с Пердежом

OpenAI, Google, Apple: кто реально победит в гонке AI

OpenAI, Google, Apple: кто реально победит в гонке AI

Декораторы Python — наглядное объяснение

Декораторы Python — наглядное объяснение

Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM

Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM

Как стать инженером по машинному обучению (пошаговая инструкция)

Как стать инженером по машинному обучению (пошаговая инструкция)

Обзор рынка труда в сфере технологий и советы по карьерному росту 20260103

Обзор рынка труда в сфере технологий и советы по карьерному росту 20260103