Пошаговое руководство для инженеров машинного обучения Google Cloud Professional: BigQuery Server...
Автор: Jules of Tech
Загружено: 2025-12-14
Просмотров: 11
Прохождение 18-го этапа работы инженера по машинному обучению Google Cloud Professional по BigQuery (бессерверное, колоночное хранилище, структуры данных, расположения и размещение данных) — 24 ноября
СМОТРЕТЬ ЗАПИСЬ: https://fathom.video/share/G-BsrTVkeP...
Цель встречи
Представить BigQuery как основу для инфраструктуры данных машинного обучения GCP.
Основные выводы
– Бессерверная архитектура: автоматическое масштабирование BigQuery устраняет необходимость в управлении инфраструктурой, позволяя командам машинного обучения сосредоточиться на анализе данных, а не на операциях.
– Колоночное хранилище: сканирование только необходимых столбцов (а не целых строк) обеспечивает значительный прирост производительности и экономию средств, поскольку BigQuery взимает плату за количество сканированных байтов.
– Интегрированная платформа машинного обучения: BigQuery обучает модели непосредственно на данных через SQL, устраняя необходимость в перемещении данных и упрощая конвейер машинного обучения. – Размещение данных: Расположение набора данных (например, us-central1) критически важно для производительности, стоимости и соответствия требованиям (например, GDPR, HIPAA).
Темы
Роль BigQuery в машинном обучении
– Проблема: Анализ петабайт данных без управления инфраструктурой, ожидания и больших затрат.
– Решение: Полностью управляемое бессерверное хранилище данных, являющееся краеугольным камнем конвейеров машинного обучения в GCP.
– Основные функции:
– Хранение данных для обучения
– Масштабируемая разработка признаков
– Обучение моделей с помощью BigQuery ML
– Хранение результатов прогнозирования
Бессерверная архитектура
– Преимущество: Устраняет необходимость управления инфраструктурой (выделение кластеров, определение размера узлов и т. д.).
– Механизм:
– Dremel Query Engine: Распределяет выполнение запросов между тысячами параллельных процессов.
– Colossus Storage Layer: Реплицирует данные для обеспечения надежности и высокой пропускной способности при чтении. – Практическое значение для машинного обучения:
– Не требуется планирование ресурсов для подготовки данных для обучения.
– Сложные агрегации по миллиардам строк масштабируются автоматически.
– Несколько специалистов по анализу данных выполняют запросы одновременно без конкуренции за ресурсы.
Колоночное хранилище
– Механизм: Хранит данные по столбцам (например, все идентификаторы клиентов вместе), а не по строкам.
– Преимущество → Производительность и стоимость:
– Извлечение признаков: Запрос, требующий 5 признаков из таблицы с 50 столбцами, сканирует только эти 5 столбцов, а не все 50.
– Экономия средств: Это позволяет сократить объём сканируемых данных на 90%, напрямую снижая затраты, поскольку BigQuery тарифицирует данные по количеству сканированных байтов.
– Сжатие: Аналогичные значения в столбце эффективно сжимаются, что снижает затраты на хранение и время выполнения запросов.
Структуры данных
– Наборы данных: Логические контейнеры для таблиц и моделей, используемые для организации и контроля доступа.
– Таблицы: Содержат фактические данные.
– Поддержка скалярных типов (int64, string) и сложных типов (array, struct).
– Вложенные/повторяющиеся структуры обеспечивают денормализацию, повышая производительность запросов за счёт устранения соединений.
– Представления: сохранённые SQL-запросы, действующие как виртуальные таблицы.
– Стандартные представления: выполнение запроса по каждой ссылке.
– Материализованные представления: предварительное вычисление и кэширование результатов, что значительно ускоряет выполнение часто используемых запросов (например, предварительное агрегирование признаков).
– Модели: модели машинного обучения BigQuery хранятся как объекты в наборах данных, что позволяет делать прогнозы с помощью SQL-функций.
Расположение и резидентность данных
– Требование: при создании набора данных необходимо указать географический регион.
– Региональные наборы данных:
– Данные находятся в одном регионе (например, us-central1).
– Реплицируются в нескольких зонах для обеспечения надёжности.
– Преимущество: минимальная задержка и отсутствие платы за передачу данных между регионами для совместно расположенных заданий машинного обучения.
– Многорегиональные наборы данных:
– Данные реплицируются в нескольких регионах в пределах обширной территории (например, США, ЕС).
– Преимущество: Более высокая доступность и производительность для глобально распределенных приложений.
– Недостаток: Стоимость выше, чем у регионального хранилища.
– Соответствие требованиям: Выбор местоположения критически важен для соблюдения таких норм, как GDPR, HIPAA и требований к суверенитету данных.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: