Пошаговое руководство для инженеров машинного обучения Google Cloud Professional: BigQuery Server...

Автор: Jules of Tech

Загружено: 2025-12-14

Просмотров: 11

Описание:

Прохождение 18-го этапа работы инженера по машинному обучению Google Cloud Professional по BigQuery (бессерверное, колоночное хранилище, структуры данных, расположения и размещение данных) — 24 ноября
СМОТРЕТЬ ЗАПИСЬ: https://fathom.video/share/G-BsrTVkeP...
Цель встречи

Представить BigQuery как основу для инфраструктуры данных машинного обучения GCP.

Основные выводы

– Бессерверная архитектура: автоматическое масштабирование BigQuery устраняет необходимость в управлении инфраструктурой, позволяя командам машинного обучения сосредоточиться на анализе данных, а не на операциях.
– Колоночное хранилище: сканирование только необходимых столбцов (а не целых строк) обеспечивает значительный прирост производительности и экономию средств, поскольку BigQuery взимает плату за количество сканированных байтов.
– Интегрированная платформа машинного обучения: BigQuery обучает модели непосредственно на данных через SQL, устраняя необходимость в перемещении данных и упрощая конвейер машинного обучения. – Размещение данных: Расположение набора данных (например, us-central1) критически важно для производительности, стоимости и соответствия требованиям (например, GDPR, HIPAA).

Темы

Роль BigQuery в машинном обучении

– Проблема: Анализ петабайт данных без управления инфраструктурой, ожидания и больших затрат.
– Решение: Полностью управляемое бессерверное хранилище данных, являющееся краеугольным камнем конвейеров машинного обучения в GCP.
– Основные функции:
– Хранение данных для обучения
– Масштабируемая разработка признаков
– Обучение моделей с помощью BigQuery ML
– Хранение результатов прогнозирования

Бессерверная архитектура

– Преимущество: Устраняет необходимость управления инфраструктурой (выделение кластеров, определение размера узлов и т. д.).
– Механизм:
– Dremel Query Engine: Распределяет выполнение запросов между тысячами параллельных процессов.
– Colossus Storage Layer: Реплицирует данные для обеспечения надежности и высокой пропускной способности при чтении. – Практическое значение для машинного обучения:
– Не требуется планирование ресурсов для подготовки данных для обучения.
– Сложные агрегации по миллиардам строк масштабируются автоматически.
– Несколько специалистов по анализу данных выполняют запросы одновременно без конкуренции за ресурсы.

Колоночное хранилище

– Механизм: Хранит данные по столбцам (например, все идентификаторы клиентов вместе), а не по строкам.
– Преимущество → Производительность и стоимость:
– Извлечение признаков: Запрос, требующий 5 признаков из таблицы с 50 столбцами, сканирует только эти 5 столбцов, а не все 50.
– Экономия средств: Это позволяет сократить объём сканируемых данных на 90%, напрямую снижая затраты, поскольку BigQuery тарифицирует данные по количеству сканированных байтов.
– Сжатие: Аналогичные значения в столбце эффективно сжимаются, что снижает затраты на хранение и время выполнения запросов.

Структуры данных

– Наборы данных: Логические контейнеры для таблиц и моделей, используемые для организации и контроля доступа.
– Таблицы: Содержат фактические данные.
– Поддержка скалярных типов (int64, string) и сложных типов (array, struct).
– Вложенные/повторяющиеся структуры обеспечивают денормализацию, повышая производительность запросов за счёт устранения соединений.
– Представления: сохранённые SQL-запросы, действующие как виртуальные таблицы.
– Стандартные представления: выполнение запроса по каждой ссылке.
– Материализованные представления: предварительное вычисление и кэширование результатов, что значительно ускоряет выполнение часто используемых запросов (например, предварительное агрегирование признаков).
– Модели: модели машинного обучения BigQuery хранятся как объекты в наборах данных, что позволяет делать прогнозы с помощью SQL-функций.

Расположение и резидентность данных

– Требование: при создании набора данных необходимо указать географический регион.
– Региональные наборы данных:
– Данные находятся в одном регионе (например, us-central1).
– Реплицируются в нескольких зонах для обеспечения надёжности.
– Преимущество: минимальная задержка и отсутствие платы за передачу данных между регионами для совместно расположенных заданий машинного обучения.
– Многорегиональные наборы данных:
– Данные реплицируются в нескольких регионах в пределах обширной территории (например, США, ЕС).
– Преимущество: Более высокая доступность и производительность для глобально распределенных приложений.
– Недостаток: Стоимость выше, чем у регионального хранилища.
– Соответствие требованиям: Выбор местоположения критически важен для соблюдения таких норм, как GDPR, HIPAA и требований к суверенитету данных.

Пошаговое руководство для инженеров машинного обучения Google Cloud Professional: BigQuery Server...

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Обзор рынка труда в сфере технологий и советы по карьерному росту 20260103

Обзор рынка труда в сфере технологий и советы по карьерному росту 20260103

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Синьор 1С: 10 привычек, без которых ты не вырастешь

Синьор 1С: 10 привычек, без которых ты не вырастешь

Что такое конвейер данных? | Почему он так популярен?

Что такое конвейер данных? | Почему он так популярен?

Сравнение CockroachDB и Postgres

Сравнение CockroachDB и Postgres

Data Analyst Bootcamp: Zero to Hero

Data Analyst Bootcamp: Zero to Hero

Обзор 50 пунктов от Vertex AI для профессиональных инженеров по машинному обучению в Google Cloud

Обзор 50 пунктов от Vertex AI для профессиональных инженеров по машинному обучению в Google Cloud

How I Passed the Google Cloud Professional ML Engineer Exam

How I Passed the Google Cloud Professional ML Engineer Exam

18 крутых способов использовать ChatGPT, которые могут ЗАПРЕТИТЬ!

18 крутых способов использовать ChatGPT, которые могут ЗАПРЕТИТЬ!

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Возможно ли создать компьютеры с техпроцессом меньше 1 нм

Возможно ли создать компьютеры с техпроцессом меньше 1 нм

Что делает программист весь день? Показываю

Что делает программист весь день? Показываю

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Обзор 49 для профессионального инженера по машинному обучению в Google Cloud: Подготовка данных

Обзор 49 для профессионального инженера по машинному обучению в Google Cloud: Подготовка данных

Если у тебя спросили «Как твои дела?» — НЕ ГОВОРИ! Ты теряешь свою силу | Еврейская мудрость

Если у тебя спросили «Как твои дела?» — НЕ ГОВОРИ! Ты теряешь свою силу | Еврейская мудрость

Машинное обучение в Google Cloud

Машинное обучение в Google Cloud

Они убили китайскую электронику! Как США и Нидерланды сломали Китай за один ход

Они убили китайскую электронику! Как США и Нидерланды сломали Китай за один ход

Обзор типичного ФИШИНГОВОГО сайта

Обзор типичного ФИШИНГОВОГО сайта

Понимание сертификации Google Certified Machine Learning Engineering

Понимание сертификации Google Certified Machine Learning Engineering

Zettelkasten + AI: Как я связал ChatGPT и Obsidian в единую систему знаний

Zettelkasten + AI: Как я связал ChatGPT и Obsidian в единую систему знаний