Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Обзор 48 раздела «Каталог данных и Dataplex» для профессиональных инженеров по машинному обучению...

Автор: Jules of Tech

Загружено: 2026-01-13

Просмотров: 4

Описание:

Цель встречи

Обзор каталога данных Google Cloud (теперь Dataplex) для управления данными машинного обучения.

Основные выводы

Dataplex решает проблемы поиска данных для машинного обучения, предоставляя единую систему метаданных, сокращая время, которое инженеры тратят на поиск и понимание данных, на 60–80%.

Он объединяет автоматические технические метаданные (схема, местоположение) с ручным бизнес-контекстом (описания, теги) для всестороннего поиска данных.

Теги политик (теперь IAM на основе аспектов) обеспечивают контроль доступа на уровне столбцов в BigQuery, позволяя безопасно разрабатывать признаки путем маскировки конфиденциальных данных (например, персональных данных) для неавторизованных пользователей.

Отслеживание происхождения данных отображает поток данных (источник → преобразование → потребление), обеспечивая критически важную информацию для устранения неполадок модели, анализа влияния и аудита соответствия.

Темы

Проблема: Проблемы поиска данных

Сценарий: Создание модели оттока клиентов с использованием сотен наборов данных BigQuery из разных проектов, многие из которых имеют загадочные имена и не имеют документации. — Задача: Найти правильную, актуальную и безопасную таблицу транзакций клиентов среди 15 вариантов.

— Влияние: Инженеры тратят 60–80% своего времени на поиск данных, что задерживает проекты машинного обучения.

Решение: Dataplex (ранее Data Catalog)

— Функция: Единая система управления метаданными, обеспечивающая поиск, понимание и управление данными.

— Типы метаданных:

— Технические: Автоматически собираются из сервисов GCP (BigQuery, Cloud Storage) → схема, местоположение, размер, контроль доступа.

— Бизнес: Добавляются вручную → описания, теги, контакты, оценки качества.

Основная функция 1: Поиск и обнаружение данных

— Функция: Поиск по ключевым словам во всех ресурсах данных GCP.

— Пример: Поиск по запросу «транзакции клиентов» возвращает релевантные таблицы с предварительным просмотром схемы, примерами столбцов и описаниями.

Ценность: Богатая метаданная (например, теги «production», «verified») отвечает на важные вопросы перед кодированием:

Актуальность данных и статус их обслуживания

Наличие персональных данных и риски соответствия требованиям

Владелец данных и их надежность для обучения модели

Основная функция 2: Тегирование для контекста и управления

Функция: Пары «ключ-значение», прикрепленные к наборам данных для классификации и контекста.

Варианты использования:

Организация: Группировка наборов данных по домену (например, клиентская аналитика).

Фильтрация: Поиск данных, готовых к использованию в производстве (например, environment=production).

Управление: Пометка конфиденциальных данных (например, contains_pii=true).

Сотрудничество: Указание качества данных (например, data_quality=verified).

Реализация: Пользовательские шаблоны тегов (теперь типы аспектов) определяют структуру тегов (например, готовность к обучению со значениями Ready, NeedsCleaning).

Основная функция 3: Политика тегов для обеспечения безопасности на уровне столбцов

Функция: Специализированные теги, обеспечивающие контроль доступа на уровне столбцов в BigQuery через IAM.

Вариант использования: Безопасная разработка признаков с использованием конфиденциальных данных (например, HIPAA, GDPR).

Механизм:

1. Таксономия: Создание иерархической системы классификации (например, Общедоступные, Ограниченные, Высококонфиденциальные персональные данные).

2. Тегирование: Применение тегов к отдельным столбцам BigQuery (например, SSN → Высококонфиденциальные персональные данные).

3. Политика IAM: Предоставление ролям (например, сотруднику по защите данных) доступа к определенным уровням тегов.

Результат: BigQuery автоматически маскирует/редактирует конфиденциальные столбцы для неавторизованных пользователей, обеспечивая безопасную разработку признаков при сохранении принципа минимальных привилегий.

Основная функция 4: Интеграция с BigQuery и отслеживание происхождения данных

Интеграция с BigQuery:

Автоматическая синхронизация: Ресурсы BigQuery появляются в Dataplex в течение нескольких минут после создания. - Двусторонняя синхронизация: обновления метаданных в BigQuery или Dataplex синхронизируются друг с другом.

Статистика использования: отслеживает частоту запросов и пользователей для определения авторитетных наборов данных.

Происхождение данных:

Функция: отслеживает поток данных (источник → преобразование → потребление).

Захват: автоматический захват для операций BigQuery (например, SELECT ... INTO) и конвейеров Dataflow.

Ценность:

Устранение неполадок: отслеживание ошибок модели до проблем с качеством данных (например, устаревшие данные из исходного источника).

Анализ влияния: выявление зависимостей от нижестоящих источников перед устареванием таблицы.

Соответствие требованиям: обеспечение сквозного отслеживания происхождения данных для аудита.

Обзор 48 раздела «Каталог данных и Dataplex» для профессиональных инженеров по машинному обучению...

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Сигналы ФРС, реальность искусственного интеллекта и как на самом деле устроиться на работу 6 янва...

Сигналы ФРС, реальность искусственного интеллекта и как на самом деле устроиться на работу 6 янва...

КУСТО УВИДЕЛ ЧТО СКРЫВАЛИ НА ДНЕ БАЙКАЛА! О ЧЕМ МОЛЧАЛ СССР?

КУСТО УВИДЕЛ ЧТО СКРЫВАЛИ НА ДНЕ БАЙКАЛА! О ЧЕМ МОЛЧАЛ СССР?

Обзор рынка труда в сфере технологий и советы по карьерному росту 20260103

Обзор рынка труда в сфере технологий и советы по карьерному росту 20260103

Agentic Ai lecture 2

Agentic Ai lecture 2

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сокращения, вызванные искусственным интеллектом, и конец профессий для начинающих специалистов: ч...

Сокращения, вызванные искусственным интеллектом, и конец профессий для начинающих специалистов: ч...

Демонстрация функционала нового Портала

Демонстрация функционала нового Портала

Обзор 50 пунктов от Vertex AI для профессиональных инженеров по машинному обучению в Google Cloud

Обзор 50 пунктов от Vertex AI для профессиональных инженеров по машинному обучению в Google Cloud

Я случайно создал приложение на работе. Gemini Canvas + NotebookLM гайд.

Я случайно создал приложение на работе. Gemini Canvas + NotebookLM гайд.

Economic and Tech Trends for your Career (January 2026)

Economic and Tech Trends for your Career (January 2026)

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Новый Робот Boston Dynamics | Домашний Робот LG | Выставка Роботов CES 2026

Новый Робот Boston Dynamics | Домашний Робот LG | Выставка Роботов CES 2026

ПОЛНЫЙ ПРОВАЛ «ОРЕШНИКА». Путин выставил себя на посмешище

ПОЛНЫЙ ПРОВАЛ «ОРЕШНИКА». Путин выставил себя на посмешище

Что делает программист весь день? Показываю

Что делает программист весь день? Показываю

Где начало СХЕМЫ? Понимаем, читаем, изучаем схемы. Понятное объяснение!

Где начало СХЕМЫ? Понимаем, читаем, изучаем схемы. Понятное объяснение!

Claude за 20 минут: Полный курс для новичков

Claude за 20 минут: Полный курс для новичков

Почему огонь ГОРИТ. Ответ Фейнмана переворачивает реальность

Почему огонь ГОРИТ. Ответ Фейнмана переворачивает реальность

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Оскорбительные выражения – за гранью. Михаил Подоляк

Оскорбительные выражения – за гранью. Михаил Подоляк

ДАМПЫ В JAVA на практике, разбираем проблемы

ДАМПЫ В JAVA на практике, разбираем проблемы

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com