Сэкономьте 50 процентов усилий по разработке данных с помощью непрерывных запросов
Автор: PracticalGCP
Загружено: 2024-08-11
Просмотров: 2472
Дополнение: проблемы со стоимостью, упомянутые в этом видео, больше не актуальны после внедрения функции автоматического масштабирования слотов https://docs.cloud.google.com/bigquer...
Могут ли непрерывные запросы #BigQuery сэкономить вашей организации 50% усилий по разработке данных?
Я знал, что немного опоздал с обсуждением, но я тщательно протестировал эту функцию, чтобы предоставить всесторонний обзор. Я планировал подробно разобраться, какие сценарии использования приносят наибольшую пользу, откуда берётся реальная экономия времени и, самое главное, готова ли она к использованию в производственных средах. Я также намеревался осветить некоторые ключевые проблемы, с которыми столкнулся. Надеюсь, ожидание того стоило!
Большое спасибо Нику Орлову за его невероятную поддержку и энтузиазм в развитии функции непрерывных запросов в BigQuery. Он сыграл ключевую роль в сборе отзывов и даже написал замечательную статью, которую определённо стоит прочитать: «Непрерывные запросы BigQuery делают анализ данных в реальном времени» (https://cloud.google.com/blog/product...)
Повестка дня
01:48 — Что такое непрерывные запросы
04:18 — Как работают непрерывные запросы
08:02 — Экономия 50% усилий по обработке данных?
14:16 — Непрерывные запросы в действии!
25:42 — Проблемы с параллелизмом и стоимостью
28:50 — Функции, которые я бы хотел использовать в критически важных конвейерах
34:52 — Что стоит учитывать при запуске в рабочей среде
36:28 — Дальнейшие шаги
Презентация: https://docs.google.com/presentation/...
Рассказывая об этой чрезвычайно мощной функции, хочу упомянуть о важной проблеме, которую я обнаружил всего два дня назад и которая, надеюсь, является лишь ограничением публичного обзора. Если вы перейдете к 24:21 видео, то увидите, что я продемонстрировал возможность отправки только одного непрерывного запроса с 50 слотами и всего трёх — со 100 слотами. Это не кажется логичным (учитывая, что непрерывные запросы, судя по метрикам, занимают совсем немного слотов) и делает стоимость входа чрезвычайно высокой (2500 долларов в месяц за 50 слотов). Это непрактично, если 100 слотов позволяют выполнить только три отправки. Я протестировал это с двумя разными аккаунтами Google Cloud и столкнулся с той же проблемой.
Учитывая, что нет возможности вручную увеличить количество одновременных запросов (цитата из документации: «You can't configure continuation query concurrency. BigQuery automaticly determines the number of continue requests that can run concurrently, based on available reserveassignments that use the CONTINUOUS job type»), я не смог найти решение этой проблемы на данном этапе.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: