Появление открытого озера данных | Жюльен Ле Дем, AI By the Bay 2025
Автор: FunctionalTV
Загружено: 2025-12-04
Просмотров: 234
Появление открытого озера данных.
За последнее десятилетие экосистема больших данных достигла зрелости и превратилась из плавильного котла конкурирующих проектов в гибкую экосистему, организованную вокруг нескольких стандартов с открытым исходным кодом.
Компоненты баз данных, как распределенных, так и нераспределенных, стали общедоступными и представляют собой отдельные части, которые любой желающий может объединить в специализированные движки для решения конкретных задач. Определите свои ограничения и создайте движок запросов, который решит вашу задачу.
Невероятно видеть внедрение таких ключевых компонентов, как Parquet, Arrow, Iceberg и DataFusion. Они обеспечивают уровень взаимодействия, позволяющий использовать данные без создания изолированных хранилищ и дублирования.
В этом докладе он обсуждает влияние облака и появление открытого озера данных, разрушающего эту изолированность и закладывающего основу этой экосистемы. Поскольку вычисления и хранение данных могут быть эффективно разделены, общий уровень хранения позволяет создать динамичную экосистему инструментов по требованию, специализированных для конкретных сценариев использования, что позволяет избежать привязки к поставщику.
Жюльен Ле Дем — ведущий инженер компании Datadog, сотрудник ASF и член Технического консультативного совета LFAI&Data. Он был одним из создателей проектов с открытым исходным кодом Parquet, Arrow и OpenLineage, а также участвует в ряде других.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: