Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Accelerating Apache Parquet with metadata stores and specialized indexes using Apache DataFusion

Автор: Andrew Lamb

Загружено: 2025-06-11

Просмотров: 2479

Описание:

It is a common misconception that querying Apache Parquet data is constrained to the basic metadata built into the format itself and thus is slower than querying proprietary formats. Parquet does contain standard Min/Max metadata, "Page Index" and Bloom filters, and using open source composable systems such as Apache DataFusion, it is possible to build sophisticated caches and specialized system specific indexes while retaining broad ecosystem compatibility.

In this talk I review the structures built into Parquet for query acceleration, and demonstrate how to use a cache for parsed metadata, push row group and page pruning into a metadata store, and build a specialized index for multi-column primary keys.

Speaker Bio:
Andrew Lamb is a Staff Engineer at InfluxData, working in Rust on InfluxDB 3.0, focused on query processing, the Apache DataFusion query engine and the Apache Arrow ecosystem. He serves on the Apache DataFusion PMC (Current Chair), and on the Apache Arrow PMC, and actively contributes to DataFusion and the Arrow Rust implementations. He earned a BS and MEng in Course VI from MIT. More details are available at http://andrew.nerdnetworks.org/

Presentation Slides: https://docs.google.com/presentation/...

Links to examples I refer to in the video
https://github.com/apache/datafusion/...
https://github.com/apache/datafusion/...

Accelerating Apache Parquet with metadata stores and specialized indexes using Apache DataFusion

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

SIGMOD 2024 Practice: Apache Arrow DataFusion  A Fast, Embeddable, Modular Analytic Query Engine

SIGMOD 2024 Practice: Apache Arrow DataFusion A Fast, Embeddable, Modular Analytic Query Engine

Intro to Apache DataFusion: Technology, Community, and Not Quite Enough Time

Intro to Apache DataFusion: Technology, Community, and Not Quite Enough Time

Apache Iceberg: что это такое и почему все о нем говорят.

Apache Iceberg: что это такое и почему все о нем говорят.

The columnar roadmap: Apache Parquet and Apache Arrow

The columnar roadmap: Apache Parquet and Apache Arrow

Knowledge base expansion, data integration and insight generation - Marco Anteghini (LIFE)

Knowledge base expansion, data integration and insight generation - Marco Anteghini (LIFE)

Apache DataFusion September 2025 NYC Meetup

Apache DataFusion September 2025 NYC Meetup

DataFusion - The Database Building Toolkit (with Andrew Lamb)

DataFusion - The Database Building Toolkit (with Andrew Lamb)

Что такое Rest API (http)? Soap? GraphQL? Websockets? RPC (gRPC, tRPC). Клиент - сервер. Вся теория

Что такое Rest API (http)? Soap? GraphQL? Websockets? RPC (gRPC, tRPC). Клиент - сервер. Вся теория

К чему готовиться? Останемся без денег? Что делать, когда заблокируют всё? || Дмитрий Потапенко*

К чему готовиться? Останемся без денег? Что делать, когда заблокируют всё? || Дмитрий Потапенко*

Apache DataFusion. Putting Theory Into Practice by Matt Butrovich | DC Systems 004

Apache DataFusion. Putting Theory Into Practice by Matt Butrovich | DC Systems 004

1  Andrew Lamb - DataFusion Introduction

1 Andrew Lamb - DataFusion Introduction

После Купянска Путину не верят даже свои. Руслан Левиев

После Купянска Путину не верят даже свои. Руслан Левиев

What is AI Data Management? Discover, Clean, & Secure Data with AI

What is AI Data Management? Discover, Clean, & Secure Data with AI

The Parquet Format and Performance Optimization Opportunities Boudewijn Braams (Databricks)

The Parquet Format and Performance Optimization Opportunities Boudewijn Braams (Databricks)

Apache DataFusion Boston Meetup: September 12, 2025

Apache DataFusion Boston Meetup: September 12, 2025

СРОЧНО! КУЧЕР:

СРОЧНО! КУЧЕР: "Это просто позор". Что случилось на пресс-конференции Трампа и Зеленского

Building InfluxDB 3.0 with the FDAP Stack: Apache Flight, DataFusion, Arrow and Parquet (Paul Dix)

Building InfluxDB 3.0 with the FDAP Stack: Apache Flight, DataFusion, Arrow and Parquet (Paul Dix)

Faster DataFusion with StringView -  Xiangpeng Hao (Aug 15, 2024)

Faster DataFusion with StringView - Xiangpeng Hao (Aug 15, 2024)

DB Indexing in System Design Interviews - B-tree, Geospatial, Inverted Index, and more!

DB Indexing in System Design Interviews - B-tree, Geospatial, Inverted Index, and more!

Как защитить аккаунты и крипту без паролей и телефонов

Как защитить аккаунты и крипту без паролей и телефонов

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]