Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Accelerating Apache Parquet with metadata stores and specialized indexes using Apache DataFusion

Автор: Andrew Lamb

Загружено: 2025-06-11

Просмотров: 2477

Описание:

It is a common misconception that querying Apache Parquet data is constrained to the basic metadata built into the format itself and thus is slower than querying proprietary formats. Parquet does contain standard Min/Max metadata, "Page Index" and Bloom filters, and using open source composable systems such as Apache DataFusion, it is possible to build sophisticated caches and specialized system specific indexes while retaining broad ecosystem compatibility.

In this talk I review the structures built into Parquet for query acceleration, and demonstrate how to use a cache for parsed metadata, push row group and page pruning into a metadata store, and build a specialized index for multi-column primary keys.

Speaker Bio:
Andrew Lamb is a Staff Engineer at InfluxData, working in Rust on InfluxDB 3.0, focused on query processing, the Apache DataFusion query engine and the Apache Arrow ecosystem. He serves on the Apache DataFusion PMC (Current Chair), and on the Apache Arrow PMC, and actively contributes to DataFusion and the Arrow Rust implementations. He earned a BS and MEng in Course VI from MIT. More details are available at http://andrew.nerdnetworks.org/

Presentation Slides: https://docs.google.com/presentation/...

Links to examples I refer to in the video
https://github.com/apache/datafusion/...
https://github.com/apache/datafusion/...

Accelerating Apache Parquet with metadata stores and specialized indexes using Apache DataFusion

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Intro to Apache DataFusion: Technology, Community, and Not Quite Enough Time

Intro to Apache DataFusion: Technology, Community, and Not Quite Enough Time

SIGMOD 2024 Practice: Apache Arrow DataFusion  A Fast, Embeddable, Modular Analytic Query Engine

SIGMOD 2024 Practice: Apache Arrow DataFusion A Fast, Embeddable, Modular Analytic Query Engine

The columnar roadmap: Apache Parquet and Apache Arrow

The columnar roadmap: Apache Parquet and Apache Arrow

DataFusion - The Database Building Toolkit (with Andrew Lamb)

DataFusion - The Database Building Toolkit (with Andrew Lamb)

Как устроен PHP 🐘: фундаментальное знание для инженеров

Как устроен PHP 🐘: фундаментальное знание для инженеров

Kubernetes — Простым Языком на Понятном Примере

Kubernetes — Простым Языком на Понятном Примере

Две модели, которые должен знать каждый ML‑джун

Две модели, которые должен знать каждый ML‑джун

Apache DataFusion. Putting Theory Into Practice by Matt Butrovich | DC Systems 004

Apache DataFusion. Putting Theory Into Practice by Matt Butrovich | DC Systems 004

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Apache DataFusion September 2025 NYC Meetup

Apache DataFusion September 2025 NYC Meetup

Формат файла Parquet — объяснение пятилетнему ребенку!

Формат файла Parquet — объяснение пятилетнему ребенку!

Фрэнк Синатра, Нэт Кинг Коул, Бинг Кросби, Дин Мартин🎄Старые рождественские песни 1960-х–70-х годов

Фрэнк Синатра, Нэт Кинг Коул, Бинг Кросби, Дин Мартин🎄Старые рождественские песни 1960-х–70-х годов

The Parquet Format and Performance Optimization Opportunities Boudewijn Braams (Databricks)

The Parquet Format and Performance Optimization Opportunities Boudewijn Braams (Databricks)

1  Andrew Lamb - DataFusion Introduction

1 Andrew Lamb - DataFusion Introduction

Боитесь программировать? Бойтесь. Но программируйте. Показываю, где и что • Offtopic • Live Stream

Боитесь программировать? Бойтесь. Но программируйте. Показываю, где и что • Offtopic • Live Stream

Apache DataFusion Boston Meetup: September 12, 2025

Apache DataFusion Boston Meetup: September 12, 2025

Magical Christmas Lights | Art Frame Screensavers | Art for your TV | 4K

Magical Christmas Lights | Art Frame Screensavers | Art for your TV | 4K

Объяснение тензорных процессоров (TPU)

Объяснение тензорных процессоров (TPU)

5  Nick Karlov DataFusion as a heart of modern HTAP DB

5 Nick Karlov DataFusion as a heart of modern HTAP DB

Building InfluxDB 3.0 with the FDAP Stack: Apache Flight, DataFusion, Arrow and Parquet (Paul Dix)

Building InfluxDB 3.0 with the FDAP Stack: Apache Flight, DataFusion, Arrow and Parquet (Paul Dix)

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]