GPU Pipeline Optimization Explained | Async UDFs, CUDA Streams & Pinned Memory

Автор: Daft Engine

Загружено: 2025-09-10

Просмотров: 625

Описание:

🖥️ Whiteboard Deep Dive into GPU Pipeline Optimization

In this deep dive, Srinu Lade / srinivas-lade (Software Engineer working on Daft’s execution engine) breaks down how to optimize GPU pipelines for ML and multimodal data processing. Using architectural diagrams, he explains why sequential CPU→GPU execution creates bottlenecks and how techniques like async UDFs, CUDA streams, and pinned memory unlock parallelism.

What you’ll learn:
How GPU workloads flow: host↔device transfers, VRAM, kernel execution
Why Python UDFs are a bottleneck — and how async execution improves throughput
Using CUDA streams to overlap transfers and compute for better utilization
How GPU internals (H2D/D2H engines + compute units) enable pipeline parallelism
Reducing OS overhead with pinned memory reuse in PyTorch workflows
How Daft abstracts these optimizations into a high-level API for data/ML engineers

Our aim is to abstract away these low-level complexities and provide a high-level API in Daft that delivers optimized GPU execution out-of-the-box for ML workloads.

—

Daft. Simple and reliable data processing for any modality and scale.

Explore → https://daft.ai/
Build → https://docs.daft.ai/
Connect → https://www.daft.ai/slack
Contribute → https://github.com/Eventual-Inc/Daft
Learn → https://daft.ai/blog

pip install daft

GPU Pipeline Optimization Explained | Async UDFs, CUDA Streams & Pinned Memory

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Wrangle PDFs with Custom User Defined Functions (UDF) in Daft

Wrangle PDFs with Custom User Defined Functions (UDF) in Daft

Kubernetes — Простым Языком на Понятном Примере

Kubernetes — Простым Языком на Понятном Примере

Advanced GPU computing: Efficient CPU-GPU memory transfers, CUDA streams

Advanced GPU computing: Efficient CPU-GPU memory transfers, CUDA streams

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Mini Project: How to program a GPU? | CUDA C/C++

Mini Project: How to program a GPU? | CUDA C/C++

Понимание GD&T

КАК УСТРОЕН TCP/IP?

КАК УСТРОЕН TCP/IP?

Декораторы Python — наглядное объяснение

Декораторы Python — наглядное объяснение

Learning CUDA 10 Programming : Concurrency and Streams | packtpub.com

Learning CUDA 10 Programming : Concurrency and Streams | packtpub.com

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Data Processing for Any Data and Any Scale

Data Processing for Any Data and Any Scale

Что такое Rest API (http)? Soap? GraphQL? Websockets? RPC (gRPC, tRPC). Клиент - сервер. Вся теория

Что такое Rest API (http)? Soap? GraphQL? Websockets? RPC (gRPC, tRPC). Клиент - сервер. Вся теория

Как устроен PHP 🐘: фундаментальное знание для инженеров

Как устроен PHP 🐘: фундаментальное знание для инженеров

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Лучший Гайд по Kafka для Начинающих За 1 Час

Лучший Гайд по Kafka для Начинающих За 1 Час

Как работают жесткие диски? 💻💿🛠

Как работают жесткие диски? 💻💿🛠

NVIDIA CUDA Tutorial 9: Bank Conflicts

NVIDIA CUDA Tutorial 9: Bank Conflicts

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей