How I Tamed 2 × RTX 5090 + 2 × 4090 with Llama.cpp fork

Автор: Mukul Tripathi

Загружено: 2025-06-20

Просмотров: 1594

Описание:

In this video, I tackle the challenge of setting up a heterogeneous multi-GPU system with two NVIDIA RTX 5090s and two RTX 4090s (100GB+ VRAM total). We dive deep into running 200B+ parameter models like DeepSeek R1 and Qwen3 using two frameworks:
🦙 llama.cpp (82k stars)
🦙 ik-llama.cpp (fork with insane multi-GPU support)

Key Highlights:
ik-llama.cpp Setup: How to clone, build, and configure for mixed GPUs (CUDA arch flags, VRAM allocation).
Performance Benchmarks:

700 tokens/sec prompt processing with ik-llama.cpp (vs 400-450 on vanilla llama.cpp).
10-23 tokens/sec generation across frameworks.
80K context length support (vs 24K on k-transformers).
Multi-GPU Layer Offloading: Custom scripts to distribute model layers across RTX 5090s/4090s.
Live Crash Demo: Lessons on VRAM limits and avoiding OOM errors.
Benchmarking Tools: Use llama-bench to test your config.

Timestamps:
0:00 Intro & hardware overview
1:17 Why multi-GPU with mixed cards is painful in K-Transformers
2:25 Llama.cpp vs ik_llama.cpp at a glance (stars aren’t everything)
3:55 Live VRAM read-out: 2×5090 + 2×4090 (more than 100 GB)
7:23 First speed test: 120 TPS → 700 TPS after tuning
14:09 Building ik_llama.cpp for Ada-Lovelace & Blackwell (-DCMAKE_CUDA_ARCHITECTURES=86;89;120)
18:00 Regex-based layer off-loading explained (-ot "blk\+\.ffn=CUDA")
29:40 Crash & recover: finding the VRAM sweet spot
38:02 llama-sweep-bench: automate prompt/gen benchmarks
41:55 Context length show-down: 24 K (K-Trans) vs 40 K / 80 K / 128 K (IK/Llama.cpp)
48:10 Single-GPU fallback test (one 4090)
51:15 Community resources & my startup scripts
53:14 Final thoughts & when to stick with vanilla Llama.cpp (function calling)

Resources:
ik-llama.cpp GitHub: https://github.com/ikawrakow/ik_llama...
HuggingFace Models: https://huggingface.co/ubergarm/Qwen3...
My GPU Layer Offloading Strategy: https://github.com/ikawrakow/ik_llama...

Tags: #AI #MachineLearning #MultiGPU #RTX5090 #llama.cpp #ikllama #LargeLanguageModels #DL #TechTutorial

How I Tamed 2 × RTX 5090 + 2 × 4090 with Llama.cpp fork

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Fast AI inference on World’s Most Powerful AI Workstation GPUs with 2x NVIDIA RTX PRO 6000 Blackwell

Fast AI inference on World’s Most Powerful AI Workstation GPUs with 2x NVIDIA RTX PRO 6000 Blackwell

Топ технологий 2025г. Выставка автомобилей в г.Гуанчжоу.

Топ технологий 2025г. Выставка автомобилей в г.Гуанчжоу.

Indexing PDF Docs using Search API and Solr in Drupal

Indexing PDF Docs using Search API and Solr in Drupal

💾СОБРАЛ NAS НА TrueNAS💽 НЕ ПОНИМАЮ, КАК ЖИЛ БЕЗ НЕГО САМОДЕЛЬНОЕ ХРАНИЛИЩЕ ЭТО ПРОСТО

💾СОБРАЛ NAS НА TrueNAS💽 НЕ ПОНИМАЮ, КАК ЖИЛ БЕЗ НЕГО САМОДЕЛЬНОЕ ХРАНИЛИЩЕ ЭТО ПРОСТО

Дефицит DDR5 и Nvidia, рост цен RTX 5000, аналог DLSS 3, ИИ агенты Windows 11

Дефицит DDR5 и Nvidia, рост цен RTX 5000, аналог DLSS 3, ИИ агенты Windows 11

The easiest way to run LLMs locally on your GPU - llama.cpp Vulkan

The easiest way to run LLMs locally on your GPU - llama.cpp Vulkan

Мессенджер Max - это аналог китайского WeChat. Но на самом деле это не так

Мессенджер Max - это аналог китайского WeChat. Но на самом деле это не так

Свой VPN для обхода блокировок без посредников и без знаний IT

Свой VPN для обхода блокировок без посредников и без знаний IT

Я Построил Рогатку Более Мощную, чем Пистолет

Я Построил Рогатку Более Мощную, чем Пистолет

Запускаю DeepSeek на домашнем сервере с видеокартой. Подписка на Chat GPT больше не нужна.

Запускаю DeepSeek на домашнем сервере с видеокартой. Подписка на Chat GPT больше не нужна.

RTX PRO 6000 Blackwell против RTX 5090: решающее противостояние ИИ-видеокарт для генерации изобра...

RTX PRO 6000 Blackwell против RTX 5090: решающее противостояние ИИ-видеокарт для генерации изобра...

Как финский гик ВЫНЕС Майкрософт и стал богом айти // Линус Торвальдс

Как финский гик ВЫНЕС Майкрософт и стал богом айти // Линус Торвальдс

Kubernetes — Простым Языком на Понятном Примере

Kubernetes — Простым Языком на Понятном Примере

I Was Not Expecting This! 120 BILLION Params, 120 Tokens PER SECOND (feat llama.cpp)

I Was Not Expecting This! 120 BILLION Params, 120 Tokens PER SECOND (feat llama.cpp)

Will Unified Memory Kill Discrete GPUs for AI?

Will Unified Memory Kill Discrete GPUs for AI?

Most POWERFUL Graphic Cards (2010-2025) - an EPIC GPU battle!

Most POWERFUL Graphic Cards (2010-2025) - an EPIC GPU battle!

ВЗЛОМАЛ колонку и заменил Алису на своего ассистента: 5 лет на получение root и модификацию прошивки

ВЗЛОМАЛ колонку и заменил Алису на своего ассистента: 5 лет на получение root и модификацию прошивки

Run DeepSeek R1 0528 Locally - Full Hardware & Software Setup

Run DeepSeek R1 0528 Locally - Full Hardware & Software Setup

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Вы думали, что допинг — это плохо? Подождите, пока не услышите об электромагнитных велосипедах.

Вы думали, что допинг — это плохо? Подождите, пока не услышите об электромагнитных велосипедах.