Gen AI on Intel Arc GPUs - Building a Dual Arc B580 LLM Inference Server! (24 GB VRAM!)

Автор: YourAvgDev

Загружено: 2025-12-28

Просмотров: 6

Описание:

How to get 24 GB VRAM for cheap? Let's try 2 Intel Arc B580s as a cheap solution!
I am going to start a really cool video series where I am going to optimize an LLM inference server running on Intel Arc B580s with 12 GB VRAM each. It's a more cost-effective and efficient solution to get 24 GB VRAM total and still be able to inference models like gpt-oss-20b at rates up to 83 tokens/s!

We'll be using vLLM for xpu to achieve this. vLLM for xpu is hard to setup so in the next video I will walk you through step by step on how to get it set up correctly natively without Docker so that you can always be on the latest vLLM to run the latest models locally.

Specs of the system:
AMD Ryzen 9 9900X 12c/24t
64 GB DDR5-5600 RAM
1 TB PNY NVMe SSD
(2) Intel Arc B580 12 GB VRAM Battlemage GPUs
Motherboard: MSI MAG Tomahawk X870E

Gen AI on Intel Arc GPUs - Building a Dual Arc B580 LLM Inference Server! (24 GB VRAM!)

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Из дата-центра в игровой компьютер - Nvidia Tesla V100 в работе и играх.

Из дата-центра в игровой компьютер - Nvidia Tesla V100 в работе и играх.

How to Install WSL and CUDA Toolkit From Scratch

How to Install WSL and CUDA Toolkit From Scratch

Лучшие ATX B850 — сравнение и тесты

Лучшие ATX B850 — сравнение и тесты

Они унизили уборщика — и поплатились за это | Розыгрыш в спортзале от Анатолия № 57

Они унизили уборщика — и поплатились за это | Розыгрыш в спортзале от Анатолия № 57

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Почему Азовское море — самое опасное в мире

Почему Азовское море — самое опасное в мире

Давайте почитаем — Глубокое обучение для программистов с использованием fastai и PyTorch — 03

Давайте почитаем — Глубокое обучение для программистов с использованием fastai и PyTorch — 03

После Купянска Путину не верят даже свои. Руслан Левиев

После Купянска Путину не верят даже свои. Руслан Левиев

MacBook Air M1 не включается, не заряжается и как оказалось не видит АКБ. Отремонтировал успешно!

MacBook Air M1 не включается, не заряжается и как оказалось не видит АКБ. Отремонтировал успешно!

Рост в 3 раза — это начало! ЧТО ПРОИСХОДИТ С ЦЕНАМИ НА ОЗУ И SSD?

Рост в 3 раза — это начало! ЧТО ПРОИСХОДИТ С ЦЕНАМИ НА ОЗУ И SSD?

Converting safetensors to GGUF on DGX Spark for Llama.cpp Inference

Converting safetensors to GGUF on DGX Spark for Llama.cpp Inference

Чистка и новые резиновые ножки для клавиатуры Kinesis Advantage360

Чистка и новые резиновые ножки для клавиатуры Kinesis Advantage360

Щелин: Европа пугает войной — и заставляет Россию готовиться к худшему

Щелин: Европа пугает войной — и заставляет Россию готовиться к худшему

Открыл мастерскую ПК! Первые клиенты и проблемы

Открыл мастерскую ПК! Первые клиенты и проблемы

Купил два идеальных ноута по 60.000 рублей! Lenovo Xiaoxin Pro 16C 2025

Купил два идеальных ноута по 60.000 рублей! Lenovo Xiaoxin Pro 16C 2025

Лучшие (не) дорогие SSD из DNS | Проверили 10 популярных NVMe дисков по низу рынка

Лучшие (не) дорогие SSD из DNS | Проверили 10 популярных NVMe дисков по низу рынка

Local LLM Coding - GameboyAI - Basic CPU and Memory

Local LLM Coding - GameboyAI - Basic CPU and Memory

Лучший ПК на Windows – это iMac | Старый моноблок Apple vs мини-ПК на N100

Лучший ПК на Windows – это iMac | Старый моноблок Apple vs мини-ПК на N100

Мы ЗАСТРЯЛИ в Солнечной системе, и вот почему... | Михаил Никитин, Борис Штерн

Мы ЗАСТРЯЛИ в Солнечной системе, и вот почему... | Михаил Никитин, Борис Штерн

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение