Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Optimising Open Source LLM Deployment on Cloud Run

Автор: PracticalGCP

Загружено: 2025-02-20

Просмотров: 854

Описание:

🚀 Deep Dive: Ollama vs VLLM vs HuggingFace TGI – Performance Comparison for Open-Source LLMs on Google Cloud Run

I’ve just released a follow-up to my first video, “When Cloud Run Meets Deepseek”! This new instalment is a detailed performance comparison of three deployment methods for open-source LLMs: Ollama, VLLM, and HuggingFace TGI. If you’re aiming for speed, concurrency, or cost-efficiency on Google Cloud Run, here’s a closer look!

🔑 Key Insights:
• Why Open-Source LLMs? Enjoy security, flexibility for fine-tuning, and cost control—excellent for enterprise scenarios.
• Why Cloud Run? Take advantage of serverless scaling (from 0 to 1,000 instances!), GPU support in preview, and scale-to-zero to keep costs down.

⚙️ Performance Deep Dive:
• Ollama: Straightforward to deploy and well-suited for moderate concurrency.
• VLLM: Excels at concise outputs, making it ideal for shorter or mid-length responses.
• HuggingFace TGI: Handles 60+ concurrent requests and 2,000+ tokens seamlessly.

✨ Distilled Models (e.g., Deepseek R1-7B): Compact, cost-effective, and surprisingly powerful for niche use cases.

💷 Cost Analysis: Combining Cloud Run with TGI can bring costs down to roughly 2.6p per user-hour at scale.

📈 Future Trends: Distilled models and innovations like NVIDIA’s Project Digits are leading to smaller, more efficient solutions with sharper performance.

⏱️ Jump to Key Sections:
• 01:17 - Why Open-Source LLMs Matter
• 03:04 - Why Cloud Run?
• 05:06 - Ollama vs VLLM vs HuggingFace TGI
• 07:26 - What’s a Distilled Model?
• 10:34 - Ollama Performance
• 12:36 - VLLM Performance
• 15:20 - TGI Performance
• 18:30 - Side-by-Side Comparison
• 22:37 - Cloud Run Cost Breakdown
• 23:46 - Live Demo
• 37:12 - The Future of Open-Source LLMs

👉 Watch the full video for GPU utilisation stats, latency benchmarks, and live demos. If you’re exploring LLM deployments or cloud optimisation, I’d love to hear your insights!

Source Code:
TGI: https://github.com/richardhe-fundamen...
VLLM: https://github.com/richardhe-fundamen...
Ollama: https://github.com/richardhe-fundamen...

#OpenSourceAI #LLM #GoogleCloud #CloudRun #AIOptimisation #TechInsights #MachineLearning #DeepSeek #DeepSeekR1

Optimising Open Source LLM Deployment on Cloud Run

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Запускайте локальный ИИ на любом ПК или Mac — Microsoft Foundry Local

Запускайте локальный ИИ на любом ПК или Mac — Microsoft Foundry Local

Cloud Run Flow Control

Cloud Run Flow Control

Manage Data Quality at Scale with Dataplex and Gemini

Manage Data Quality at Scale with Dataplex and Gemini

DKT86: Ingress NGINX уходит на пенсию: миграция на Gateway API и не только

DKT86: Ingress NGINX уходит на пенсию: миграция на Gateway API и не только

When Cloud Run Meets Deepseek

When Cloud Run Meets Deepseek

Faster Data Cleansing with BigQuery Pipe Syntax

Faster Data Cleansing with BigQuery Pipe Syntax

Roman Khavronenko - The Sixth Sense: Finding “Dead” Metrics and Silent Alerts in Your Monitoring

Roman Khavronenko - The Sixth Sense: Finding “Dead” Metrics and Silent Alerts in Your Monitoring

[Частично недоступно] Разверните своего агента ADK менее чем за 5 минут с помощью стартового паке...

[Частично недоступно] Разверните своего агента ADK менее чем за 5 минут с помощью стартового паке...

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

How effective is History-based Optimisations on BigQuery

How effective is History-based Optimisations on BigQuery

Войска отказались исполнять приказ / F-16 подняты по тревоге

Войска отказались исполнять приказ / F-16 подняты по тревоге

Kubernetes — Простым Языком на Понятном Примере

Kubernetes — Простым Языком на Понятном Примере

vLLM: Easily Deploying & Serving LLMs

vLLM: Easily Deploying & Serving LLMs

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Мессенджер Max - это аналог китайского WeChat. Но на самом деле это не так

Мессенджер Max - это аналог китайского WeChat. Но на самом деле это не так

Use GPUs in Cloud Run

Use GPUs in Cloud Run

The Ultimate Guide to Google Cloud Run

The Ultimate Guide to Google Cloud Run

Черное море скоро ВСЁ?

Черное море скоро ВСЁ?

Что такое Rest API (http)? Soap? GraphQL? Websockets? RPC (gRPC, tRPC). Клиент - сервер. Вся теория

Что такое Rest API (http)? Soap? GraphQL? Websockets? RPC (gRPC, tRPC). Клиент - сервер. Вся теория

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]