Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Kyutai Speech to Text 1B & 2.6B Local Setup

Автор: Tech Giant

Загружено: 2025-09-22

Просмотров: 634

Описание:

In this video we'll be testing Kyutai's speech-to-text models locally with Python. Checking out both the 1B English/French model and 2.6B English-only model using the terminal and a Gradio web app, to see if their streaming/realtime transcription capabilities actually work as advertised.

00:00 Intro: Kyutai STT Model
00:09 Kyutai TTS Demo
00:14 Kyutai STT Setup Details
00:30 Kyutai STT Realtime Transcription Demo
01:21 Kyutai's Github Repo
02:14 Kyutai STT Model Variants
03:03 Local Setup Begins
09:09 First Test: Realtime Transcription in the Terminal (MLX Model)
10:43 Kyutai STT Pytorch Model Setup
16:25 Second Test: Realtime Transcription with the Pytorch Model
17:08 Gradio Web UI Overview
19:42 Third Test: Realtime Transcription in Gradio Web App
20:40 Fourth Test: Multilingual Transcription Test
21:55 Fifth Test: Kyutai 2.6B Model Multilingual Test
23:05 Sixth Test: Kyutai STT 2.6B Realtime Transcription Gradio Web UI
24:01 Seventh Test: Longer Audio File Transcription
26:48 Audio Fiile Transcription Issue
29:25 Final Test
30:25 Final Remarks
31:40 Outro

🔗 LINKS
HF Repo:
1B Model: https://huggingface.co/kyutai/stt-1b-...
2.6B Model: https://huggingface.co/kyutai/stt-2.6...

Official Github Repo: https://github.com/kyutai-labs/delaye...
Project Github Repo: https://github.com/brainiakk/kyutai

#kyutai #stt #speechtotext #localstt #offlinestt #realtimetranscription #streamingstt #gradio #gradioui #cpuinference #ondevice #opensource #voiceai #speechrecognition #modelsetup #moshi #moshimlx #huggingface #tutorial #demo #developer #privacy #lowlatency #transcriptiondemo #speechmodels #whisperalternative #installguide #runlocally #microphoneinput #livetranscript #edgeai #edgeinference #kyutaistt

Kyutai Speech to Text 1B & 2.6B Local Setup

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Программируем с ИИ в VS Code - БЕСПЛАТНО! Сможет каждый!

Программируем с ИИ в VS Code - БЕСПЛАТНО! Сможет каждый!

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Gemini CLI | Free Open Source CLI Agent

Gemini CLI | Free Open Source CLI Agent

«Вот теперь я задумался об эмиграции»: зачем Кремль заблокировал Roblox и как реагируют россияне

«Вот теперь я задумался об эмиграции»: зачем Кремль заблокировал Roblox и как реагируют россияне

Veo 3 Video Generation Model with Google Flow

Veo 3 Video Generation Model with Google Flow

How To Use Git In VS Code Like A Pro!

How To Use Git In VS Code Like A Pro!

Docker за 20 минут

Docker за 20 минут

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

ВСЕ ЧТО НУЖНО ЗНАТЬ О ДЕПЛОЕ, DOCKER, CI/CD, ЕСЛИ ТЫ НОВИЧОК

ВСЕ ЧТО НУЖНО ЗНАТЬ О ДЕПЛОЕ, DOCKER, CI/CD, ЕСЛИ ТЫ НОВИЧОК

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Создавайте красивые панели инструментов Home Assistant легко!

Создавайте красивые панели инструментов Home Assistant легко!

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Мой Топ-10 инструментов Искусственного интеллекта

Мой Топ-10 инструментов Искусственного интеллекта

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Сквозная многомодальная аудиомодель в реальном времени | LFM2 Audio 1.5B

Сквозная многомодальная аудиомодель в реальном времени | LFM2 Audio 1.5B

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

EASIEST Way to Fine-Tune a LLM and Use It With Ollama

EASIEST Way to Fine-Tune a LLM and Use It With Ollama

Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)

Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)

RAG | ВСЁ, что тебе нужно знать (+ 11 Продвинутых стратегий)

RAG | ВСЁ, что тебе нужно знать (+ 11 Продвинутых стратегий)

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]