Semi-supervised Learning for Low-resource Multilingual and Multimodal Speech Proc...(Sakriani Sakti)

Автор: HiTZ zentroa

Загружено: 2022-05-06

Просмотров: 200

Описание:

*Title: Semi-supervised Learning for Low-resource Multilingual and Multimodal Speech Processing with Machine Speech Chain.
Summary: The development of advanced spoken language technologies based on automatic speech recognition (ASR) and text-to-speech synthesis (TTS) has enabled computers to either learn how to listen or speak. Many applications and services are now available but still support fewer than 100 languages. Nearly 7000 living languages that are spoken by 350 million people remain uncovered. This is because the construction is commonly done based on machine learning trained in a supervised fashion where a large amount of paired speech and corresponding transcription is required. In this talk, we will introduce a semi-supervised learning mechanism based on a machine speech chain framework. First, we describe the primary machine speech chain architecture that learns not only to listen or speak but also to listen while speaking. The framework enables ASR and TTS to teach each other given unpaired data. After that, we describe the use of machine speech chain for code-switching and cross-lingual ASR and TTS of several languages, including low-resourced ethnic languages. Finally, we describe the recent multimodal machine chain that mimics overall human communication to listen while speaking and visualizing. With the support of image captioning and production models, the framework enables ASR and TTS to improve their performance using an image-only dataset.

Semi-supervised Learning for Low-resource Multilingual and Multimodal Speech Proc...(Sakriani Sakti)

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Humans Learn From Task Descriptions and So Should Our Models (Hinrich Schuetze)

Humans Learn From Task Descriptions and So Should Our Models (Hinrich Schuetze)

Prompting is *not* all you need! Or why Multi-LLM Collaboration Matters-Mirella Lapata (Edin)

Prompting is *not* all you need! Or why Multi-LLM Collaboration Matters-Mirella Lapata (Edin)

Multilingual LLM Evaluation in Practical Settings - Sebastian Ruder (Meta)

Multilingual LLM Evaluation in Practical Settings - Sebastian Ruder (Meta)

xCOMET,Tower,EuroLLM: Open & Multilingual LLMs for Europe-André F. T. Martins~Universidade de Lisboa

xCOMET,Tower,EuroLLM: Open & Multilingual LLMs for Europe-André F. T. Martins~Universidade de Lisboa

The Mímir Project: Impact of copyrighted materials in LLMs - Javier de la RosaJavier de la Rosa

The Mímir Project: Impact of copyrighted materials in LLMs - Javier de la RosaJavier de la Rosa

Клонирование голоса локально. Бесплатный синтез речи и API для ваших проектов!

Клонирование голоса локально. Бесплатный синтез речи и API для ваших проектов!

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Ночные пробуждения в 3–4 часа: как найти причину и вернуть глубокий сон.

Ночные пробуждения в 3–4 часа: как найти причину и вернуть глубокий сон.

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Дай мне 31 минуту и ты будешь общаться лучше 87% людей

Дай мне 31 минуту и ты будешь общаться лучше 87% людей

Как я учусь в 10 раз быстрее: Система с AI, Perplexity и NotebookLM

Как я учусь в 10 раз быстрее: Система с AI, Perplexity и NotebookLM

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

ЖЕЛЕЗНЫЙ ЗАНАВЕС РОССИИ #веллер 23 12 2025

ЖЕЛЕЗНЫЙ ЗАНАВЕС РОССИИ #веллер 23 12 2025

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Алгоритмы на Python 3. Лекция №1

Алгоритмы на Python 3. Лекция №1

Интервью по проектированию системы Google: Design Spotify (с бывшим менеджером по маркетингу Google)

Интервью по проектированию системы Google: Design Spotify (с бывшим менеджером по маркетингу Google)

Алгоритмы и структуры данных ФУНДАМЕНТАЛЬНЫЙ КУРС от А до Я. Графы, деревья, хеш таблицы и тд

Алгоритмы и структуры данных ФУНДАМЕНТАЛЬНЫЙ КУРС от А до Я. Графы, деревья, хеш таблицы и тд