Multilingual LLM Evaluation in Practical Settings - Sebastian Ruder (Meta)

Автор: HiTZ zentroa

Загружено: 2025-02-10

Просмотров: 308

Описание:

Large language models (LLMs) are increasingly used in a variety of applications across the globe but do not provide equal utility across languages. In this talk, I will discuss multilingual evaluation of LLMs in two practical settings: conversational instruction-following and usage of quantized models. For the first part, I will focus on a specific aspect of multilingual conversational ability where errors result in a jarring user experience: generating text in the user’s desired language. I will describe a new benchmark and evaluation of a range of LLMs. We find that even the strongest models exhibit language confusion, i.e., they fail to consistently respond in the correct language. I will discuss what affects language confusion, how to mitigate it, and potential extensions. In the second part, I will discuss the first evaluation study of quantized multilingual LLMs across languages. We find that automatic metrics severely underestimate the negative impact of quantization and that human evaluation—which has been neglected by prior studies—is key to revealing harmful effects. Overall, I highlight limitations of multilingual LLMs and challenges of real-world multilingual evaluation.

Multilingual LLM Evaluation in Practical Settings - Sebastian Ruder (Meta)

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

The Mímir Project: Impact of copyrighted materials in LLMs - Javier de la RosaJavier de la Rosa

The Mímir Project: Impact of copyrighted materials in LLMs - Javier de la RosaJavier de la Rosa

Prompting is *not* all you need! Or why Multi-LLM Collaboration Matters-Mirella Lapata (Edin)

Prompting is *not* all you need! Or why Multi-LLM Collaboration Matters-Mirella Lapata (Edin)

Meaning making with artificial interlocutors and risks of language technology-Emily M. Bender (UW)

Meaning making with artificial interlocutors and risks of language technology-Emily M. Bender (UW)

xCOMET,Tower,EuroLLM: Open & Multilingual LLMs for Europe-André F. T. Martins~Universidade de Lisboa

xCOMET,Tower,EuroLLM: Open & Multilingual LLMs for Europe-André F. T. Martins~Universidade de Lisboa

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Семинар Markov Lab -- 2025.12.17 -- Best Papers of NeurIPS 2025, Part I

Семинар Markov Lab -- 2025.12.17 -- Best Papers of NeurIPS 2025, Part I

4 секрета, как легко и интересно произнести тост в любой компании/ Как удивить всех на празднике?

4 секрета, как легко и интересно произнести тост в любой компании/ Как удивить всех на празднике?

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Как одно слово меняет твою речь? | Английский с нуля до уровня  A1.Урок 56

Как одно слово меняет твою речь? | Английский с нуля до уровня  A1.Урок 56

SIGCOMM'24 TS1: CacheGen: KV Cache Compression and Streaming for Fast Language Model Serving

SIGCOMM'24 TS1: CacheGen: KV Cache Compression and Streaming for Fast Language Model Serving

Даже Мужики Так Не Рубятся! Вундеркинд Муай-тай в ММА - Смила Сандел

Даже Мужики Так Не Рубятся! Вундеркинд Муай-тай в ММА - Смила Сандел

RAG простыми словами: как научить LLM работать с файлами

RAG простыми словами: как научить LLM работать с файлами

Русский след и Майкл Джексон. Чем примечателен новый компромат на Трампа

Русский след и Майкл Джексон. Чем примечателен новый компромат на Трампа

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Предел развития НЕЙРОСЕТЕЙ

Предел развития НЕЙРОСЕТЕЙ

Профессор Йошуа Бенжио: о перспективах и опасности ИИ, киберпреступности, другом

Профессор Йошуа Бенжио: о перспективах и опасности ИИ, киберпреступности, другом

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение