Why your evals are probably off?

Автор: Ivan P. Yamshchikov

Загружено: 2025-04-15

Просмотров: 311

Описание:

Here is my presentation of several research results that we have obtained recently at Pleias and THWS.

What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks
https://arxiv.org/abs/2504.07825

Vygotsky Distance: Measure for Benchmark Task Similarity
https://aclanthology.org/2024.lrec-ma...

LLMs Simulate Big5 Personality Traits: Further Evidence
https://aclanthology.org/2024.persona...

Why your evals are probably off?

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Артём Москалёв: как искусственный интеллект помогает разрабатывать лекарства

Артём Москалёв: как искусственный интеллект помогает разрабатывать лекарства

Генеральный директор Google DeepMind только что изменил мое представление об искусственном интелл...

Генеральный директор Google DeepMind только что изменил мое представление об искусственном интелл...

THIS is why large language models can understand the world

THIS is why large language models can understand the world

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Why Large Language Models Hallucinate

Why Large Language Models Hallucinate

Сергей Нурк: как и зачем читают геном

Сергей Нурк: как и зачем читают геном

Evaluating LLM-based Applications

Evaluating LLM-based Applications

'Forbidden' AI Technique - Computerphile

'Forbidden' AI Technique - Computerphile

Дмитрий Волков: риски искусственного интеллетка

Дмитрий Волков: риски искусственного интеллетка

Елена Доброхотова: как сказать смерти

Елена Доброхотова: как сказать смерти "не сейчас"

Максим Мусин: агенты пишут код

Максим Мусин: агенты пишут код

Первый удар: как начнется ЯДЕРНАЯ ВОЙНА?

Первый удар: как начнется ЯДЕРНАЯ ВОЙНА?

BODYBUILDERS VS CLEANER | Anatoly GYM PRANK #56

BODYBUILDERS VS CLEANER | Anatoly GYM PRANK #56

«Экономическая ситуация меняется так, как не предвидели» — Олег Вьюгин

«Экономическая ситуация меняется так, как не предвидели» — Олег Вьюгин

What are AI Agents?

What are AI Agents?

ПРОКОФЬЕВ - Гениальная сволочь

ПРОКОФЬЕВ - Гениальная сволочь

Молочные продукты после 40–50 лет, есть или исключить? Что укрепляет кости, а что их разрушает.

Молочные продукты после 40–50 лет, есть или исключить? Что укрепляет кости, а что их разрушает.

Илья Смоленский: питание и психическое здоровье

Илья Смоленский: питание и психическое здоровье

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ НЕ МОЖЕТ ДУМАТЬ. Коняев, Семихатов, Сурдин

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ НЕ МОЖЕТ ДУМАТЬ. Коняев, Семихатов, Сурдин