Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Why your evals are probably off?

Автор: Ivan P. Yamshchikov

Загружено: 2025-04-15

Просмотров: 311

Описание:

Here is my presentation of several research results that we have obtained recently at Pleias and THWS.

What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks
https://arxiv.org/abs/2504.07825

Vygotsky Distance: Measure for Benchmark Task Similarity
https://aclanthology.org/2024.lrec-ma...

LLMs Simulate Big5 Personality Traits: Further Evidence
https://aclanthology.org/2024.persona...

Why your evals are probably off?

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Артём Москалёв: как искусственный интеллект помогает разрабатывать лекарства

Артём Москалёв: как искусственный интеллект помогает разрабатывать лекарства

Генеральный директор Google DeepMind только что изменил мое представление об искусственном интелл...

Генеральный директор Google DeepMind только что изменил мое представление об искусственном интелл...

THIS is why large language models can understand the world

THIS is why large language models can understand the world

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Why Large Language Models Hallucinate

Why Large Language Models Hallucinate

Сергей Нурк: как и зачем читают геном

Сергей Нурк: как и зачем читают геном

Evaluating LLM-based Applications

Evaluating LLM-based Applications

'Forbidden' AI Technique - Computerphile

'Forbidden' AI Technique - Computerphile

Дмитрий Волков: риски искусственного интеллетка

Дмитрий Волков: риски искусственного интеллетка

Елена Доброхотова: как сказать смерти

Елена Доброхотова: как сказать смерти "не сейчас"

Максим Мусин: агенты пишут код

Максим Мусин: агенты пишут код

Первый удар: как начнется ЯДЕРНАЯ ВОЙНА?

Первый удар: как начнется ЯДЕРНАЯ ВОЙНА?

BODYBUILDERS VS CLEANER  | Anatoly GYM PRANK #56

BODYBUILDERS VS CLEANER | Anatoly GYM PRANK #56

«Экономическая ситуация меняется так, как не предвидели» — Олег Вьюгин

«Экономическая ситуация меняется так, как не предвидели» — Олег Вьюгин

What are AI Agents?

What are AI Agents?

ПРОКОФЬЕВ - Гениальная сволочь

ПРОКОФЬЕВ - Гениальная сволочь

Молочные продукты после 40–50 лет, есть или исключить? Что укрепляет кости, а что их разрушает.

Молочные продукты после 40–50 лет, есть или исключить? Что укрепляет кости, а что их разрушает.

Илья Смоленский: питание и психическое здоровье

Илья Смоленский: питание и психическое здоровье

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ НЕ МОЖЕТ ДУМАТЬ. Коняев, Семихатов, Сурдин

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ НЕ МОЖЕТ ДУМАТЬ. Коняев, Семихатов, Сурдин

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]