Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Claudio Pinhanez - The Non-Determinism of Small LLMs

Автор: PyData

Загружено: 2025-12-17

Просмотров: 280

Описание:

Claudio Pinhanez, Principal Research Scientist at IBM, presents a talk on
“The Non-Determinism of Small LLMs: Evidence of Low Answer Consistency in Repetition Trials of Standard Multiple-Choice Benchmarks.”

Large language models are often evaluated based on accuracy — but how consistent are their answers when asked the same question multiple times? This talk explores how small language models (2B–8B parameters) behave under repeated questioning and what their variability reveals about reliability and evaluation.

In this session, Claudio discusses:
🔹 Answer consistency in small vs. medium-sized LLMs
🔹 The impact of inference settings, model size, and fine-tuning
🔹 Trade-offs between accuracy and consistency in model evaluation
🔹 New analytical tools for studying model stability

This talk was recorded during the PyData Yerevan November Meetup, held on November 6, 2025, at the American University of Armenia.
--
www.pydata.org

PyData is an educational program of NumFOCUS, a 501(c)3 non-profit organization in the United States. PyData provides a forum for the international community of users and developers of data analysis tools to share ideas and learn from each other. The global PyData network promotes discussion of best practices, new approaches, and emerging technologies for data management, processing, analytics, and visualization. PyData communities approach data science using many languages, including (but not limited to) Python, Julia, and R.

PyData conferences aim to be accessible and community-driven, with novice to advanced level presentations. PyData tutorials and talks bring attendees the latest project features along with cutting-edge use cases.

00:22 Welcome!

Want to help add timestamps to our YouTube videos to help with discoverability? Find out more here: https://github.com/numfocus/YouTubeVi...

Claudio Pinhanez - The Non-Determinism of Small LLMs

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Erik Davtyan - How to Engineer Better Prompts Using Data Science

Erik Davtyan - How to Engineer Better Prompts Using Data Science

Квантовый чип Google проработал 5 минут и обнаружил то, чего не должен был обнаружить.

Квантовый чип Google проработал 5 минут и обнаружил то, чего не должен был обнаружить.

The future of intelligence | Demis Hassabis (Co-founder and CEO of DeepMind)

The future of intelligence | Demis Hassabis (Co-founder and CEO of DeepMind)

Mark Hamazaspyan - Visual Document Retrieval: Enhancing Accuracy with Text & Visual Embeddings

Mark Hamazaspyan - Visual Document Retrieval: Enhancing Accuracy with Text & Visual Embeddings

Workshop on Online Learning and Optimization 2025 Part 1 (Nov. 10, 2025)

Workshop on Online Learning and Optimization 2025 Part 1 (Nov. 10, 2025)

Ilya Sutskever – We're moving from the age of scaling to the age of research

Ilya Sutskever – We're moving from the age of scaling to the age of research

Keynote Lisa Amini-What’s Next in AI for Data and Data Management--Pydata Global 2025

Keynote Lisa Amini-What’s Next in AI for Data and Data Management--Pydata Global 2025

Automated feature extraction and selection for challenging time-series prediction problems

Automated feature extraction and selection for challenging time-series prediction problems

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

Leonardo Ferreira - Create your Health Research Agent - PyData Boston 2025

Leonardo Ferreira - Create your Health Research Agent - PyData Boston 2025

Claude Code Ends SaaS, the Gemini + Siri Partnership, and Math Finally Solves AI | #224

Claude Code Ends SaaS, the Gemini + Siri Partnership, and Math Finally Solves AI | #224

Eyal Kazin - Lessons in Decision Making from the Monty Hall Problem-PyData Global 2025

Eyal Kazin - Lessons in Decision Making from the Monty Hall Problem-PyData Global 2025

Lily Xu-Using Traditional AI & LLMs to Automate Complex + Critical Documents in Healthcare-PyData

Lily Xu-Using Traditional AI & LLMs to Automate Complex + Critical Documents in Healthcare-PyData

Илон Маск /22.01.26/ Всемирный экономический форум 2026.

Илон Маск /22.01.26/ Всемирный экономический форум 2026.

Deepyaman Datta-✕-Data engineering with Python the right way-  -PyData Boston 2025

Deepyaman Datta-✕-Data engineering with Python the right way- -PyData Boston 2025

Екатерина Шульман. Был ли авторитарный разворот заложен в Конституции 1993? / Лекция №5

Екатерина Шульман. Был ли авторитарный разворот заложен в Конституции 1993? / Лекция №5

С нуля до миллионов на AI‑стартапах. Что отличает прототип от реального бизнеса  | Максим Панфилов

С нуля до миллионов на AI‑стартапах. Что отличает прототип от реального бизнеса | Максим Панфилов

Травматолог №1: Суставы в 40, будут как в 20! Главное внедрите эти простые привычки

Травматолог №1: Суставы в 40, будут как в 20! Главное внедрите эти простые привычки

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Malte Tichy - Reviving Survival Analysis_ Timeless, Yet Overlooked - PyData Global 2025

Malte Tichy - Reviving Survival Analysis_ Timeless, Yet Overlooked - PyData Global 2025

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com