A Roadmap for High-Stakes Evaluation in the Age of Agentic AI – Chandler Smith | IASEAI 2025

Автор: International Association for Safe & Ethical AI

Загружено: 2025-08-12

Просмотров: 24

Описание:

As AI moves into high-stakes environments, how do we ensure our benchmarks keep up?

In this IASEAI ’25 session, Better Benchmarks: A Roadmap for High-Stakes Evaluation in the Age of Agentic AI, Chandler Smith (Research Engineer at the Cooperative AI Foundation) examines the shortcomings of current AI benchmarks—such as limited replicability and poor statistical reporting—and outlines a framework for building more rigorous, transparent, and trustworthy evaluations. Smith also explores unique risks in multiagent systems, including miscoordination, conflict, and collusion, and proposes how benchmarking can evolve to address these challenges in the age of agentic AI.

About IASEAI: https://www.iaseai.org
Chandler Smith: https://www.cooperativeai.com/team

#ChandlerSmith #AIBenchmarks #AISafety #AgenticAI #IASEAI

A Roadmap for High-Stakes Evaluation in the Age of Agentic AI – Chandler Smith | IASEAI 2025

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Understanding the Implications of AI on Financial Markets – Michael P. Wellman | IASEAI 2025

Understanding the Implications of AI on Financial Markets – Michael P. Wellman | IASEAI 2025

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Введение в механистическую интерпретируемость – Нил Нанда | IASEAI 2025

Введение в механистическую интерпретируемость – Нил Нанда | IASEAI 2025

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Mitigating Catastrophic Misalignment Risk With AI Control – Buck Shlegeris | IASEAI 2025

Mitigating Catastrophic Misalignment Risk With AI Control – Buck Shlegeris | IASEAI 2025

Сооснователь OpenAI о Будущем и Настоящем в AI. Подкаст на Русском - Илья Суцкевер

Сооснователь OpenAI о Будущем и Настоящем в AI. Подкаст на Русском - Илья Суцкевер

🤷 AI обучен на говнокоде! Разработчиков компиляторов, протоколов и СУБД не хватает, а LLM не может

🤷 AI обучен на говнокоде! Разработчиков компиляторов, протоколов и СУБД не хватает, а LLM не может

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Gold-Standard AI Risk-Management Framework: A Research Agenda – Robert F. Trager | IASEAI 2025

Gold-Standard AI Risk-Management Framework: A Research Agenda – Robert F. Trager | IASEAI 2025

4 Hours Chopin for Studying, Concentration & Relaxation

4 Hours Chopin for Studying, Concentration & Relaxation

Jailbreaking LLM-Controlled Robots – Alex Robey | IASEAI 2025

Jailbreaking LLM-Controlled Robots – Alex Robey | IASEAI 2025

Game-Theoretic Guarantees for Human-Robot Systems – Jaime Fernández Fisac | IASEAI 2025

Game-Theoretic Guarantees for Human-Robot Systems – Jaime Fernández Fisac | IASEAI 2025

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

A Matter of Principle? AI Alignment as the Fair Treatment of Claims – Iason Gabriel | IASEAI 2025

A Matter of Principle? AI Alignment as the Fair Treatment of Claims – Iason Gabriel | IASEAI 2025

Объяснение принципов работы агентов ИИ за 19 минут (Поехали!)

Объяснение принципов работы агентов ИИ за 19 минут (Поехали!)

Искусственный интеллект и кибербезопасность: Дэн Боне берет интервью у Сэма Альтмана

Искусственный интеллект и кибербезопасность: Дэн Боне берет интервью у Сэма Альтмана

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

12-факторные агенты: модели надежных приложений LLM — Декс Хорти, HumanLayer

12-факторные агенты: модели надежных приложений LLM — Декс Хорти, HumanLayer

Yann LeCun at Duke's Responsible AI Symposium

Yann LeCun at Duke's Responsible AI Symposium

Старение мозга. Как сохранить ясность ума до самой старости. Татьяна Черниговская

Старение мозга. Как сохранить ясность ума до самой старости. Татьяна Черниговская