Evaluating and Enhancing Language Model Factuality

Автор: Ai2

Загружено: 2025-03-07

Просмотров: 227

Описание:

Abstract: Language models (LMs) are increasingly adopted in real-world applications, yet their tendency to generate factual errors remains a major concern. In this talk, I will describe my work on LM factuality, i.e., its consistency with established facts. I address factuality challenges across two key dimensions: evaluation and enhancement. On the evaluation front, I will present a factuality evaluation framework comprising an updatable benchmark curated from real-world LM usage and a fine-grained evaluation technique that robustly identifies LM inaccuracies. For factuality enhancement, I will propose two complementary approaches: (1) a post-processing framework that verifies and refines LM outputs against external knowledge sources; and (2) learnable intervention systems that leverages LMs' internal representations of truth to adjust generations at inference time. Together, these methods advance our understanding of factuality challenges and offer practical pathways to improve LM reliability.

Bio: Farima Fatahi Bayat is a Ph.D. candidate in the Computer Science and Engineering Department at University of Michigan, advised by Prof. H. Jagadish and Prof. Lu Wang. Her research focuses on advancing responsible AI, with a particular emphasis on enhancing the factuality of Language Models (LMs). Her recent works include creating evaluation benchmarks to assess LMs’ factuality, designing adaptive intervention frameworks that enable uncertainty expression, and building correction mechanisms to increase the quality of LM output.

Evaluating and Enhancing Language Model Factuality

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

array(10) { [0]=> object(stdClass)#4592 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "5GDBKJNEb4Q" ["related_video_title"]=> string(151) "Иран: от союза с Израилем до Исламской революции | Причины войны на Ближнем Востоке" ["posted_time"]=> string(24) "13 часов назад" ["channelName"]=> string(8) "varlamov" } [1]=> object(stdClass)#4565 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "WUUxypgjBnM" ["related_video_title"]=> string(113) "Комментарий к текущим событиям от 21 июня 2025 года. Михаил Хазин" ["posted_time"]=> string(23) "9 часов назад" ["channelName"]=> string(23) "Михаил Хазин" } [2]=> object(stdClass)#4590 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "SS59gCT2KKs" ["related_video_title"]=> string(59) "Enhancing Reasoning in Smaller Models through Self-Training" ["posted_time"]=> string(25) "3 месяца назад" ["channelName"]=> string(3) "Ai2" } [3]=> object(stdClass)#4597 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "t1caDsMzWBk" ["related_video_title"]=> string(47) "LoRA & QLoRA Fine-tuning Explained In-Depth" ["posted_time"]=> string(19) "1 год назад" ["channelName"]=> string(14) "Entry Point AI" } [4]=> object(stdClass)#4576 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "tFHeUSJAYbE" ["related_video_title"]=> string(56) "A Practical Introduction to Large Language Models (LLMs)" ["posted_time"]=> string(19) "1 год назад" ["channelName"]=> string(11) "Shaw Talebi" } [5]=> object(stdClass)#4594 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "osKyvYJ3PRM" ["related_video_title"]=> string(58) "Large Language Models (LLMs) - Everything You NEED To Know" ["posted_time"]=> string(19) "1 год назад" ["channelName"]=> string(14) "Matthew Berman" } [6]=> object(stdClass)#4589 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "jNNatjruXx8" ["related_video_title"]=> string(50) "Discover Prompt Engineering | Google AI Essentials" ["posted_time"]=> string(19) "1 год назад" ["channelName"]=> string(26) "Google Career Certificates" } [7]=> object(stdClass)#4599 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "efWRv3UzcOc" ["related_video_title"]=> string(173) "Пока бомбардировщики B-2 летят к цели, в Вашингтоне появился “Русский след” /№965/ Юрий Швец" ["posted_time"]=> string(21) "4 часа назад" ["channelName"]=> string(54) "Юрий Швец -- официальный канал" } [8]=> object(stdClass)#4575 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "TprZ-83fAiE" ["related_video_title"]=> string(150) "Нейробиолог: Как не отупеть к 50 годам. Связь слабоумия и привычек | Владимир Алипов" ["posted_time"]=> string(27) "8 месяцев назад" ["channelName"]=> string(46) "Подкаст Алексея Голубева" } [9]=> object(stdClass)#4593 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "22tkx79icy4" ["related_video_title"]=> string(55) "RAG | САМОЕ ПОНЯТНОЕ ОБЪЯСНЕНИЕ!" ["posted_time"]=> string(23) "1 месяц назад" ["channelName"]=> string(8) "AI RANEZ" } }

Иран: от союза с Израилем до Исламской революции | Причины войны на Ближнем Востоке

Иран: от союза с Израилем до Исламской революции | Причины войны на Ближнем Востоке

Комментарий к текущим событиям от 21 июня 2025 года. Михаил Хазин

Комментарий к текущим событиям от 21 июня 2025 года. Михаил Хазин

Enhancing Reasoning in Smaller Models through Self-Training

Enhancing Reasoning in Smaller Models through Self-Training

LoRA & QLoRA Fine-tuning Explained In-Depth

LoRA & QLoRA Fine-tuning Explained In-Depth

A Practical Introduction to Large Language Models (LLMs)

A Practical Introduction to Large Language Models (LLMs)

Large Language Models (LLMs) - Everything You NEED To Know

Large Language Models (LLMs) - Everything You NEED To Know

Discover Prompt Engineering | Google AI Essentials

Discover Prompt Engineering | Google AI Essentials

Пока бомбардировщики B-2 летят к цели, в Вашингтоне появился “Русский след” /№965/ Юрий Швец

Пока бомбардировщики B-2 летят к цели, в Вашингтоне появился “Русский след” /№965/ Юрий Швец

Нейробиолог: Как не отупеть к 50 годам. Связь слабоумия и привычек | Владимир Алипов

Нейробиолог: Как не отупеть к 50 годам. Связь слабоумия и привычек | Владимир Алипов

RAG | САМОЕ ПОНЯТНОЕ ОБЪЯСНЕНИЕ!

RAG | САМОЕ ПОНЯТНОЕ ОБЪЯСНЕНИЕ!