Unlocking LLM Reasoning, with Simeng Sophia Han

Автор: Women in AI Research WiAIR

Загружено: 2025-08-27

Просмотров: 291

Описание:

How can we go beyond accuracy to truly understand large language models?

In this episode of the Women in AI Research podcast, hosts Jekaterina Novikova and Malikeh Ehghaghi sit down with Simeng Sophia Han (PhD candidate at ‪@yale‬, Research Scientist Intern at ‪@meta‬ , ex ‪@googledeepmind‬, ex ‪@amazon‬ aws) to explore the future of 𝐋𝐋𝐌 𝐫𝐞𝐚𝐬𝐨𝐧𝐢𝐧𝐠, 𝐞𝐯𝐚𝐥𝐮𝐚𝐭𝐢𝐨𝐧, 𝐚𝐧𝐝 𝐞𝐱𝐩𝐥𝐚𝐢𝐧𝐚𝐛𝐥𝐞 𝐀𝐈.

🌟 What you’ll learn in this episode:

• Why evaluating reasoning goes beyond correctness
• How brain teasers uncover hidden strengths and weaknesses of LLMs
• The importance of symbolic reasoning for complex problem solving
• The role of mentorship and early research experiences in shaping careers
• Why consistency in AI outputs is essential for building trust
• How humans combine brute force and intuition — and what this means for AI

ToC:

00:00 Introduction to LLM Reasoning and Evaluation
02:36 Simeng Sophia Han's Research Journey
06:26 Reflections on Early Research Experiences
11:25 Understanding LLM Reasoning Beyond Accuracy Metrics
16:16 Exploring Brain Teasers in LLM Reasoning
22:25 Example of Mathematical Problem Solving with Constraints
24:16 Cognitive Science Insights for Language Models
29:13 Challenges in Human-Written Reasoning Chains
32:16 Explaining the Black Box of LLMs
37:28 Consistency and Trustworthiness in AI Models
39:17 Symbolic Reasoning in LLMs
42:00 Neuro-Symbolic Reasoning Approaches
46:33 Future Directions in AI Research
49:11 Advice for Women in AI Research

REFERENCES:
01:26 Simeng Sophia Han - Google Scholar profile (https://scholar.google.ca/citations?h...)
11:40 Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abilities of Large Language Models (https://arxiv.org/abs/2505.10844)
25:35 HYBRIDMIND: Meta Selection of Natural Language and Symbolic Language for Enhanced LLM Reasoning (https://arxiv.org/abs/2409.19381)
29:25 P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains (https://arxiv.org/abs/2410.09207)
39:05 Folio: Natural Language Reasoning with First-Order Logic (https://arxiv.org/abs/2209.00840)
41:54 HYBRIDMIND: Meta Selection of Natural Language and Symbolic Language for Enhanced LLM Reasoning (https://arxiv.org/abs/2409.19381)

🎧 Subscribe to stay updated on new episodes spotlighting brilliant women shaping the future of AI.

WiAIR website:
♾️ https://women-in-ai-research.github.io

Follow us at:
♾️ LinkedIn: / women-in-ai-research
♾️ Bluesky: https://bsky.app/profile/wiair.bsky.s...
♾️ X (Twitter): https://x.com/WiAIR_podcast

#LLM #AIResearch #ExplainableAI #Reasoning #aireasoning #MachineLearning #CognitiveScience #SymbolicReasoning #WiAIRPodcast #WiAIR

Unlocking LLM Reasoning, with Simeng Sophia Han

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Learning, Reasoning, and Planning with Neuro-Symbolic Concepts–Jiayuan Mao (MIT)

Learning, Reasoning, and Planning with Neuro-Symbolic Concepts–Jiayuan Mao (MIT)

The Weirdly Small AI That Cracks Reasoning Puzzles [HRM]

The Weirdly Small AI That Cracks Reasoning Puzzles [HRM]

"No AGI without Neurosymbolic AI" by Gary Marcus

Илон Маск объясняет будущее мира: экономика, ИИ, дефляция, семья | Полное интервью

Илон Маск объясняет будущее мира: экономика, ИИ, дефляция, семья | Полное интервью

Ep 13 Part 2 - The Real Challenges of Multilingual NLP, with Dr. Annie En-Shiun Lee

Ep 13 Part 2 - The Real Challenges of Multilingual NLP, with Dr. Annie En-Shiun Lee

Journalist Karen Hao on Sam Altman, OpenAI & the

Journalist Karen Hao on Sam Altman, OpenAI & the "Quasi-Religious" Push for Artificial Intelligence

МОЖНО БОЛЬШЕ НЕ БОЯТЬСЯ БУДУЩЕГО Разум молодежи другой ТАТЬЯНА ЧЕРНИГОВСКАЯ

МОЖНО БОЛЬШЕ НЕ БОЯТЬСЯ БУДУЩЕГО Разум молодежи другой ТАТЬЯНА ЧЕРНИГОВСКАЯ

Can AI Think? Debunking AI Limitations

Can AI Think? Debunking AI Limitations

«Вот теперь я задумался об эмиграции»: зачем Кремль заблокировал Roblox и как реагируют россияне

«Вот теперь я задумался об эмиграции»: зачем Кремль заблокировал Roblox и как реагируют россияне

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Limits of Transformers, with Dr. Nouha Dziri

Limits of Transformers, with Dr. Nouha Dziri

AI, Machine Learning, Deep Learning and Generative AI Explained

AI, Machine Learning, Deep Learning and Generative AI Explained

AI vs Human Thinking: How Large Language Models Really Work

AI vs Human Thinking: How Large Language Models Really Work

Математики открывают странную новую бесконечность

Математики открывают странную новую бесконечность

Как вылечить БЕЗ операций Близорукость,Дальнозоркость,Астигматизм,Косоглазие.Упражнения проф.Жданова

Как вылечить БЕЗ операций Близорукость,Дальнозоркость,Астигматизм,Косоглазие.Упражнения проф.Жданова

🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение)

🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение)

The Illusion of Thinking | Apple Just Exposed AI’s Fake Reasoning

The Illusion of Thinking | Apple Just Exposed AI’s Fake Reasoning

Multilingual AI, with Dr. Annie En-Shiun Lee

Multilingual AI, with Dr. Annie En-Shiun Lee

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности