In-Context Learning & "Model Systems" Interpretability (Stanford lecture 3) - Ekdeep Singh Lubana

Автор: Goodfire

Загружено: 2025-12-11

Просмотров: 1070

Описание:

What counts as an explanation of how an LLM works?

In our last Stanford guest lecture, Ekdeep explains the different levels of analysis in interpretability, and outlines his neuro-inspired "model systems approach".

Plus, how in-context learning and many-shot jailbreaking are explained by LLM representations changing in-context (as a case study for that approach).

00:33 - What counts as an explanation?
04:47 - Levels of analysis & standard interpretability approaches
18:19 - The "model systems" approach to interp
(Case study on in-context learning)
23:36 - How LLM representations change in-context
44:10 - Modeling ICL with rational analysis
1:10:54 - Conclusion & questions

Read more about our research: https://www.goodfire.ai/research
Follow us on X: https://x.com/GoodfireAI

In-Context Learning & "Model Systems" Interpretability (Stanford lecture 3) - Ekdeep Singh Lubana

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Causal Mechanistic Interpretability (Stanford lecture 1) - Atticus Geiger

Causal Mechanistic Interpretability (Stanford lecture 1) - Atticus Geiger

Stanford CS230 | Autumn 2025 | Lecture 1: Introduction to Deep Learning

Stanford CS230 | Autumn 2025 | Lecture 1: Introduction to Deep Learning

Теорема Байеса, геометрия изменения убеждений

Теорема Байеса, геометрия изменения убеждений

Stanford AI Club: Jeff Dean on Important AI Trends

Stanford AI Club: Jeff Dean on Important AI Trends

Математика или ИИ: кто владеет цифровым миром?

Математика или ИИ: кто владеет цифровым миром?

Вейвлеты: математический микроскоп

Вейвлеты: математический микроскоп

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 7 - Agentic LLMs

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 7 - Agentic LLMs

Can A.I. do mathematics? - Kevin Buzzard

Can A.I. do mathematics? - Kevin Buzzard

Introduction to large language models

Introduction to large language models

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Lecture 1 | String Theory and M-Theory

Lecture 1 | String Theory and M-Theory

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 1 - Transformer

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 1 - Transformer

Assessing skeptical views of interpretability research

Assessing skeptical views of interpretability research

Computational Motifs (Stanford lecture 2) - Jack Merullo

Computational Motifs (Stanford lecture 2) - Jack Merullo

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Основные теоремы в теории игр — Алексей Савватеев на ПостНауке

Основные теоремы в теории игр — Алексей Савватеев на ПостНауке