Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Stanford CS25: V1 I Transformer Circuits, Induction Heads, In-Context Learning

Автор: Stanford Online

Загружено: 2022-07-17

Просмотров: 19851

Описание:

"Neural network parameters can be thought of as compiled computer programs. Somehow, they encode sophisticated algorithms, capable of things no human knows how to write a computer program to do. Mechanistic interpretability seeks to reverse engineer neural networks into human understandable algorithms. Previous work has tended to focus on vision models; this talk will explore how we might reverse engineer transformer language models.


 In particular, we'll focus on what we call ""induction head circuits"", a mechanism that appears to be significantly responsible for in-context learning. Using a pair of attention heads, these circuits allow models to repeat text from earlier in the context, translate text seen earlier, mimic functions from examples earlier in the context, and much more. The discovery of induction heads in the learning process appears to drive a sharp phase change, creating a bump in the loss curve, pivoting models learning trajectories, and greatly increasing their capacity for in-context learning, in the span of just a few hundred training steps."

Chris Olah is a co-founder of Anthropic, an AI company focused on the safety of large models, where he leads Anthropic's interpretability efforts. Previously, Chris led OpenAI's interpretability team, and was a researcher at Google Brain. Chris' work includes the Circuits project, his blog (especially his tutorial on LSTMs), the Distill journal, and DeepDream.

View the entire CS25 Transformers United playlist:    • Stanford CS25 - Transformers United  

Stanford CS25: V1 I Transformer Circuits, Induction Heads, In-Context Learning

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Stanford CS25: V1 I Audio Research: Transformers for Applications in Audio, Speech, Music

Stanford CS25: V1 I Audio Research: Transformers for Applications in Audio, Speech, Music

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Stanford CS25: V3 I Generalist Agents in Open-Ended Worlds

Stanford CS25: V3 I Generalist Agents in Open-Ended Worlds

Stanford CS25: V1 I Transformers United: Модели DL, которые произвели революцию в области естеств...

Stanford CS25: V1 I Transformers United: Модели DL, которые произвели революцию в области естеств...

RAG vs. CAG: Solving Knowledge Gaps in AI Models

RAG vs. CAG: Solving Knowledge Gaps in AI Models

Stanford CS25: V5 I Transformers for Video Generation, Andrew Brown of Meta

Stanford CS25: V5 I Transformers for Video Generation, Andrew Brown of Meta

Понимание ICL: Индукционные головки (Обработка естественного языка в Техасском университете в Ост...

Понимание ICL: Индукционные головки (Обработка естественного языка в Техасском университете в Ост...

Stanford CS25: V4 I Aligning Open Language Models

Stanford CS25: V4 I Aligning Open Language Models

4 Hours Chopin for Studying, Concentration & Relaxation

4 Hours Chopin for Studying, Concentration & Relaxation

Момент, когда мы перестали понимать ИИ [AlexNet]

Момент, когда мы перестали понимать ИИ [AlexNet]

Stanford CS25: V1 I DeepMind's Perceiver and Perceiver IO: new data family architecture

Stanford CS25: V1 I DeepMind's Perceiver and Perceiver IO: new data family architecture

Stanford CS230 | Autumn 2025 | Lecture 1: Introduction to Deep Learning

Stanford CS230 | Autumn 2025 | Lecture 1: Introduction to Deep Learning

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Open Problems in Mechanistic Interpretability: A Whirlwind Tour

Open Problems in Mechanistic Interpretability: A Whirlwind Tour

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Объяснение «Трансформеров»: открытие, которое навсегда изменило искусственный интеллект

Объяснение «Трансформеров»: открытие, которое навсегда изменило искусственный интеллект

Hoagy Cunningham — Finding distributed features in LLMs with sparse autoencoders [TAIS 2024]

Hoagy Cunningham — Finding distributed features in LLMs with sparse autoencoders [TAIS 2024]

Stanford CS25: V1 I Mixture of Experts (MoE) paradigm and the Switch Transformer

Stanford CS25: V1 I Mixture of Experts (MoE) paradigm and the Switch Transformer

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]