Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Hoagy Cunningham — Finding distributed features in LLMs with sparse autoencoders [TAIS 2024]

Автор: AI Safety 東京

Загружено: 2024-05-14

Просмотров: 5723

Описание:

One of the core roadblocks to understanding the computation inside a transformer is the fact that individual neurons do not seem to be a fruitful unit of analysis. Meanwhile, directions in activation spaces have proven to contain huge amounts of information and to facilitate control. With such an exponentially large space of potential directions, though, how can we find the important ones before we know what to look for, or hope to get a comprehensive list of the directions being used? In the last year, sparse autoencoders (SAEs) have emerged as a potential tool for solving these problems. In this talk I will explain how SAEs work, the lines of thought that led to their creation, and discuss the current state of progress.

This is a recording from TAIS 2024, a technical AI safety conference hosted at the Plaza Heisei in Tokyo April 5th–6th. TAIS 2024 was organised by AI Safety Tokyo, sponsored by Noeon Research, in collaboration with AI Alignment Network, AI Industry Foundation and Reaktor Japan.

0:00 Talk
22:50 Q&A

Hoagy Cunningham — Finding distributed features in LLMs with sparse autoencoders [TAIS 2024]

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Robert Miles — Research Communication is IMPORTANT so DO BETTER [TAIS 2024]

Robert Miles — Research Communication is IMPORTANT so DO BETTER [TAIS 2024]

The Dark Matter of AI [Mechanistic Interpretability]

The Dark Matter of AI [Mechanistic Interpretability]

Введение в механистическую интерпретируемость – Нил Нанда | IASEAI 2025

Введение в механистическую интерпретируемость – Нил Нанда | IASEAI 2025

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Sparse Autoencoders: Progress & Limitations with Joshua Engels

Sparse Autoencoders: Progress & Limitations with Joshua Engels

Generative Model That Won 2024 Nobel Prize

Generative Model That Won 2024 Nobel Prize

Нил Нанда – Механистическая интерпретируемость: Вихревой тур

Нил Нанда – Механистическая интерпретируемость: Вихревой тур

Arthur Conmy - Mechanistic Interpretability Research Frontiers

Arthur Conmy - Mechanistic Interpretability Research Frontiers

The Misconception that Almost Stopped AI [How Models Learn Part 1]

The Misconception that Almost Stopped AI [How Models Learn Part 1]

Stanford CS230 | Autumn 2025 | Lecture 1: Introduction to Deep Learning

Stanford CS230 | Autumn 2025 | Lecture 1: Introduction to Deep Learning

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Causal Representation Learning: A Natural Fit for Mechanistic Interpretability

Causal Representation Learning: A Natural Fit for Mechanistic Interpretability

Ryan Kidd — Insights from two years of AI safety field-building at MATS [TAIS 2024]

Ryan Kidd — Insights from two years of AI safety field-building at MATS [TAIS 2024]

Why Deep Learning Works Unreasonably Well [How Models Learn Part 3]

Why Deep Learning Works Unreasonably Well [How Models Learn Part 3]

Jesse Hoogland — The Structure and Development of Neural Networks [TAIS 2024]

Jesse Hoogland — The Structure and Development of Neural Networks [TAIS 2024]

Объяснение «Трансформеров»: открытие, которое навсегда изменило искусственный интеллект

Объяснение «Трансформеров»: открытие, которое навсегда изменило искусственный интеллект

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]