"White-Box Transformers via Sparse Rate Reduction" - Sam Buchanan, Research at TTIC

Автор: TTIC

Загружено: 2025-06-04

Просмотров: 107

Описание:

“White-Box Transformers via Sparse Rate Reduction”

Sam Buchanan, Toyota Technological Institute at Chicago (TTIC)

Originally recorded on May 23, 2025, at TTIC, 6045 S. Kenwood Avenue, Chicago, IL.

In this talk, Sam Buchanan introduces a new theoretical framework for understanding and designing transformer-like architectures through the lens of sparse rate reduction, a measure that balances intrinsic information compression with extrinsic sparsity. He presents CRATE, a family of mathematically interpretable architectures derived from this principle, where multi-head self-attention and MLP layers emerge as optimization steps on this unified objective. Experiments demonstrate that CRATE models effectively compress and sparsify representations on real-world datasets, achieving performance comparable to ViT and GPT2 with more interpretable structure.

Timestamps:
00:00 Introduction
01:45 Talk begins
57:30 Q&A

#Transformers #RepresentationLearning #SparseRateReduction #MachineLearning #DeepLearning #AI #WhiteBoxModels #Interpretability #NeuralNetworks #Research #TTIC #CRATE #ViT #GPT2

"White-Box Transformers via Sparse Rate Reduction" - Sam Buchanan, Research at TTIC

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

"How Should We Tokenize Visual Data?" - Greg Shakhnarovich, Research at TTIC

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

"Science of AI and AI for Science "- Noah Smith

50 Best of Chopin: Nocturnes, Études, Waltzes...

50 Best of Chopin: Nocturnes, Études, Waltzes...

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

"Integer Programming and Combinatorial Markets" – Siddharth Prasad, Research at TTIC

What Do Speech Representation Models “Know”? - Karen Livescu, Research at TTIC

What Do Speech Representation Models “Know”? - Karen Livescu, Research at TTIC

Математики открывают странную новую бесконечность

Математики открывают странную новую бесконечность

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

"Reinforcement Learning for Reasoning in Large Language Models with One Training Example" - Simon Du

“Bridging Robot and AI Safety: Vision-Language-Action Models and Beyond” – Kaylene Stocking

“Bridging Robot and AI Safety: Vision-Language-Action Models and Beyond” – Kaylene Stocking

Теорема Байеса, геометрия изменения убеждений

Теорема Байеса, геометрия изменения убеждений

4 Hours Chopin for Studying, Concentration & Relaxation

4 Hours Chopin for Studying, Concentration & Relaxation

Почему простые числа образуют эти спирали? | Теорема Дирихле и пи-аппроксимации

Почему простые числа образуют эти спирали? | Теорема Дирихле и пи-аппроксимации

Понимание GD&T

"Personalized Medicine Based on Deep Human Phenotyping" - Eran Segal

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

“Speech Generation and Sound Understanding in The Era of Large Language Models” David Harwath

“Speech Generation and Sound Understanding in The Era of Large Language Models” David Harwath

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Spatial Data Science Overview

Spatial Data Science Overview