Mixture of Recursions: The Power of Recursive Transformers

Автор: alphaXiv

Загружено: 2025-08-04

Просмотров: 1242

Описание:

What if language models could learn to "think harder" only when they need to—allocating deep computation to challenging tokens while breezing through simple ones?

Reza Bayat presents Mixture-of-Recursions, a breakthrough architecture that unifies parameter sharing with adaptive computation. By dynamically assigning different recursion depths to individual tokens, MoR achieves large-model quality with significantly fewer parameters and computational resources.

Mixture of Recursions: The Power of Recursive Transformers

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Recursive Language Models w: Alex Zhang

Recursive Language Models w: Alex Zhang

Как происходит модернизация остаточных соединений [mHC]

Как происходит модернизация остаточных соединений [mHC]

Learning Path Architect (13 Minutes)

Learning Path Architect (13 Minutes)

Energy-Based Transformers w/ Alexi Gladstone

Energy-Based Transformers w/ Alexi Gladstone

V-JEPA 2 w/ Nicolas Ballas

V-JEPA 2 w/ Nicolas Ballas

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Jeff Clune: Open-Ended, Quality Diversity, and AI-Generating Algos in the Era of Foundation Models

Jeff Clune: Open-Ended, Quality Diversity, and AI-Generating Algos in the Era of Foundation Models

Stanford CS336 Language Modeling from Scratch I 2025

Stanford CS336 Language Modeling from Scratch I 2025

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

1 Million Tiny Experts in an AI? Fine-Grained MoE Explained

1 Million Tiny Experts in an AI? Fine-Grained MoE Explained

Coding a Transformer From Scratch (Line By Line)

Coding a Transformer From Scratch (Line By Line)

Tabular Foundation Models

Tabular Foundation Models

Stanford CS25: V1 I Mixture of Experts (MoE) paradigm and the Switch Transformer

Stanford CS25: V1 I Mixture of Experts (MoE) paradigm and the Switch Transformer

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

A Visual Guide to Mixture of Experts (MoE) in LLMs

A Visual Guide to Mixture of Experts (MoE) in LLMs

Mistral / Mixtral Explained: Sliding Window Attention, Sparse Mixture of Experts, Rolling Buffer

Mistral / Mixtral Explained: Sliding Window Attention, Sparse Mixture of Experts, Rolling Buffer

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Запуск нейросетей локально. Генерируем - ВСЁ

Запуск нейросетей локально. Генерируем - ВСЁ