LLaDA-VLA: Vision Language Diffusion Action Models (Wen et al., arXiv 2509)

Автор: AIDAS Lab

Загружено: 2025-10-21

Просмотров: 223

Описание:

Recent advances in Vision-Language-Action (VLA) models have shown strong performance in robotic control, typically using vision-language models (VLMs) as backbones and diffusion policies for robot action generation. Building on this progress, LLaDA-VLA is the first model to construct a VLA framework using a masked diffusion model (MDM) instead of traditional autoregressive architectures. It employs a masked diffusion process to predict and iteratively refine actions in parallel, introducing two key innovations: Localized Special-Token Classification, which focuses learning on discrete action tokens, and Hierarchical Action-Structured Decoding, which ensures coherent multi-step trajectory generation. Based on LLaDA-V and a SigLIP-2 vision encoder, the model translates text and image inputs into 7-DoF robot actions. Experiments on SimplerEnv, CALVIN, and WidowX robots show substantial gains over previous VLAs, establishing diffusion-based language models as a new paradigm for robotic manipulation.

Presenter: Hoeun Lee

LLaDA-VLA: Vision Language Diffusion Action Models (Wen et al., arXiv 2509)

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Language Diffusion Models From Scratch: Maybe Diffusion is All We Need?

Language Diffusion Models From Scratch: Maybe Diffusion is All We Need?

Simulation and Generalization in VLA Models for Robotic Manipulation

Simulation and Generalization in VLA Models for Robotic Manipulation

Is this perception lab or twilight zone?

Is this perception lab or twilight zone?

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Diffusion Language Models: The Next Big Shift in GenAI

Diffusion Language Models: The Next Big Shift in GenAI

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

π0: A Foundation Model for Robotics with Sergey Levine - 719

π0: A Foundation Model for Robotics with Sergey Levine - 719

Преломление и «замедление» света | По мотивам лекции Ричарда Фейнмана

Преломление и «замедление» света | По мотивам лекции Ричарда Фейнмана

Понимание сталей и термообработки

Понимание сталей и термообработки

Hack Pack – Введение в Arduino

Hack Pack – Введение в Arduino

Advancing Diffusion Models for Text Generation

Advancing Diffusion Models for Text Generation

Понимание вибрации и резонанса

Понимание вибрации и резонанса

Удаляем свои фото, выходим из чатов, скрываем фамилию? Как избежать штрафов

Удаляем свои фото, выходим из чатов, скрываем фамилию? Как избежать штрафов

Понимание GD&T

Diffusion Models for AI Image Generation

Diffusion Models for AI Image Generation

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

What Are Vision Language Models? How AI Sees & Understands Images

What Are Vision Language Models? How AI Sees & Understands Images

Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory

Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory