Presentation: LAV-ACT: Language-Augmented Visual ACT for Bimanual Robotic Manipulation, ICARA 2025.

Автор: Dhurba Tripathi

Загружено: 2025-06-09

Просмотров: 16

Описание:

Project page: https://dktpt44.github.io/LAV-ACT/

ICARA 2025

========================
Abstract:
Bimanual robotic manipulation, involving the coordinated use of two robotic arms, is essential for tasks requiring complex, synchronous actions. Action Chunking with Transformers (ACT) is a representative framework that enables robots to break down complex tasks into manageable sequences, facilitating autonomous learning of multi-step actions. However, we observe critical limitations in the ACT framework: it relies solely on visual observations as input, focusing on task-specific action predictions, and it uses a simple ResNet-based feature extractor for image processing, which is often insufficient for complex and multi-view bimanual arm observations. In this paper, we introduce an enhanced language-driven version of ACT that leverages Voltron—a language-driven representation model—to incorporate both visual observations and language prompts into dense, multi-modal embeddings. These embeddings are used to condition the ResNet backbone feature maps through Featurewise Linear Modulation (FiLM), allowing our model to integrate contextually relevant linguistic information with visual data for more adaptive action chunking. Extensive experiments show that our approach significantly improves the performance of bimanual robot arms in executing complex, multi-step tasks guided by language cues, outperforming traditional ACT methods.

Presentation: LAV-ACT: Language-Augmented Visual ACT for Bimanual Robotic Manipulation, ICARA 2025.

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

array(10) { [0]=> object(stdClass)#4365 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "aircAruvnKk" ["related_video_title"]=> string(101) "Но что такое нейронная сеть? | Глава 1. Глубокое обучение" ["posted_time"]=> string(19) "7 лет назад" ["channelName"]=> string(11) "3Blue1Brown" } [1]=> object(stdClass)#4338 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "LPZh9BOjkQs" ["related_video_title"]=> string(82) "Краткое объяснение больших языковых моделей" ["posted_time"]=> string(27) "6 месяцев назад" ["channelName"]=> string(11) "3Blue1Brown" } [2]=> object(stdClass)#4363 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "IHZwWFHWa-w" ["related_video_title"]=> string(131) "Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение" ["posted_time"]=> string(19) "7 лет назад" ["channelName"]=> string(11) "3Blue1Brown" } [3]=> object(stdClass)#4370 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "wjZofJX0v4M" ["related_video_title"]=> string(148) "LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры" ["posted_time"]=> string(19) "1 год назад" ["channelName"]=> string(11) "3Blue1Brown" } [4]=> object(stdClass)#4349 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "Ilg3gGewQ5U" ["related_video_title"]=> string(85) "Что происходит с нейросетью во время обучения?" ["posted_time"]=> string(19) "7 лет назад" ["channelName"]=> string(11) "3Blue1Brown" } [5]=> object(stdClass)#4367 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "BT38K6NqETE" ["related_video_title"]=> string(125) "Эксперт по кибербезопасности о ваших паролях, вирусах и кибератаках" ["posted_time"]=> string(27) "6 месяцев назад" ["channelName"]=> string(22) "Раскадровка" } [6]=> object(stdClass)#4362 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "jaIGvR3jtxI" ["related_video_title"]=> string(70) "ChatGPT - Полный Курс по ChatGPT и OpenAI [12 ЧАСОВ]" ["posted_time"]=> string(25) "4 месяца назад" ["channelName"]=> string(16) "Bogdan Stashchuk" } [7]=> object(stdClass)#4372 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "QYyHFtfCAxk" ["related_video_title"]=> string(104) "КВАНТОВЫЙ КОМПЬЮТЕР: ТОЛЬКО 3% ЛЮДЕЙ ЭТО ПОНИМАЮТ | ФОРМАТ" ["posted_time"]=> string(21) "2 года назад" ["channelName"]=> string(7) "Droider" } [8]=> object(stdClass)#4348 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "MCIhB7Sy9NU" ["related_video_title"]=> string(93) "Аналоговые компьютеры возвращаются? Часть 2 [Veritasium]" ["posted_time"]=> string(21) "3 года назад" ["channelName"]=> string(10) "Vert Dider" } [9]=> object(stdClass)#4366 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "hb9CTGSJm88" ["related_video_title"]=> string(91) "Что такое операционная система и как она работает" ["posted_time"]=> string(19) "7 лет назад" ["channelName"]=> string(23) "Computer Science Center" } }

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Что происходит с нейросетью во время обучения?

Что происходит с нейросетью во время обучения?

Эксперт по кибербезопасности о ваших паролях, вирусах и кибератаках

Эксперт по кибербезопасности о ваших паролях, вирусах и кибератаках

ChatGPT - Полный Курс по ChatGPT и OpenAI [12 ЧАСОВ]

ChatGPT - Полный Курс по ChatGPT и OpenAI [12 ЧАСОВ]

КВАНТОВЫЙ КОМПЬЮТЕР: ТОЛЬКО 3% ЛЮДЕЙ ЭТО ПОНИМАЮТ | ФОРМАТ

КВАНТОВЫЙ КОМПЬЮТЕР: ТОЛЬКО 3% ЛЮДЕЙ ЭТО ПОНИМАЮТ | ФОРМАТ

Аналоговые компьютеры возвращаются? Часть 2 [Veritasium]

Аналоговые компьютеры возвращаются? Часть 2 [Veritasium]

Что такое операционная система и как она работает

Что такое операционная система и как она работает