Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using LLMs

Автор: Ji Zhang

Загружено: 2025-05-01

Просмотров: 406

Описание:

The video accompanies our paper SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models.

Abstract:
Interpreting object-referential language and grounding objects in 3D with spatial relations and attributes is essential for robots operating alongside humans. However, this task is often challenging due to the diversity of scenes, large number of fine-grained objects, and complex free-form nature of language references. Furthermore, in the 3D domain, obtaining large amounts of natural language training data is difficult. Thus, it is important for methods to learn from little data and zero-shot generalize to new environments. To address these challenges, we propose SORT3D, an approach that utilizes rich object attributes from 2D data and merges a heuristics-based spatial reasoning toolbox with the ability of large language models (LLMs) to perform sequential reasoning. Importantly, our method does not require text-to-3D data for training and can be applied zero-shot to unseen environments. We show that SORT3D achieves state-of-the-art performance on complex view-dependent grounding tasks on two benchmarks. We also implement the pipeline to run real-time on an autonomous vehicle and demonstrate that our approach can be used for object-goal navigation on previously unseen real-world environments.

Open-source repository:
https://github.com/nzantout/SORT3D

arXiv paper:
http://arxiv.org/abs/2504.18684

SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using LLMs

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Autonomous Vision-language Navigation with General Spatial Relation Toolbox

Autonomous Vision-language Navigation with General Spatial Relation Toolbox

Vision-Language Navigation Finding Refrigerator in Lounge

Vision-Language Navigation Finding Refrigerator in Lounge

Часть 79: Диффузионный мост Шрёдингера с приложениями к генеративному моделированию на основе оце...

Часть 79: Диффузионный мост Шрёдингера с приложениями к генеративному моделированию на основе оце...

Vision-Language Navigation Finding Blue Trash Can in Classroom

Vision-Language Navigation Finding Blue Trash Can in Classroom

RSS 2021 Spotlight: TARE: A Hierarchical Framework for Efficiently Exploring Complex 3D Environments

RSS 2021 Spotlight: TARE: A Hierarchical Framework for Efficiently Exploring Complex 3D Environments

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

[12/08/22]

[12/08/22] "Generalized Object Search" | Kaiyu Zheng PhD Thesis Defense

Extreme SIMD: Optimized Collision Detection in Titanfall

Extreme SIMD: Optimized Collision Detection in Titanfall

Все, что вам нужно знать о теории управления

Все, что вам нужно знать о теории управления

Я в опасности

Я в опасности

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

Детектирование виртуальных машин: как оно работает и как его обходят [RU]

Детектирование виртуальных машин: как оно работает и как его обходят [RU]

On-demand webinar: Columnar Data in 2024 — The Future of Efficient Data Analytics

On-demand webinar: Columnar Data in 2024 — The Future of Efficient Data Analytics

BERTology встречает биологию: интерпретация внимания в моделях языка белков (с пояснениями к статье)

BERTology встречает биологию: интерпретация внимания в моделях языка белков (с пояснениями к статье)

23716   Disentanglement and Compositionality in Computer Vision

23716 Disentanglement and Compositionality in Computer Vision

Vision-Language Navigation Finding Microwave Oven near Refrigerator

Vision-Language Navigation Finding Microwave Oven near Refrigerator

Лижут ли Вас Собаки? ВОТ ЧТО ЭТО ЗНАЧИТ (вас шокирует)!

Лижут ли Вас Собаки? ВОТ ЧТО ЭТО ЗНАЧИТ (вас шокирует)!

Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory

Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory

16 AI-инструментов, которые реально работают в 2026 (честный рейтинг)

16 AI-инструментов, которые реально работают в 2026 (честный рейтинг)

Autonomous Exploration Summary Video for Science Robotics Article

Autonomous Exploration Summary Video for Science Robotics Article

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com