【論文解説】AIは“運転免許試験”に合格できるか? DriveQAが明かす交通知識の限界と可能性
Автор: 論文解説チャンネル
Загружено: 2025-11-13
Просмотров: 5
**「DriveQA」**という新しいベンチマークを導入したこの研究は、自動運転システムにおける**大規模言語モデル(LLM)**および**マルチモーダルLLM(MLLM)**の交通ルール理解能力を評価します。このベンチマークは、**テキストベースの質問(DriveQA-T)**と**視覚的な質問(DriveQA-V)**の両方を含んでおり、標識認識、一時停止規則、複雑な優先順位のシナリオなど、幅広い運転知識を網羅しています。研究の結果、既存のモデルは基本的な交通ルールには対応できるものの、**数値推論や空間認識、そして特に複雑な優先順位の状況**において課題を抱えていることが明らかになりました。ただし、**DriveQAでファインチューニング**を行うことで、これらのモデルの精度と現実世界での運転タスクへの応用性が向上することが示されています。
DriveQA: Passing the Driving Knowledge Test
If a Large Language Model (LLM) were to take a driving knowledge test today, would it pass? Beyond standard spatial and visual question-answering (QA) tasks on current autonomous driving benchmarks, driving knowledge tests require a complete understanding of all traffic rules, signage, and right-of-way principles. To pass this test, human drivers must discern various edge cases that rarely appear in real-world datasets. In this work, we present DriveQA, an extensive open-source text and vision-based benchmark that exhaustively covers traffic regulations and scenarios. Through our experiments using DriveQA, we show that (1) state-of-the-art LLMs and Multimodal LLMs (MLLMs) perform well on basic traffic rules but exhibit significant weaknesses in numerical reasoning and complex right-of-way scenarios, traffic sign variations, and spatial layouts, (2) fine-tuning on DriveQA improves accuracy across multiple categories, particularly in regulatory sign recognition and intersection decision-making, (3) controlled variations in DriveQA-V provide insights into model sensitivity to environmental factors such as lighting, perspective, distance, and weather conditions, and (4) pretraining on DriveQA enhances downstream driving task performance, leading to improved results on real-world datasets such as nuScenes and BDD, while also demonstrating that models can internalize text and synthetic traffic knowledge to generalize effectively across downstream QA tasks.
Maolin Wei/Wanzhou Liu/Eshed Ohn-Bar
http://arxiv.org/abs/2508.21824v1
#DriveQA #運転知識AI #交通ルール理解 #MLLM #視覚と言語の融合 #標識認識 #交差点判断 #環境変化への感度 #nuScenes #BDDデータセット
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: