跳转至

第六章:视觉语言大模型

本章介绍视觉语言大模型(VLM)如何重塑自动驾驶技术的研究范式。


VLM:从封闭感知到开放理解

传统自动驾驶感知管线依赖封闭词汇的目标检测与分类——检测器只能识别训练集中出现过的类别。面对"散落在路面的家具"、"倒伏的树木"等从未见过的物体时无能为力,更无法理解"前方学校区域放学时段需要格外谨慎"这样需要社会常识的场景。

视觉语言大模型(Vision-Language Model, VLM 通过将视觉理解与自然语言推理能力统一到一个模型中,赋予自动驾驶系统前所未有的能力:

  • 开放词汇感知:不受预定义类别限制,可以用自然语言描述任意物体和场景
  • 常识推理:利用预训练获得的世界知识进行因果推理和风险预判
  • 可解释决策:以自然语言输出驾驶决策的理由,支持事后审查和乘客沟通
  • 长尾泛化:利用语言的组合性理解从未见过的场景组合
维度 传统感知管线 VLM 驱动的感知
类别体系 封闭词汇(固定类别数) 开放词汇(自然语言描述)
推理能力 仅模式匹配 具备常识和因果推理
输出形式 结构化(边界框、分数) 结构化 + 自然语言解释
长尾处理 依赖数据覆盖 语言泛化 + 零样本推理
实时性 毫秒级(10–50 ms) 秒级(500–2000 ms)
确定性 高(同输入同输出) 较低(存在生成随机性)
可验证性 可量化评测 难以形式化验证

本章内容概览

小节 标题 主要内容
6.1 VLM 基础模型 ViT、CLIP、LLaVA/InternVL 架构与多模态 Token 化
6.2 场景理解与描述 驾驶场景描述、异常识别、道路拓扑理解、多视角融合
6.3 决策与规划 链式推理驾驶、双系统架构、LLM 轨迹生成、安全约束
6.4 数据标注与闭环 VLM 辅助标注、困难样本挖掘、主动学习数据闭环
6.5 人机交互 自然语言导航、决策解释、语音交互、多轮对话
6.6 部署与优化 模型压缩、边缘部署、云边协同、安全回退、功能安全
6.7 展望与挑战 代表性工作对比、幻觉风险、法规伦理、未来方向

各小节简介

6.1 VLM 基础模型(foundation)

介绍 VLM 的核心基础架构:Vision Transformer(ViT)的 Patch 嵌入和自注意力机制、CLIP 的对比学习视觉-语言对齐、LLaVA/InternVL 的三段式架构(视觉编码器 + 投影层 + LLM),以及多模态 Token 化与跨模态注意力机制。

6.2 场景理解与描述(scene_understanding)

深入讲解 VLM 在驾驶场景理解中的应用:场景描述(Scene Captioning)、上下文感知的标志与信号识别、道路拓扑推理、异常场景识别。对比传统感知与 VLM 在长尾场景下的表现差异,介绍 DriveGPT4、Talk2BEV 等代表性工作。

6.3 基于 VLM 的决策与规划(decision_planning)

介绍以自然语言作为中间表征的新型规划范式:链式推理(Chain-of-Thought)驾驶决策、DriveVLM 的"慢思考-快执行"双系统架构、GPT-Driver 的轨迹 Token 化、LanguageMPC 的 LLM-控制器融合。讨论安全约束集成与传统规划器的融合策略。

6.4 数据标注与闭环(data_annotation)

VLM 在数据闭环中的应用:自动标注(场景级标签、开放词汇目标标注、标注质量审核)、困难样本挖掘、主动学习闭环。分析 VLM 辅助标注对成本和质量的影响。

6.5 人机交互(hmi)

VLM 使自动驾驶系统能够理解自然语言导航指令(地标参照、条件指令、模糊指令),实时向乘客解释决策行为,以及通过语音交互实现安全的车内对话。探讨多轮对话、视觉问答和无障碍出行等应用场景。

6.6 部署与优化(deployment)

将数十亿参数的 VLM 部署到车载计算平台的工程挑战:模型压缩(量化、知识蒸馏、LoRA)、边缘部署与云边协同架构、安全回退机制设计、推理优化技术,以及功能安全(ISO 26262)合规性讨论。

6.7 展望与挑战(outlook)

汇总 VLM 与自动驾驶交叉领域的代表性工作,分析核心挑战(幻觉风险、时序推理局限、多智能体协调),讨论法规伦理问题,展望实时化、具身对齐、多模态融合等未来方向。


学习建议

VLM 是自动驾驶领域最前沿的研究方向之一,建议读者先通过基础模型小节理解 ViT 和 CLIP 的核心原理,再按照场景理解 → 决策规划 → 数据闭环的顺序学习应用层技术,最后通过部署与展望小节了解工程落地的挑战和行业趋势。建议结合第四章(核心算法)的感知和规划内容进行对照阅读。