场景理解与描述

视觉语言大模型（VLM）为自动驾驶场景理解带来了范式性变革。传统感知系统以目标检测、语义分割等结构化输出为核心，而 VLM 能够以自然语言形式对驾驶场景进行全局语义描述、上下文推理和异常识别。本页面系统介绍 VLM 在场景理解与描述中的关键技术方向、代表性工作及评估方法。

1. 驾驶场景描述（Scene Captioning）

1.1 传统感知输出 vs VLM 场景描述

传统感知管线输出的是结构化数据——边界框坐标、类别标签、置信度分数。这些输出精确但语义贫乏，无法表达场景级别的语义关系。VLM 则可以生成自然语言描述，捕获对象间关系、场景上下文和潜在风险。

传统感知输出示例：

{
  "objects": [
    {"class": "car", "bbox": [120, 200, 280, 350], "confidence": 0.95},
    {"class": "pedestrian", "bbox": [450, 180, 500, 380], "confidence": 0.88},
    {"class": "traffic_light", "bbox": [300, 50, 330, 100], "state": "red"}
  ]
}

VLM 场景描述输出示例：

当前车辆正行驶在城市双向四车道道路上，前方红灯亮起，一辆白色轿车正在
减速停车。右侧人行横道处有一名行人正准备过马路，手中推着婴儿车，需要
特别注意。道路左侧有施工围挡，可用车道宽度减少，建议保持低速并适当右偏。

对比维度	传统感知输出	VLM 场景描述
信息粒度	单目标级别	场景级别
语义丰富度	类别 + 坐标	关系 + 意图 + 风险
关系表达	无	空间关系、因果关系
异常描述	仅限已知类别	开放词汇描述
可解释性	低	高
计算延迟	< 50 ms	500–2000 ms

1.2 场景级语义捕获

VLM 场景描述的核心优势在于场景级语义捕获，即从全局视角理解场景而非逐目标独立处理。场景级语义包括：

空间布局：道路结构、车道分布、交叉口类型
交通态势：交通流方向、拥堵程度、整体车速
社会语境：学校区域、商业街、住宅区等场景特征
天气与光照：雨天路滑、逆光、夜间低可见度
风险预判：基于场景上下文的潜在危险推理

1.3 结构化 vs 自由形式描述

VLM 场景描述可分为结构化描述和自由形式描述两种范式：

结构化描述采用预定义的键值对格式，便于下游模块解析：

{
  "scene_type": "城市交叉路口",
  "weather": "晴天",
  "time_of_day": "下午",
  "ego_action": "等待红灯",
  "risk_level": "中",
  "key_objects": ["前方停车的公交车", "右侧过马路的行人"],
  "suggestion": "红灯结束后注意行人是否已完全通过"
}

自由形式描述则以自然语言段落输出，语义更丰富但解析难度更大。实际应用中，多数系统采用半结构化方案——在结构化框架中嵌入自然语言字段，兼顾可解析性与语义丰富度。

2. 上下文感知的标志与信号识别

2.1 超越分类的语义理解

传统交通标志识别将任务建模为图像分类问题，在标准标志数据集（如 GTSRB）上性能优异，但在真实场景中面临诸多局限。VLM 通过引入上下文感知能力，实现对标志与信号的深层语义理解：

能力	传统分类器	VLM 上下文理解
标准标志识别	准确率 > 99%	准确率 > 95%
非标准标志理解	无法处理	可用自然语言描述含义
遮挡标志推理	性能严重下降	结合上下文推理可能含义
标志间矛盾检测	无此能力	可识别并报告矛盾
临时标志理解	需重新训练	零样本理解

2.2 非标准标志理解

非标准标志是传统感知系统的盲区。例如手写的"前方塌方，绕行"告示、临时张贴的施工通知、停车场手绘的方向指引等。VLM 能够：

识别并阅读手写或打印的非标准文字告示
理解箭头、图标等非标准化视觉符号的含义
结合道路上下文判断非标准标志的可信度和适用范围

2.3 时间上下文推理

许多交通标志的语义与时间上下文密切相关。VLM 可以结合当前时间信息进行推理：

学校区域限速："学校区域，限速 30 km/h（7:00–18:00）"——VLM 可判断当前时间是否在限速时段内
潮汐车道：根据当前时间判断可变车道的通行方向
停车限制："工作日 8:00–20:00 禁止停车"——VLM 可判断当前是否为限制时段

[查询] 当前时间为周三下午 3:30，前方有"学校区域限速30"标志，应如何决策？

[VLM 推理] 当前为工作日下午，处于学校放学时间段（通常 15:00–16:30），
学校区域限速标志生效。建议将车速降至 30 km/h 以下，并密切关注两侧是否
有学生横穿马路。放学时段学生活动密集，应额外提高警惕。

3. 道路拓扑与布局理解

3.1 交叉口类型推理

道路交叉口的类型和结构对规划决策至关重要。VLM 能够对交叉口进行语义级别的类型推理：

十字路口：识别四向交叉，判断是否有信号灯控制、是否有左转待转区
T 型路口：判断优先通行方向、是否需要让行
环形交叉口（环岛）：理解环岛通行规则、出口位置
多路交叉口：五岔路口等复杂拓扑的通行规则推理
立交桥匝道：分合流区域识别与通行建议

3.2 匝道与合流区域

高速公路匝道合流区域是驾驶难度较高的场景，VLM 可以提供：

[场景描述] 当前车辆正沿高速公路主路行驶，右侧约 200 米处有一条入口
匝道正在合流。匝道上有三辆车正以较低车速（约 60 km/h）依次汇入，
主路当前车道车速约 100 km/h。建议提前变道至左侧车道为合流车辆
让出空间，或适当减速配合合流。

3.3 非结构化道路理解

城市道路和高速公路有清晰的车道标线和交通设施，但许多场景中道路是非结构化的：乡村土路、停车场内部、施工区域临时通道等。传统车道线检测在这些场景中完全失效，而 VLM 可以：

根据路面纹理、边界和上下文推断可通行区域
识别非标准的通行路径（如停车场中的行驶方向）
理解临时交通组织方案（如施工绕行路线）

3.4 BEV 场景理解

鸟瞰图（Bird's Eye View, BEV）是自动驾驶中重要的空间表示形式。VLM 可与 BEV 特征结合，实现更精确的空间推理：

\[\mathbf{F}_{BEV} = \text{BEVEncoder}(\mathbf{I}_1, \mathbf{I}_2, \ldots, \mathbf{I}_N)\]

其中 \(\mathbf{I}_i\) 为第 \(i\) 个相机视角的输入图像。BEV 特征提供了统一的俯视空间表示，VLM 可在此基础上进行自然语言形式的空间关系推理。Talk2BEV 等工作已证明这一路径的可行性。

4. 异常场景识别

4.1 长尾场景挑战

异常场景（Anomaly Scenarios）是自动驾驶安全的核心挑战。这些场景在训练数据中极为罕见，但在真实道路上一旦出现可能造成严重后果。VLM 凭借预训练获得的世界知识，在长尾异常场景的识别上展现出显著优势。

4.2 传统方法 vs VLM 异常识别能力对比

异常场景	传统方法表现	VLM 表现	VLM 优势来源
路面散落大型物体（家具、轮胎）	未知类别，漏检	可识别并描述物体类型	开放词汇识别
逆行车辆	检测为车辆但无法判断逆行	识别行驶方向异常	运动语义理解
行人突然倒地	检测为行人但无法理解状态	理解异常行为并预警	行为常识推理
动物横穿道路	依赖训练类别覆盖	可识别各类动物	广泛的视觉知识
施工区域非标准布局	依赖高精地图更新	实时理解临时布局	场景理解能力
紧急车辆（非标准涂装）	依赖外观特征匹配	结合声光和上下文判断	多模态推理
交通事故现场	检测到多个目标但无法理解场景	理解事故性质和影响范围	场景级语义理解
恶劣天气中的幽灵目标	误检率高	结合天气上下文过滤	上下文推理
道路塌陷 / 积水	依赖特定检测器	识别路面异常状态	视觉常识
非机动车违规行为	仅检测位置	理解违规类型和风险	交通规则知识

4.3 异常描述与风险评估

VLM 不仅可以检测异常，还可以对异常进行描述和风险评估：

[异常检测输出]
- 异常类型：路面障碍物
- 描述：前方车道中央有一个大型纸箱，可能从前方货车掉落，
  纸箱体积约 0.5m×0.5m×0.3m，尚不确定内部是否有重物。
- 风险等级：高
- 建议动作：立即减速，在确保安全的前提下变道避让。
- 推理依据：前方 100m 处有一辆货车，后挡板似乎未关好，
  纸箱可能是从该货车掉落。

5. 3D 场景理解

5.1 基于 VLM 的深度估计

VLM 可以从单目图像中推理出近似的深度关系，虽然不如 LiDAR 精确，但能以自然语言形式表达空间距离：

相对深度："白色 SUV 在红色轿车前方约两个车身的距离"
绝对距离估计："前方行人距离本车约 30 米"
尺度推理：利用已知物体尺寸（车辆、行人）作为参照物估计距离

深度感知能力使 VLM 在纯视觉自动驾驶方案中具有额外价值，可作为传统单目深度估计的语义补充。

5.2 空间关系推理

VLM 的空间关系推理能力超越简单的距离估计，支持复杂的三维空间关系描述：

[查询] 描述自车周围的空间关系。

[VLM 输出] 自车当前位于三车道道路的中间车道。左前方约 20 米处有一辆
黑色 SUV 正在以略高于本车的速度行驶。右侧车道空闲，但右后方约 40 米
处有一辆卡车正在接近。前方 50 米处的十字路口信号灯为绿灯。
左侧车道因前方有慢车而出现排队，不建议向左变道。

5.3 自然语言距离估计

VLM 可将精确的距离测量转化为更符合人类认知的自然语言表达：

精确距离	VLM 自然语言表达
5 m	紧邻前车，需要立即制动
15 m	距离较近，应保持警惕
30 m	安全跟车距离内
50 m	前方较远处
100 m+	远处可见

这种表达方式对于人机交互和驾驶解释性输出尤为重要。

6. 多视角融合理解

6.1 环视图像理解

自动驾驶车辆通常配备 6–8 个环视摄像头，提供 360 度视觉覆盖。VLM 可以对多视角图像进行联合理解：

\[\mathbf{S} = \text{VLM}(\mathbf{I}_{front}, \mathbf{I}_{front\_left}, \mathbf{I}_{front\_right}, \mathbf{I}_{rear}, \mathbf{I}_{rear\_left}, \mathbf{I}_{rear\_right})\]

其中 \(\mathbf{S}\) 为融合后的场景描述。多视角融合使 VLM 能够生成完整的全景场景描述，而非仅依赖单一前视图。

6.2 全景场景描述

基于多视角融合，VLM 可以生成 360 度全景场景描述：

[全景场景描述]
前方：城市主干道，双向六车道，前方 100m 处为信号灯控制的十字路口，
      当前绿灯，车流通畅。
左前方：左侧车道有一辆公交车正在靠站停车，有乘客正在下车。
右前方：右侧车道空闲，前方 50m 处有一辆外卖电动车正在缓慢行驶。
左后方：左后方约 30m 处有一辆黑色轿车正在加速接近。
右后方：右后方无车辆。
后方：后方约 50m 处有一辆白色 SUV 跟随行驶，保持稳定车距。

6.3 跨相机一致性

多视角理解的一个关键挑战是跨相机一致性——同一目标可能出现在相邻摄像头的重叠区域，VLM 需要确保描述的一致性：

目标身份一致：左前方摄像头和前方摄像头看到的同一辆车应被识别为同一目标
空间位置一致：对同一目标的距离和方位描述在不同视角间应保持一致
属性描述一致：颜色、类型等属性描述不应因视角不同而产生矛盾

实现跨相机一致性通常需要在 VLM 输入中显式编码相机位姿信息，或引入 BEV 中间表示进行统一。

7. 时序场景理解

7.1 基于视频的场景理解

单帧场景理解存在固有局限——无法捕获运动信息、趋势变化和因果关系。基于视频的 VLM 场景理解通过处理连续帧序列，获取时间维度的语义信息：

\[\mathbf{S}_t = \text{VLM}(\mathbf{I}_{t-T}, \mathbf{I}_{t-T+1}, \ldots, \mathbf{I}_{t})\]

其中 \(T\) 为时间窗口长度。视频 VLM 可以捕获：

运动模式：车辆加速、减速、变道等行为
行为意图：行人是否准备过马路、前车是否准备转向
场景变化：信号灯变化、道路状况变化

7.2 时序一致性

时序场景描述需要保持时间一致性——对同一目标在不同时刻的描述应当连贯，避免出现身份跳变或属性突变：

[T=0s] 前方有一辆红色轿车正在正常行驶。
[T=1s] 该红色轿车开始减速，刹车灯亮起。
[T=2s] 该红色轿车已停车，可能遇到前方障碍物。
[T=3s] 该红色轿车开启右转向灯，准备变道避让。

7.3 基于语言的目标跟踪

传统目标跟踪依赖视觉特征匹配（如 Re-ID 特征），而 VLM 支持基于自然语言的目标跟踪——用语言描述指定跟踪目标：

查询："跟踪右侧车道那辆车顶载有行李架的蓝色 SUV"
跟踪输出：VLM 在后续帧中持续定位并描述该目标的位置和行为变化

这种语言驱动的跟踪方式在人机交互场景中尤为有用，例如乘客可以用自然语言指定关注的目标。

8. 代表性工作详解

8.1 DriveGPT4

DriveGPT4 是一个基于多模态大语言模型的端到端自动驾驶系统，能够同时处理视频输入并生成驾驶决策与自然语言解释。

架构设计：

视觉编码器：使用预训练的 CLIP ViT-L/14 提取视频帧特征
时序建模：通过时序聚合模块处理连续帧的视觉特征
语言模型：基于 LLaMA 架构的大语言模型，接收视觉 Token 和文本指令
输出：驾驶控制信号（速度、方向）+ 自然语言解释

核心贡献：

首次实现视频理解与驾驶控制的统一模型
可解释的驾驶决策输出
在 BDD-X 数据集上验证了描述生成质量

8.2 Talk2BEV

Talk2BEV 将大语言模型与 BEV 感知特征相结合，支持基于自然语言的 BEV 空间查询和推理。

架构设计：

BEV 编码器：将多视角图像转换为统一 BEV 特征图 \(\mathbf{F}_{BEV} \in \mathbb{R}^{H' \times W' \times C}\)
空间引用机制（Spatial Referring）：将自然语言查询与 BEV 空间区域关联
语言模型：基于 LLM 进行空间推理和问答

典型交互示例：

[用户] BEV 地图中左前方区域有什么？
[Talk2BEV] 左前方约 15m 处有一辆正在左转的白色轿车，
其转弯轨迹可能与自车行驶路径交叉。建议减速让行。

8.3 NuScenes-QA

NuScenes-QA 是基于 nuScenes 数据集构建的自动驾驶视觉问答基准数据集。

数据集特点：

属性	数值
问答对数量	约 460,000
场景数量	约 34,000
问题类型	存在性、计数、状态、比较、距离
数据来源	nuScenes 3D 标注自动生成

问题类型示例：

存在性："前方是否有行人？"
计数："左侧车道有几辆车？"
状态："前方卡车是否正在转弯？"
比较："哪辆车距离自车更近？"
距离："最近的行人距离多远？"

NuScenes-QA 为评估 VLM 在自动驾驶场景中的空间理解和推理能力提供了标准化基准。

8.4 DriveLM

DriveLM 提出了基于图结构的驾驶场景问答框架，将感知、预测和规划组织为层次化的问答图（QA Graph）。

核心设计：

QA 图结构：将驾驶任务分解为感知层（Perception）、预测层（Prediction）和规划层（Planning）三个层次的问答对
图推理：下游问题的回答依赖于上游问题的输出，形成因果推理链
端到端训练：视觉编码器和语言模型联合微调

性能分析：

DriveLM 在 nuScenes 数据集上的实验表明，图结构化的问答方式相比直接问答具有以下优势：

感知问题准确率提升约 5–8%
规划问题的推理一致性显著提高
生成的解释更具因果逻辑性

9. 评估方法

9.1 场景理解质量评估的挑战

场景描述是一种开放式生成任务，不同于目标检测等有明确量化指标的结构化任务。评估场景描述的质量需要综合考虑准确性、完整性、相关性和流畅性等多个维度。

9.2 自动评估指标

指标	计算方式	适用场景	局限性
BLEU	n-gram 精确率	短文本匹配	对同义表达不敏感
ROUGE	n-gram 召回率	长文本覆盖度	无法评估语义正确性
CIDEr	TF-IDF 加权 n-gram	图像描述	依赖参考描述质量
METEOR	词干匹配 + 同义词	机器翻译评估	对驾驶领域适配不足
BERTScore	上下文嵌入相似度	语义相似度	计算开销较大
SPICE	场景图 F1	场景结构评估	场景图解析可能出错

9.3 GPT-4 评分

近年来，使用 GPT-4 等大语言模型作为评估器（LLM-as-a-Judge）已成为评估开放式生成质量的重要方法：

[评估提示词模板]
请评估以下自动驾驶场景描述的质量。参考图像内容和标准答案，
从以下维度进行 1-10 分评分：
1. 准确性：描述内容是否与图像一致
2. 完整性：是否覆盖了场景中的关键要素
3. 安全相关性：是否识别并强调了安全相关信息
4. 可操作性：描述是否有助于驾驶决策

[标准答案] ...
[待评估描述] ...

请给出各维度评分和总体评分，并说明理由。

GPT-4 评分与人类评估的相关系数通常在 0.8–0.9 之间，是当前最具可扩展性的评估方案。

9.4 人工评估

人工评估仍是场景描述质量的最终标准。常见的人工评估协议包括：

A/B 对比测试：评估者从两个模型的输出中选择更好的一个
李克特量表评分：评估者对每个描述在多个维度上进行 1–5 或 1–7 分评分
关键要素核查：预定义场景中的关键信息点，检查描述是否覆盖

人工评估的主要瓶颈在于成本高和一致性难以保证，因此通常仅在论文发表或关键版本评测时使用。

9.5 综合评估框架

实践中，推荐采用多层次的综合评估框架：

开发阶段：使用 BLEU、CIDEr 等自动指标快速迭代
评测阶段：使用 GPT-4 评分进行中等成本的全面评估
发布阶段：使用人工评估进行最终质量把关
线上阶段：使用下游任务指标（如规划安全性）间接评估

参考资料

Xu, Z., et al. "DriveGPT4: Interpretable End-to-End Autonomous Driving via Large Language Model." arXiv preprint arXiv:2310.01412, 2023.
Cai, D., et al. "Talk2BEV: Language-Enhanced Bird's Eye View Maps for Autonomous Driving." arXiv preprint arXiv:2310.02251, 2023.
Qian, T., et al. "NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario." AAAI, 2024.
Sima, C., et al. "DriveLM: Driving with Graph Visual Question Answering." arXiv preprint arXiv:2312.14150, 2023.
Radford, A., et al. "Learning Transferable Visual Models from Natural Language Supervision." ICML, 2021.
Li, J., et al. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models." ICML, 2023.
Liu, H., et al. "Visual Instruction Tuning." NeurIPS, 2023.
Papineni, K., et al. "BLEU: A Method for Automatic Evaluation of Machine Translation." ACL, 2002.
Vedantam, R., et al. "CIDEr: Consensus-based Image Description Evaluation." CVPR, 2015.
Zheng, L., et al. "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena." NeurIPS, 2023.