场景理解与描述
视觉语言大模型(VLM)为自动驾驶场景理解带来了范式性变革。传统感知系统以目标检测、语义分割等结构化输出为核心,而 VLM 能够以自然语言形式对驾驶场景进行全局语义描述、上下文推理和异常识别。本页面系统介绍 VLM 在场景理解与描述中的关键技术方向、代表性工作及评估方法。
1. 驾驶场景描述(Scene Captioning)
1.1 传统感知输出 vs VLM 场景描述
传统感知管线输出的是结构化数据——边界框坐标、类别标签、置信度分数。这些输出精确但语义贫乏,无法表达场景级别的语义关系。VLM 则可以生成自然语言描述,捕获对象间关系、场景上下文和潜在风险。
传统感知输出示例:
{
"objects": [
{"class": "car", "bbox": [120, 200, 280, 350], "confidence": 0.95},
{"class": "pedestrian", "bbox": [450, 180, 500, 380], "confidence": 0.88},
{"class": "traffic_light", "bbox": [300, 50, 330, 100], "state": "red"}
]
}
VLM 场景描述输出示例:
当前车辆正行驶在城市双向四车道道路上,前方红灯亮起,一辆白色轿车正在
减速停车。右侧人行横道处有一名行人正准备过马路,手中推着婴儿车,需要
特别注意。道路左侧有施工围挡,可用车道宽度减少,建议保持低速并适当右偏。
| 对比维度 | 传统感知输出 | VLM 场景描述 |
|---|---|---|
| 信息粒度 | 单目标级别 | 场景级别 |
| 语义丰富度 | 类别 + 坐标 | 关系 + 意图 + 风险 |
| 关系表达 | 无 | 空间关系、因果关系 |
| 异常描述 | 仅限已知类别 | 开放词汇描述 |
| 可解释性 | 低 | 高 |
| 计算延迟 | < 50 ms | 500–2000 ms |
1.2 场景级语义捕获
VLM 场景描述的核心优势在于场景级语义捕获,即从全局视角理解场景而非逐目标独立处理。场景级语义包括:
- 空间布局:道路结构、车道分布、交叉口类型
- 交通态势:交通流方向、拥堵程度、整体车速
- 社会语境:学校区域、商业街、住宅区等场景特征
- 天气与光照:雨天路滑、逆光、夜间低可见度
- 风险预判:基于场景上下文的潜在危险推理
1.3 结构化 vs 自由形式描述
VLM 场景描述可分为结构化描述和自由形式描述两种范式:
结构化描述采用预定义的键值对格式,便于下游模块解析:
{
"scene_type": "城市交叉路口",
"weather": "晴天",
"time_of_day": "下午",
"ego_action": "等待红灯",
"risk_level": "中",
"key_objects": ["前方停车的公交车", "右侧过马路的行人"],
"suggestion": "红灯结束后注意行人是否已完全通过"
}
自由形式描述则以自然语言段落输出,语义更丰富但解析难度更大。实际应用中,多数系统采用半结构化方案——在结构化框架中嵌入自然语言字段,兼顾可解析性与语义丰富度。
2. 上下文感知的标志与信号识别
2.1 超越分类的语义理解
传统交通标志识别将任务建模为图像分类问题,在标准标志数据集(如 GTSRB)上性能优异,但在真实场景中面临诸多局限。VLM 通过引入上下文感知能力,实现对标志与信号的深层语义理解:
| 能力 | 传统分类器 | VLM 上下文理解 |
|---|---|---|
| 标准标志识别 | 准确率 > 99% | 准确率 > 95% |
| 非标准标志理解 | 无法处理 | 可用自然语言描述含义 |
| 遮挡标志推理 | 性能严重下降 | 结合上下文推理可能含义 |
| 标志间矛盾检测 | 无此能力 | 可识别并报告矛盾 |
| 临时标志理解 | 需重新训练 | 零样本理解 |
2.2 非标准标志理解
非标准标志是传统感知系统的盲区。例如手写的"前方塌方,绕行"告示、临时张贴的施工通知、停车场手绘的方向指引等。VLM 能够:
- 识别并阅读手写或打印的非标准文字告示
- 理解箭头、图标等非标准化视觉符号的含义
- 结合道路上下文判断非标准标志的可信度和适用范围
2.3 时间上下文推理
许多交通标志的语义与时间上下文密切相关。VLM 可以结合当前时间信息进行推理:
- 学校区域限速:"学校区域,限速 30 km/h(7:00–18:00)"——VLM 可判断当前时间是否在限速时段内
- 潮汐车道:根据当前时间判断可变车道的通行方向
- 停车限制:"工作日 8:00–20:00 禁止停车"——VLM 可判断当前是否为限制时段
[查询] 当前时间为周三下午 3:30,前方有"学校区域限速30"标志,应如何决策?
[VLM 推理] 当前为工作日下午,处于学校放学时间段(通常 15:00–16:30),
学校区域限速标志生效。建议将车速降至 30 km/h 以下,并密切关注两侧是否
有学生横穿马路。放学时段学生活动密集,应额外提高警惕。
3. 道路拓扑与布局理解
3.1 交叉口类型推理
道路交叉口的类型和结构对规划决策至关重要。VLM 能够对交叉口进行语义级别的类型推理:
- 十字路口:识别四向交叉,判断是否有信号灯控制、是否有左转待转区
- T 型路口:判断优先通行方向、是否需要让行
- 环形交叉口(环岛):理解环岛通行规则、出口位置
- 多路交叉口:五岔路口等复杂拓扑的通行规则推理
- 立交桥匝道:分合流区域识别与通行建议
3.2 匝道与合流区域
高速公路匝道合流区域是驾驶难度较高的场景,VLM 可以提供:
[场景描述] 当前车辆正沿高速公路主路行驶,右侧约 200 米处有一条入口
匝道正在合流。匝道上有三辆车正以较低车速(约 60 km/h)依次汇入,
主路当前车道车速约 100 km/h。建议提前变道至左侧车道为合流车辆
让出空间,或适当减速配合合流。
3.3 非结构化道路理解
城市道路和高速公路有清晰的车道标线和交通设施,但许多场景中道路是非结构化的:乡村土路、停车场内部、施工区域临时通道等。传统车道线检测在这些场景中完全失效,而 VLM 可以:
- 根据路面纹理、边界和上下文推断可通行区域
- 识别非标准的通行路径(如停车场中的行驶方向)
- 理解临时交通组织方案(如施工绕行路线)
3.4 BEV 场景理解
鸟瞰图(Bird's Eye View, BEV)是自动驾驶中重要的空间表示形式。VLM 可与 BEV 特征结合,实现更精确的空间推理:
其中 \(\mathbf{I}_i\) 为第 \(i\) 个相机视角的输入图像。BEV 特征提供了统一的俯视空间表示,VLM 可在此基础上进行自然语言形式的空间关系推理。Talk2BEV 等工作已证明这一路径的可行性。
4. 异常场景识别
4.1 长尾场景挑战
异常场景(Anomaly Scenarios)是自动驾驶安全的核心挑战。这些场景在训练数据中极为罕见,但在真实道路上一旦出现可能造成严重后果。VLM 凭借预训练获得的世界知识,在长尾异常场景的识别上展现出显著优势。
4.2 传统方法 vs VLM 异常识别能力对比
| 异常场景 | 传统方法表现 | VLM 表现 | VLM 优势来源 |
|---|---|---|---|
| 路面散落大型物体(家具、轮胎) | 未知类别,漏检 | 可识别并描述物体类型 | 开放词汇识别 |
| 逆行车辆 | 检测为车辆但无法判断逆行 | 识别行驶方向异常 | 运动语义理解 |
| 行人突然倒地 | 检测为行人但无法理解状态 | 理解异常行为并预警 | 行为常识推理 |
| 动物横穿道路 | 依赖训练类别覆盖 | 可识别各类动物 | 广泛的视觉知识 |
| 施工区域非标准布局 | 依赖高精地图更新 | 实时理解临时布局 | 场景理解能力 |
| 紧急车辆(非标准涂装) | 依赖外观特征匹配 | 结合声光和上下文判断 | 多模态推理 |
| 交通事故现场 | 检测到多个目标但无法理解场景 | 理解事故性质和影响范围 | 场景级语义理解 |
| 恶劣天气中的幽灵目标 | 误检率高 | 结合天气上下文过滤 | 上下文推理 |
| 道路塌陷 / 积水 | 依赖特定检测器 | 识别路面异常状态 | 视觉常识 |
| 非机动车违规行为 | 仅检测位置 | 理解违规类型和风险 | 交通规则知识 |
4.3 异常描述与风险评估
VLM 不仅可以检测异常,还可以对异常进行描述和风险评估:
[异常检测输出]
- 异常类型:路面障碍物
- 描述:前方车道中央有一个大型纸箱,可能从前方货车掉落,
纸箱体积约 0.5m×0.5m×0.3m,尚不确定内部是否有重物。
- 风险等级:高
- 建议动作:立即减速,在确保安全的前提下变道避让。
- 推理依据:前方 100m 处有一辆货车,后挡板似乎未关好,
纸箱可能是从该货车掉落。
5. 3D 场景理解
5.1 基于 VLM 的深度估计
VLM 可以从单目图像中推理出近似的深度关系,虽然不如 LiDAR 精确,但能以自然语言形式表达空间距离:
- 相对深度:"白色 SUV 在红色轿车前方约两个车身的距离"
- 绝对距离估计:"前方行人距离本车约 30 米"
- 尺度推理:利用已知物体尺寸(车辆、行人)作为参照物估计距离
深度感知能力使 VLM 在纯视觉自动驾驶方案中具有额外价值,可作为传统单目深度估计的语义补充。
5.2 空间关系推理
VLM 的空间关系推理能力超越简单的距离估计,支持复杂的三维空间关系描述:
[查询] 描述自车周围的空间关系。
[VLM 输出] 自车当前位于三车道道路的中间车道。左前方约 20 米处有一辆
黑色 SUV 正在以略高于本车的速度行驶。右侧车道空闲,但右后方约 40 米
处有一辆卡车正在接近。前方 50 米处的十字路口信号灯为绿灯。
左侧车道因前方有慢车而出现排队,不建议向左变道。
5.3 自然语言距离估计
VLM 可将精确的距离测量转化为更符合人类认知的自然语言表达:
| 精确距离 | VLM 自然语言表达 |
|---|---|
| 5 m | 紧邻前车,需要立即制动 |
| 15 m | 距离较近,应保持警惕 |
| 30 m | 安全跟车距离内 |
| 50 m | 前方较远处 |
| 100 m+ | 远处可见 |
这种表达方式对于人机交互和驾驶解释性输出尤为重要。
6. 多视角融合理解
6.1 环视图像理解
自动驾驶车辆通常配备 6–8 个环视摄像头,提供 360 度视觉覆盖。VLM 可以对多视角图像进行联合理解:
其中 \(\mathbf{S}\) 为融合后的场景描述。多视角融合使 VLM 能够生成完整的全景场景描述,而非仅依赖单一前视图。
6.2 全景场景描述
基于多视角融合,VLM 可以生成 360 度全景场景描述:
[全景场景描述]
前方:城市主干道,双向六车道,前方 100m 处为信号灯控制的十字路口,
当前绿灯,车流通畅。
左前方:左侧车道有一辆公交车正在靠站停车,有乘客正在下车。
右前方:右侧车道空闲,前方 50m 处有一辆外卖电动车正在缓慢行驶。
左后方:左后方约 30m 处有一辆黑色轿车正在加速接近。
右后方:右后方无车辆。
后方:后方约 50m 处有一辆白色 SUV 跟随行驶,保持稳定车距。
6.3 跨相机一致性
多视角理解的一个关键挑战是跨相机一致性——同一目标可能出现在相邻摄像头的重叠区域,VLM 需要确保描述的一致性:
- 目标身份一致:左前方摄像头和前方摄像头看到的同一辆车应被识别为同一目标
- 空间位置一致:对同一目标的距离和方位描述在不同视角间应保持一致
- 属性描述一致:颜色、类型等属性描述不应因视角不同而产生矛盾
实现跨相机一致性通常需要在 VLM 输入中显式编码相机位姿信息,或引入 BEV 中间表示进行统一。
7. 时序场景理解
7.1 基于视频的场景理解
单帧场景理解存在固有局限——无法捕获运动信息、趋势变化和因果关系。基于视频的 VLM 场景理解通过处理连续帧序列,获取时间维度的语义信息:
其中 \(T\) 为时间窗口长度。视频 VLM 可以捕获:
- 运动模式:车辆加速、减速、变道等行为
- 行为意图:行人是否准备过马路、前车是否准备转向
- 场景变化:信号灯变化、道路状况变化
7.2 时序一致性
时序场景描述需要保持时间一致性——对同一目标在不同时刻的描述应当连贯,避免出现身份跳变或属性突变:
[T=0s] 前方有一辆红色轿车正在正常行驶。
[T=1s] 该红色轿车开始减速,刹车灯亮起。
[T=2s] 该红色轿车已停车,可能遇到前方障碍物。
[T=3s] 该红色轿车开启右转向灯,准备变道避让。
7.3 基于语言的目标跟踪
传统目标跟踪依赖视觉特征匹配(如 Re-ID 特征),而 VLM 支持基于自然语言的目标跟踪——用语言描述指定跟踪目标:
- 查询:"跟踪右侧车道那辆车顶载有行李架的蓝色 SUV"
- 跟踪输出:VLM 在后续帧中持续定位并描述该目标的位置和行为变化
这种语言驱动的跟踪方式在人机交互场景中尤为有用,例如乘客可以用自然语言指定关注的目标。
8. 代表性工作详解
8.1 DriveGPT4
DriveGPT4 是一个基于多模态大语言模型的端到端自动驾驶系统,能够同时处理视频输入并生成驾驶决策与自然语言解释。
架构设计:
- 视觉编码器:使用预训练的 CLIP ViT-L/14 提取视频帧特征
- 时序建模:通过时序聚合模块处理连续帧的视觉特征
- 语言模型:基于 LLaMA 架构的大语言模型,接收视觉 Token 和文本指令
- 输出:驾驶控制信号(速度、方向)+ 自然语言解释
核心贡献:
- 首次实现视频理解与驾驶控制的统一模型
- 可解释的驾驶决策输出
- 在 BDD-X 数据集上验证了描述生成质量
8.2 Talk2BEV
Talk2BEV 将大语言模型与 BEV 感知特征相结合,支持基于自然语言的 BEV 空间查询和推理。
架构设计:
- BEV 编码器:将多视角图像转换为统一 BEV 特征图 \(\mathbf{F}_{BEV} \in \mathbb{R}^{H' \times W' \times C}\)
- 空间引用机制(Spatial Referring):将自然语言查询与 BEV 空间区域关联
- 语言模型:基于 LLM 进行空间推理和问答
典型交互示例:
[用户] BEV 地图中左前方区域有什么?
[Talk2BEV] 左前方约 15m 处有一辆正在左转的白色轿车,
其转弯轨迹可能与自车行驶路径交叉。建议减速让行。
8.3 NuScenes-QA
NuScenes-QA 是基于 nuScenes 数据集构建的自动驾驶视觉问答基准数据集。
数据集特点:
| 属性 | 数值 |
|---|---|
| 问答对数量 | 约 460,000 |
| 场景数量 | 约 34,000 |
| 问题类型 | 存在性、计数、状态、比较、距离 |
| 数据来源 | nuScenes 3D 标注自动生成 |
问题类型示例:
- 存在性:"前方是否有行人?"
- 计数:"左侧车道有几辆车?"
- 状态:"前方卡车是否正在转弯?"
- 比较:"哪辆车距离自车更近?"
- 距离:"最近的行人距离多远?"
NuScenes-QA 为评估 VLM 在自动驾驶场景中的空间理解和推理能力提供了标准化基准。
8.4 DriveLM
DriveLM 提出了基于图结构的驾驶场景问答框架,将感知、预测和规划组织为层次化的问答图(QA Graph)。
核心设计:
- QA 图结构:将驾驶任务分解为感知层(Perception)、预测层(Prediction)和规划层(Planning)三个层次的问答对
- 图推理:下游问题的回答依赖于上游问题的输出,形成因果推理链
- 端到端训练:视觉编码器和语言模型联合微调
性能分析:
DriveLM 在 nuScenes 数据集上的实验表明,图结构化的问答方式相比直接问答具有以下优势:
- 感知问题准确率提升约 5–8%
- 规划问题的推理一致性显著提高
- 生成的解释更具因果逻辑性
9. 评估方法
9.1 场景理解质量评估的挑战
场景描述是一种开放式生成任务,不同于目标检测等有明确量化指标的结构化任务。评估场景描述的质量需要综合考虑准确性、完整性、相关性和流畅性等多个维度。
9.2 自动评估指标
| 指标 | 计算方式 | 适用场景 | 局限性 |
|---|---|---|---|
| BLEU | n-gram 精确率 | 短文本匹配 | 对同义表达不敏感 |
| ROUGE | n-gram 召回率 | 长文本覆盖度 | 无法评估语义正确性 |
| CIDEr | TF-IDF 加权 n-gram | 图像描述 | 依赖参考描述质量 |
| METEOR | 词干匹配 + 同义词 | 机器翻译评估 | 对驾驶领域适配不足 |
| BERTScore | 上下文嵌入相似度 | 语义相似度 | 计算开销较大 |
| SPICE | 场景图 F1 | 场景结构评估 | 场景图解析可能出错 |
9.3 GPT-4 评分
近年来,使用 GPT-4 等大语言模型作为评估器(LLM-as-a-Judge)已成为评估开放式生成质量的重要方法:
[评估提示词模板]
请评估以下自动驾驶场景描述的质量。参考图像内容和标准答案,
从以下维度进行 1-10 分评分:
1. 准确性:描述内容是否与图像一致
2. 完整性:是否覆盖了场景中的关键要素
3. 安全相关性:是否识别并强调了安全相关信息
4. 可操作性:描述是否有助于驾驶决策
[标准答案] ...
[待评估描述] ...
请给出各维度评分和总体评分,并说明理由。
GPT-4 评分与人类评估的相关系数通常在 0.8–0.9 之间,是当前最具可扩展性的评估方案。
9.4 人工评估
人工评估仍是场景描述质量的最终标准。常见的人工评估协议包括:
- A/B 对比测试:评估者从两个模型的输出中选择更好的一个
- 李克特量表评分:评估者对每个描述在多个维度上进行 1–5 或 1–7 分评分
- 关键要素核查:预定义场景中的关键信息点,检查描述是否覆盖
人工评估的主要瓶颈在于成本高和一致性难以保证,因此通常仅在论文发表或关键版本评测时使用。
9.5 综合评估框架
实践中,推荐采用多层次的综合评估框架:
- 开发阶段:使用 BLEU、CIDEr 等自动指标快速迭代
- 评测阶段:使用 GPT-4 评分进行中等成本的全面评估
- 发布阶段:使用人工评估进行最终质量把关
- 线上阶段:使用下游任务指标(如规划安全性)间接评估
参考资料
- Xu, Z., et al. "DriveGPT4: Interpretable End-to-End Autonomous Driving via Large Language Model." arXiv preprint arXiv:2310.01412, 2023.
- Cai, D., et al. "Talk2BEV: Language-Enhanced Bird's Eye View Maps for Autonomous Driving." arXiv preprint arXiv:2310.02251, 2023.
- Qian, T., et al. "NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario." AAAI, 2024.
- Sima, C., et al. "DriveLM: Driving with Graph Visual Question Answering." arXiv preprint arXiv:2312.14150, 2023.
- Radford, A., et al. "Learning Transferable Visual Models from Natural Language Supervision." ICML, 2021.
- Li, J., et al. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models." ICML, 2023.
- Liu, H., et al. "Visual Instruction Tuning." NeurIPS, 2023.
- Papineni, K., et al. "BLEU: A Method for Automatic Evaluation of Machine Translation." ACL, 2002.
- Vedantam, R., et al. "CIDEr: Consensus-based Image Description Evaluation." CVPR, 2015.
- Zheng, L., et al. "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena." NeurIPS, 2023.