人机交互

视觉语言模型（VLM）的引入为自动驾驶人机交互（HMI）带来了质的飞跃。传统自动驾驶系统的交互方式局限于预设菜单、固定指令和简单的状态显示，而 VLM 赋予车辆理解自然语言、感知视觉场景并以人类可理解的方式进行沟通的能力。本章将系统介绍 VLM 驱动的人机交互技术在自动驾驶中的应用。

1. 自然语言导航指令

1.1 概述

传统导航系统要求用户输入精确的地址或从列表中选择目的地。VLM 驱动的系统能够理解人类日常表达的导航意图，包括地标参照、相对方向、模糊描述和条件指令等。

1.2 指令类型分类

指令类型	示例	技术挑战
地标参照	"开到前面那个红色屋顶的建筑"	需要视觉识别 + 语言理解的联合推理
相对方向	"在下一个路口左转"	需要实时道路拓扑理解
条件指令	"如果前面堵车就走高架"	需要交通状态感知与路径规划联动
模糊指令	"找个近一点的停车场"	需要理解"近"的语义并结合地图搜索
偏好表达	"走风景好的路线"	需要对"风景好"进行量化评估
否定指令	"别走那条隧道"	需要识别否定语义并更新路径约束
时间约束	"半小时内到机场"	需要结合实时交通预测进行路径优化
多目的地	"先去学校接孩子，再去超市"	需要多目的地序列规划

1.3 技术实现

VLM 处理自然语言导航指令的典型流程如下：

用户语音输入 → ASR 转写 → VLM 意图解析 → 场景视觉关联 → 导航参数提取 → 路径规划执行

关键技术点：

语义接地（Grounding）：将语言中的地标描述与摄像头画面中的实际物体对应
上下文推理：结合当前位置、时间、交通状况理解指令含义
歧义消解：当指令存在多种理解时，主动向用户确认

1.4 对话示例

乘客：去那个星巴克，就是上次去过的那家。
系统：您是指南京西路 1268 号的星巴克吗？上次您在 3 月 5 日去过那里。
乘客：对，就是那家。
系统：好的，已为您规划路线，预计 18 分钟到达。

2. 决策解释与乘客沟通

2.1 实时行为解释

自动驾驶车辆的决策对乘客而言往往是"黑箱"。VLM 能够将车辆的决策过程转化为自然语言解释，显著提升乘客信任。

传统系统 vs VLM 增强反馈对比：

场景	传统系统反馈	VLM 增强反馈
紧急制动	"前方障碍物，已制动"	"前方有一位行人正在过马路，我已提前减速等待"
变道	"正在变道"	"右侧车道较为空旷，变道后可以避开前方慢车，预计节省 3 分钟"
绕行	"路线已更新"	"前方 500 米处发生交通事故，我选择绕行经过中山路，多花约 5 分钟"
等待	"等待中"	"前方路口信号灯为红灯，还有大约 20 秒变绿"
靠边停车	"已到达"	"已到达目的地，右侧有空位，我将靠边停车方便您下车"

2.2 信任建立机制

研究表明，VLM 驱动的决策解释能够显著提升乘客的主观安全感。根据多项用户研究的综合分析：

提供实时语言解释的车辆，乘客主观安全评分提升约 35%
解释的及时性比详细程度更重要——在动作发生前 1-2 秒给出预告效果最佳
过度解释会导致认知负荷增加，反而降低舒适度
个性化的解释风格（简洁/详细模式可切换）获得最高满意度

2.3 解释策略

有效的决策解释应遵循以下原则：

因果性：解释"为什么"而不仅仅是"做了什么"
预见性：在执行动作前给出预告
适度性：避免信息过载，只解释非常规操作
情境性：根据当前驾驶场景调整解释的详细程度

3. 语音交互与安全约束

3.1 安全优先原则

VLM 驱动的语音交互系统必须将安全置于最高优先级。当用户指令与安全规则冲突时，系统需要拒绝执行并给出合理解释。

3.2 安全约束层级

第一层：法律法规约束（如不得逆行、不得闯红灯）
第二层：物理安全约束（如不得碰撞、不得驶入危险区域）
第三层：交通规则约束（如限速、禁止掉头标志）
第四层：舒适性约束（如避免急加速、急转弯）

3.3 指令消歧与视觉上下文

VLM 的核心优势在于能够结合视觉信息消除语言歧义：

乘客：在这里停一下。
系统：[分析视觉场景] 当前位置是公交车道，不允许停车。
      前方 50 米处有一个合法的临时停车位，我可以停在那里吗？
乘客：好的。

3.4 拒绝不安全指令

乘客：快点，直接冲过去！
系统：前方路口红灯亮起，为了您的安全我无法闯红灯通行。
      当前还有约 15 秒变绿灯，请稍等。

乘客：从这里掉头。
系统：当前路段有禁止掉头标志，我无法在此处掉头。
      前方 200 米有一个可以掉头的路口，我可以在那里掉头。

3.5 紧急情况处理

在紧急情况下，系统的交互策略会发生变化：

缩短反馈延迟：从正常的 500ms 响应缩短到即时反馈
简化语言：使用简短、直接的表述
主动通知：不等待用户询问，主动播报关键信息
优先执行安全操作：先执行安全措施，再解释原因

4. 多轮对话能力

4.1 上下文感知对话

VLM 支持多轮对话，能够维护对话上下文并进行渐进式的指令细化：

乘客：附近有什么吃的？
系统：您附近 1 公里内有 12 家餐厅，包括 3 家中餐、2 家日料、
      2 家西餐、3 家快餐和 2 家咖啡厅。您想吃什么类型的？

乘客：中餐吧。
系统：附近有 3 家中餐：湘菜馆"辣椒炒肉"（800 米，4.5 分）、
      粤菜馆"广州大排档"（600 米，4.2 分）、
      川菜馆"蜀香苑"（1 公里，4.7 分）。

乘客：去评分最高的那家。
系统：好的，已为您导航至"蜀香苑"，预计 4 分钟到达。

4.2 乘客偏好记忆

系统能够跨会话记住乘客偏好，提供个性化服务：

偏好类别	记忆内容示例	应用场景
路线偏好	偏好走高速而非国道	路径规划时优先选择高速
温度偏好	喜欢 24°C	上车自动调节空调
音乐偏好	常听轻音乐	行驶中自动播放偏好音乐
常去地点	工作日去公司，周末去健身房	预测性导航建议
交互风格	喜欢简洁反馈	调整解释详细程度

4.3 渐进式指令细化

系统支持通过多轮对话逐步明确用户意图：

乘客：找个停车的地方。
系统：您需要短时间停靠还是长时间停车？
乘客：停一下午。
系统：附近有 3 个停车场，最近的是 200 米外的地下停车场，
      收费每小时 8 元。需要导航过去吗？
乘客：有没有便宜点的？
系统：往北 500 米有一个露天停车场，每小时 4 元。为您导航吗？
乘客：好，去那个。

5. 视觉问答（VQA）

5.1 周围环境问答

VLM 使乘客能够像与导游对话一样询问车辆周围的环境：

乘客：右边那栋高楼是什么？
系统：那是上海环球金融中心，高 492 米，是上海的标志性建筑之一，
      建成于 2008 年。

乘客：我们现在在哪条路上？
系统：我们正行驶在南京东路上，距离外滩还有大约 1.2 公里。

5.2 行程信息查询

查询类型	示例问题	VLM 回答策略
到达时间	"还有多久到？"	结合实时交通和剩余距离推算
路况查询	"前面堵不堵？"	分析前方摄像头画面 + 交通数据
路线查询	"我们走的哪条路？"	结合 GPS 定位和视觉路牌识别
费用查询	"大概多少钱？"	根据距离和计费规则估算
周边查询	"附近有加油站吗？"	结合地图数据和视觉识别

5.3 ETA 推理

VLM 能够提供比传统导航更智能的到达时间预估：

乘客：能赶上 3 点的航班吗？
系统：当前距离机场还有 35 公里，正常情况下约 40 分钟到达。
      但前方 5 公里处有一段施工路段，可能额外增加 10 分钟。
      建议您提前办理值机，到达后可以走快速安检通道。
      综合来看，预计 2 点 10 分左右到达，时间比较充裕。

6. 乘客情绪感知

6.1 语言线索检测

VLM 能够通过乘客的语言表达识别情绪状态并调整驾驶行为：

情绪线索	语言表现	系统响应
紧张/恐惧	"开慢点""太快了""小心"	降低车速，增大跟车距离
不耐烦	"怎么还没到""能不能快点"	解释当前路况，提供 ETA
不适	"有点晕""能开稳点吗"	减少急加速和急转弯
困惑	"我们这是去哪""走对了吗"	主动说明当前路线和目的地
满意	"开得不错""很舒服"	维持当前驾驶风格

6.2 驾驶风格自适应

基于情绪感知的驾驶风格调整参数：

舒适模式（检测到乘客不适）：
  - 最大纵向加速度：1.5 m/s²
  - 最大横向加速度：1.0 m/s²
  - 跟车时距：2.5 s
  - 变道策略：保守

正常模式：
  - 最大纵向加速度：2.5 m/s²
  - 最大横向加速度：2.0 m/s²
  - 跟车时距：2.0 s
  - 变道策略：适中

高效模式（检测到乘客赶时间）：
  - 最大纵向加速度：3.0 m/s²
  - 最大横向加速度：2.5 m/s²
  - 跟车时距：1.5 s
  - 变道策略：积极

6.3 主动沟通

当检测到乘客可能存在负面情绪时，系统会主动进行安抚性沟通：

系统：[检测到乘客语气紧张]
      请您放心，前方车辆已被我识别，我会保持安全距离。
      当前车速 60 km/h，所有传感器工作正常。

7. 远程操控辅助

7.1 VLM 辅助场景理解

当自动驾驶系统遇到无法独立处理的复杂场景时，需要远程操作员介入。VLM 可以为远程操作员提供快速的场景摘要：

VLM 场景简报：
  当前位置：建国路与长安街交叉口东侧 50 米
  场景描述：前方道路因施工封闭右侧两车道，剩余一条可通行车道。
            有交警在现场指挥交通，手势指示左侧车道可通行。
  不确定因素：交警手势与信号灯指示存在冲突。
  建议操作：跟随前车低速通过，或等待交警进一步指示。

7.2 远程接管交接流程

VLM 在远程接管过程中的角色：

场景压缩：将多路摄像头画面压缩为自然语言描述，降低远程操作员的认知负荷
关键信息高亮：标注场景中最需关注的元素（行人、施工区域、异常车辆等）
操作建议：基于场景理解给出建议操作方案
语音交互：远程操作员可以通过语音与 VLM 交互，快速获取补充信息

7.3 通信带宽优化

VLM 的语言描述能力可以在通信带宽受限时发挥重要作用：

传输方式	带宽需求	延迟	信息完整度
全分辨率视频流	10-50 Mbps	低	高
压缩视频流	2-5 Mbps	中	中
VLM 场景描述 + 关键帧	0.1-0.5 Mbps	中	中高
纯 VLM 文字描述	< 0.01 Mbps	高	中低

8. 无障碍出行

8.1 视障乘客辅助

VLM 可以为视障乘客提供丰富的环境感知服务：

系统：您好，车辆已到达接驾点。车门在您的右手边约 2 米处。
      [车门打开]
      请小心上车，座位在您左手边。

系统：我们正沿着长安街向东行驶，两侧是政府办公大楼。
      前方即将经过天安门广场，目前广场上游客较多。
      预计 15 分钟后到达目的地。

8.2 音频场景描述

系统可以根据视障乘客的需求提供不同详细程度的场景描述：

简要模式：仅播报关键路况信息和转弯提示
标准模式：包含主要地标和周围环境概述
详细模式：提供丰富的环境描述，如同导游讲解

8.3 触觉反馈集成

VLM 的场景理解能力可以与触觉反馈设备协同工作：

触觉信号	含义	对应场景
座椅左侧轻振	车辆即将左转	转弯预告
座椅右侧轻振	车辆即将右转	转弯预告
座椅前部轻振	即将制动	减速预告
安全带轻收紧	紧急情况	安全提醒
扶手节律性振动	到达目的地	下车提醒

8.4 听障乘客辅助

对于听障乘客，VLM 可以将音频信息转化为视觉信息：

将语音导航转为屏幕文字显示
用视觉标识提示外部声音事件（如救护车接近）
通过 AR-HUD 标注需要注意的声音来源方向

9. HMI 设计原则

9.1 信息层级

VLM 驱动的 HMI 应遵循清晰的信息层级结构：

紧急信息（立即通知）
  └─ 碰撞预警、紧急制动、系统故障
重要信息（5 秒内通知）
  └─ 路线变更、接管请求、交通事件
一般信息（适时通知）
  └─ ETA 更新、路况变化、兴趣点
背景信息（按需提供）
  └─ 周边环境描述、车辆状态、天气信息

9.2 通知时机

合理的通知时机对于避免干扰和确保安全至关重要：

通知场景	推荐时机	不宜时机
转弯提示	距路口 200-300 米	正在执行其他操作时
到达提醒	距目的地 500 米	乘客正在通话时
路线变更	变更决策做出后立即	乘客刚上车未就绪时
异常说明	异常行为执行前 1-2 秒	连续多个通知叠加时

9.3 认知负荷管理

VLM 系统需要根据场景动态调整信息输出量：

高负荷场景（复杂路口、恶劣天气）：减少非必要信息，只保留安全相关通知
低负荷场景（高速巡航）：可以提供更丰富的环境描述和交互
乘客忙碌时（通话、工作）：自动切换为静默模式，仅保留紧急通知

9.4 多模态输出协同

输出模态	适用场景	优势	局限
语音输出	导航指引、决策解释	不占视觉注意力	嘈杂环境效果差
视觉显示	地图、车辆状态	信息丰富	需要视觉注意力
AR-HUD	车道指引、障碍物标注	视线不离路面	硬件成本高
触觉反馈	方向提示、紧急预警	不依赖视听	信息承载量低
氛围灯	系统状态、安全提示	低干扰	仅适合简单信息

10. 用户研究与评估

10.1 研究方法论

VLM 驱动 HMI 的用户研究通常采用以下方法：

方法	适用阶段	采集数据
模拟器实验	原型验证	生理数据、任务完成率、反应时间
向导法（Wizard of Oz）	概念验证	用户期望、交互模式偏好
封闭场地测试	系统测试	安全指标、交互成功率
开放道路测试	部署验证	真实场景覆盖率、用户满意度
长期跟踪研究	运营评估	信任变化、使用习惯演变

10.2 信任度量

自动驾驶 HMI 的信任度量通常包含以下维度：

能力信任：乘客对系统驾驶能力的信心
意图信任：乘客对系统是否以自己利益为先的信任
可预测性信任：乘客对系统行为一致性的感知
透明度信任：乘客对系统决策过程可理解程度的评价

10.3 标准化评估指标

常用的 HMI 评估量表和指标：

指标	全称	评估内容	典型得分范围
SUS	System Usability Scale	系统可用性	0-100，68 分以上为合格
NASA-TLX	NASA Task Load Index	认知负荷	0-100，越低越好
SAM	Self-Assessment Manikin	情绪状态（愉悦/唤醒/控制感）	1-9
MDMT	Multi-Dimensional Measure of Trust	多维信任度	1-7
UEQ	User Experience Questionnaire	用户体验	-3 到 +3

10.4 实际部署反馈

来自实际运营的 Robotaxi 项目的用户反馈显示：

约 78% 的乘客认为语音解释功能提高了乘坐舒适感
首次乘坐的用户对决策解释的需求远高于多次乘坐的用户
乘客对 VQA 功能的使用频率在前三次乘坐后趋于稳定
夜间行驶时乘客对主动沟通的需求增加约 40%
老年用户更偏好语音交互，年轻用户倾向多模态交互

参考资料

Jain, A., et al. "Autonomy 2.0: Why is self-driving always 5 years away?" arXiv preprint arXiv:2107.08142, 2021.
Koo, J., et al. "Why did my car just do that? Explaining semi-autonomous driving actions to improve driver understanding, trust, and performance." International Journal on Interactive Design and Manufacturing, 2015.
Du, N., et al. "Look who's talking now: Implications of AV's explanations on driver's trust, AV preference, anxiety and mental workload." Transportation Research Part C, 2019.
Large, D. R., et al. "Exploring the behaviour of distracted drivers during different levels of automation." Accident Analysis & Prevention, 2019.
Waymo. "Waymo's Multimodal Foundation Models for Autonomous Driving." Technical Blog, 2024.
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models. arXiv preprint arXiv:2402.12289, 2024.
Cui, C., et al. "A Survey on Multimodal Large Language Models for Autonomous Driving." arXiv preprint arXiv:2311.12320, 2023.
Brooke, J. "SUS: A quick and dirty usability scale." Usability Evaluation in Industry, 1996.
Hart, S. G. "NASA-Task Load Index (NASA-TLX); 20 Years Later." Proceedings of the Human Factors and Ergonomics Society, 2006.
SAE International. "Taxonomy and Definitions for Terms Related to Driving Automation Systems for On-Road Motor Vehicles." SAE J3016, 2021.