人机交互
视觉语言模型(VLM)的引入为自动驾驶人机交互(HMI)带来了质的飞跃。传统自动驾驶系统的交互方式局限于预设菜单、固定指令和简单的状态显示,而 VLM 赋予车辆理解自然语言、感知视觉场景并以人类可理解的方式进行沟通的能力。本章将系统介绍 VLM 驱动的人机交互技术在自动驾驶中的应用。
1. 自然语言导航指令
1.1 概述
传统导航系统要求用户输入精确的地址或从列表中选择目的地。VLM 驱动的系统能够理解人类日常表达的导航意图,包括地标参照、相对方向、模糊描述和条件指令等。
1.2 指令类型分类
| 指令类型 | 示例 | 技术挑战 |
|---|---|---|
| 地标参照 | "开到前面那个红色屋顶的建筑" | 需要视觉识别 + 语言理解的联合推理 |
| 相对方向 | "在下一个路口左转" | 需要实时道路拓扑理解 |
| 条件指令 | "如果前面堵车就走高架" | 需要交通状态感知与路径规划联动 |
| 模糊指令 | "找个近一点的停车场" | 需要理解"近"的语义并结合地图搜索 |
| 偏好表达 | "走风景好的路线" | 需要对"风景好"进行量化评估 |
| 否定指令 | "别走那条隧道" | 需要识别否定语义并更新路径约束 |
| 时间约束 | "半小时内到机场" | 需要结合实时交通预测进行路径优化 |
| 多目的地 | "先去学校接孩子,再去超市" | 需要多目的地序列规划 |
1.3 技术实现
VLM 处理自然语言导航指令的典型流程如下:
用户语音输入 → ASR 转写 → VLM 意图解析 → 场景视觉关联 → 导航参数提取 → 路径规划执行
关键技术点:
- 语义接地(Grounding):将语言中的地标描述与摄像头画面中的实际物体对应
- 上下文推理:结合当前位置、时间、交通状况理解指令含义
- 歧义消解:当指令存在多种理解时,主动向用户确认
1.4 对话示例
乘客:去那个星巴克,就是上次去过的那家。
系统:您是指南京西路 1268 号的星巴克吗?上次您在 3 月 5 日去过那里。
乘客:对,就是那家。
系统:好的,已为您规划路线,预计 18 分钟到达。
2. 决策解释与乘客沟通
2.1 实时行为解释
自动驾驶车辆的决策对乘客而言往往是"黑箱"。VLM 能够将车辆的决策过程转化为自然语言解释,显著提升乘客信任。
传统系统 vs VLM 增强反馈对比:
| 场景 | 传统系统反馈 | VLM 增强反馈 |
|---|---|---|
| 紧急制动 | "前方障碍物,已制动" | "前方有一位行人正在过马路,我已提前减速等待" |
| 变道 | "正在变道" | "右侧车道较为空旷,变道后可以避开前方慢车,预计节省 3 分钟" |
| 绕行 | "路线已更新" | "前方 500 米处发生交通事故,我选择绕行经过中山路,多花约 5 分钟" |
| 等待 | "等待中" | "前方路口信号灯为红灯,还有大约 20 秒变绿" |
| 靠边停车 | "已到达" | "已到达目的地,右侧有空位,我将靠边停车方便您下车" |
2.2 信任建立机制
研究表明,VLM 驱动的决策解释能够显著提升乘客的主观安全感。根据多项用户研究的综合分析:
- 提供实时语言解释的车辆,乘客主观安全评分提升约 35%
- 解释的及时性比详细程度更重要——在动作发生前 1-2 秒给出预告效果最佳
- 过度解释会导致认知负荷增加,反而降低舒适度
- 个性化的解释风格(简洁/详细模式可切换)获得最高满意度
2.3 解释策略
有效的决策解释应遵循以下原则:
- 因果性:解释"为什么"而不仅仅是"做了什么"
- 预见性:在执行动作前给出预告
- 适度性:避免信息过载,只解释非常规操作
- 情境性:根据当前驾驶场景调整解释的详细程度
3. 语音交互与安全约束
3.1 安全优先原则
VLM 驱动的语音交互系统必须将安全置于最高优先级。当用户指令与安全规则冲突时,系统需要拒绝执行并给出合理解释。
3.2 安全约束层级
第一层:法律法规约束(如不得逆行、不得闯红灯)
第二层:物理安全约束(如不得碰撞、不得驶入危险区域)
第三层:交通规则约束(如限速、禁止掉头标志)
第四层:舒适性约束(如避免急加速、急转弯)
3.3 指令消歧与视觉上下文
VLM 的核心优势在于能够结合视觉信息消除语言歧义:
乘客:在这里停一下。
系统:[分析视觉场景] 当前位置是公交车道,不允许停车。
前方 50 米处有一个合法的临时停车位,我可以停在那里吗?
乘客:好的。
3.4 拒绝不安全指令
乘客:快点,直接冲过去!
系统:前方路口红灯亮起,为了您的安全我无法闯红灯通行。
当前还有约 15 秒变绿灯,请稍等。
乘客:从这里掉头。
系统:当前路段有禁止掉头标志,我无法在此处掉头。
前方 200 米有一个可以掉头的路口,我可以在那里掉头。
3.5 紧急情况处理
在紧急情况下,系统的交互策略会发生变化:
- 缩短反馈延迟:从正常的 500ms 响应缩短到即时反馈
- 简化语言:使用简短、直接的表述
- 主动通知:不等待用户询问,主动播报关键信息
- 优先执行安全操作:先执行安全措施,再解释原因
4. 多轮对话能力
4.1 上下文感知对话
VLM 支持多轮对话,能够维护对话上下文并进行渐进式的指令细化:
乘客:附近有什么吃的?
系统:您附近 1 公里内有 12 家餐厅,包括 3 家中餐、2 家日料、
2 家西餐、3 家快餐和 2 家咖啡厅。您想吃什么类型的?
乘客:中餐吧。
系统:附近有 3 家中餐:湘菜馆"辣椒炒肉"(800 米,4.5 分)、
粤菜馆"广州大排档"(600 米,4.2 分)、
川菜馆"蜀香苑"(1 公里,4.7 分)。
乘客:去评分最高的那家。
系统:好的,已为您导航至"蜀香苑",预计 4 分钟到达。
4.2 乘客偏好记忆
系统能够跨会话记住乘客偏好,提供个性化服务:
| 偏好类别 | 记忆内容示例 | 应用场景 |
|---|---|---|
| 路线偏好 | 偏好走高速而非国道 | 路径规划时优先选择高速 |
| 温度偏好 | 喜欢 24°C | 上车自动调节空调 |
| 音乐偏好 | 常听轻音乐 | 行驶中自动播放偏好音乐 |
| 常去地点 | 工作日去公司,周末去健身房 | 预测性导航建议 |
| 交互风格 | 喜欢简洁反馈 | 调整解释详细程度 |
4.3 渐进式指令细化
系统支持通过多轮对话逐步明确用户意图:
乘客:找个停车的地方。
系统:您需要短时间停靠还是长时间停车?
乘客:停一下午。
系统:附近有 3 个停车场,最近的是 200 米外的地下停车场,
收费每小时 8 元。需要导航过去吗?
乘客:有没有便宜点的?
系统:往北 500 米有一个露天停车场,每小时 4 元。为您导航吗?
乘客:好,去那个。
5. 视觉问答(VQA)
5.1 周围环境问答
VLM 使乘客能够像与导游对话一样询问车辆周围的环境:
乘客:右边那栋高楼是什么?
系统:那是上海环球金融中心,高 492 米,是上海的标志性建筑之一,
建成于 2008 年。
乘客:我们现在在哪条路上?
系统:我们正行驶在南京东路上,距离外滩还有大约 1.2 公里。
5.2 行程信息查询
| 查询类型 | 示例问题 | VLM 回答策略 |
|---|---|---|
| 到达时间 | "还有多久到?" | 结合实时交通和剩余距离推算 |
| 路况查询 | "前面堵不堵?" | 分析前方摄像头画面 + 交通数据 |
| 路线查询 | "我们走的哪条路?" | 结合 GPS 定位和视觉路牌识别 |
| 费用查询 | "大概多少钱?" | 根据距离和计费规则估算 |
| 周边查询 | "附近有加油站吗?" | 结合地图数据和视觉识别 |
5.3 ETA 推理
VLM 能够提供比传统导航更智能的到达时间预估:
乘客:能赶上 3 点的航班吗?
系统:当前距离机场还有 35 公里,正常情况下约 40 分钟到达。
但前方 5 公里处有一段施工路段,可能额外增加 10 分钟。
建议您提前办理值机,到达后可以走快速安检通道。
综合来看,预计 2 点 10 分左右到达,时间比较充裕。
6. 乘客情绪感知
6.1 语言线索检测
VLM 能够通过乘客的语言表达识别情绪状态并调整驾驶行为:
| 情绪线索 | 语言表现 | 系统响应 |
|---|---|---|
| 紧张/恐惧 | "开慢点""太快了""小心" | 降低车速,增大跟车距离 |
| 不耐烦 | "怎么还没到""能不能快点" | 解释当前路况,提供 ETA |
| 不适 | "有点晕""能开稳点吗" | 减少急加速和急转弯 |
| 困惑 | "我们这是去哪""走对了吗" | 主动说明当前路线和目的地 |
| 满意 | "开得不错""很舒服" | 维持当前驾驶风格 |
6.2 驾驶风格自适应
基于情绪感知的驾驶风格调整参数:
舒适模式(检测到乘客不适):
- 最大纵向加速度:1.5 m/s²
- 最大横向加速度:1.0 m/s²
- 跟车时距:2.5 s
- 变道策略:保守
正常模式:
- 最大纵向加速度:2.5 m/s²
- 最大横向加速度:2.0 m/s²
- 跟车时距:2.0 s
- 变道策略:适中
高效模式(检测到乘客赶时间):
- 最大纵向加速度:3.0 m/s²
- 最大横向加速度:2.5 m/s²
- 跟车时距:1.5 s
- 变道策略:积极
6.3 主动沟通
当检测到乘客可能存在负面情绪时,系统会主动进行安抚性沟通:
系统:[检测到乘客语气紧张]
请您放心,前方车辆已被我识别,我会保持安全距离。
当前车速 60 km/h,所有传感器工作正常。
7. 远程操控辅助
7.1 VLM 辅助场景理解
当自动驾驶系统遇到无法独立处理的复杂场景时,需要远程操作员介入。VLM 可以为远程操作员提供快速的场景摘要:
VLM 场景简报:
当前位置:建国路与长安街交叉口东侧 50 米
场景描述:前方道路因施工封闭右侧两车道,剩余一条可通行车道。
有交警在现场指挥交通,手势指示左侧车道可通行。
不确定因素:交警手势与信号灯指示存在冲突。
建议操作:跟随前车低速通过,或等待交警进一步指示。
7.2 远程接管交接流程
VLM 在远程接管过程中的角色:
- 场景压缩:将多路摄像头画面压缩为自然语言描述,降低远程操作员的认知负荷
- 关键信息高亮:标注场景中最需关注的元素(行人、施工区域、异常车辆等)
- 操作建议:基于场景理解给出建议操作方案
- 语音交互:远程操作员可以通过语音与 VLM 交互,快速获取补充信息
7.3 通信带宽优化
VLM 的语言描述能力可以在通信带宽受限时发挥重要作用:
| 传输方式 | 带宽需求 | 延迟 | 信息完整度 |
|---|---|---|---|
| 全分辨率视频流 | 10-50 Mbps | 低 | 高 |
| 压缩视频流 | 2-5 Mbps | 中 | 中 |
| VLM 场景描述 + 关键帧 | 0.1-0.5 Mbps | 中 | 中高 |
| 纯 VLM 文字描述 | < 0.01 Mbps | 高 | 中低 |
8. 无障碍出行
8.1 视障乘客辅助
VLM 可以为视障乘客提供丰富的环境感知服务:
系统:您好,车辆已到达接驾点。车门在您的右手边约 2 米处。
[车门打开]
请小心上车,座位在您左手边。
系统:我们正沿着长安街向东行驶,两侧是政府办公大楼。
前方即将经过天安门广场,目前广场上游客较多。
预计 15 分钟后到达目的地。
8.2 音频场景描述
系统可以根据视障乘客的需求提供不同详细程度的场景描述:
- 简要模式:仅播报关键路况信息和转弯提示
- 标准模式:包含主要地标和周围环境概述
- 详细模式:提供丰富的环境描述,如同导游讲解
8.3 触觉反馈集成
VLM 的场景理解能力可以与触觉反馈设备协同工作:
| 触觉信号 | 含义 | 对应场景 |
|---|---|---|
| 座椅左侧轻振 | 车辆即将左转 | 转弯预告 |
| 座椅右侧轻振 | 车辆即将右转 | 转弯预告 |
| 座椅前部轻振 | 即将制动 | 减速预告 |
| 安全带轻收紧 | 紧急情况 | 安全提醒 |
| 扶手节律性振动 | 到达目的地 | 下车提醒 |
8.4 听障乘客辅助
对于听障乘客,VLM 可以将音频信息转化为视觉信息:
- 将语音导航转为屏幕文字显示
- 用视觉标识提示外部声音事件(如救护车接近)
- 通过 AR-HUD 标注需要注意的声音来源方向
9. HMI 设计原则
9.1 信息层级
VLM 驱动的 HMI 应遵循清晰的信息层级结构:
紧急信息(立即通知)
└─ 碰撞预警、紧急制动、系统故障
重要信息(5 秒内通知)
└─ 路线变更、接管请求、交通事件
一般信息(适时通知)
└─ ETA 更新、路况变化、兴趣点
背景信息(按需提供)
└─ 周边环境描述、车辆状态、天气信息
9.2 通知时机
合理的通知时机对于避免干扰和确保安全至关重要:
| 通知场景 | 推荐时机 | 不宜时机 |
|---|---|---|
| 转弯提示 | 距路口 200-300 米 | 正在执行其他操作时 |
| 到达提醒 | 距目的地 500 米 | 乘客正在通话时 |
| 路线变更 | 变更决策做出后立即 | 乘客刚上车未就绪时 |
| 异常说明 | 异常行为执行前 1-2 秒 | 连续多个通知叠加时 |
9.3 认知负荷管理
VLM 系统需要根据场景动态调整信息输出量:
- 高负荷场景(复杂路口、恶劣天气):减少非必要信息,只保留安全相关通知
- 低负荷场景(高速巡航):可以提供更丰富的环境描述和交互
- 乘客忙碌时(通话、工作):自动切换为静默模式,仅保留紧急通知
9.4 多模态输出协同
| 输出模态 | 适用场景 | 优势 | 局限 |
|---|---|---|---|
| 语音输出 | 导航指引、决策解释 | 不占视觉注意力 | 嘈杂环境效果差 |
| 视觉显示 | 地图、车辆状态 | 信息丰富 | 需要视觉注意力 |
| AR-HUD | 车道指引、障碍物标注 | 视线不离路面 | 硬件成本高 |
| 触觉反馈 | 方向提示、紧急预警 | 不依赖视听 | 信息承载量低 |
| 氛围灯 | 系统状态、安全提示 | 低干扰 | 仅适合简单信息 |
10. 用户研究与评估
10.1 研究方法论
VLM 驱动 HMI 的用户研究通常采用以下方法:
| 方法 | 适用阶段 | 采集数据 |
|---|---|---|
| 模拟器实验 | 原型验证 | 生理数据、任务完成率、反应时间 |
| 向导法(Wizard of Oz) | 概念验证 | 用户期望、交互模式偏好 |
| 封闭场地测试 | 系统测试 | 安全指标、交互成功率 |
| 开放道路测试 | 部署验证 | 真实场景覆盖率、用户满意度 |
| 长期跟踪研究 | 运营评估 | 信任变化、使用习惯演变 |
10.2 信任度量
自动驾驶 HMI 的信任度量通常包含以下维度:
- 能力信任:乘客对系统驾驶能力的信心
- 意图信任:乘客对系统是否以自己利益为先的信任
- 可预测性信任:乘客对系统行为一致性的感知
- 透明度信任:乘客对系统决策过程可理解程度的评价
10.3 标准化评估指标
常用的 HMI 评估量表和指标:
| 指标 | 全称 | 评估内容 | 典型得分范围 |
|---|---|---|---|
| SUS | System Usability Scale | 系统可用性 | 0-100,68 分以上为合格 |
| NASA-TLX | NASA Task Load Index | 认知负荷 | 0-100,越低越好 |
| SAM | Self-Assessment Manikin | 情绪状态(愉悦/唤醒/控制感) | 1-9 |
| MDMT | Multi-Dimensional Measure of Trust | 多维信任度 | 1-7 |
| UEQ | User Experience Questionnaire | 用户体验 | -3 到 +3 |
10.4 实际部署反馈
来自实际运营的 Robotaxi 项目的用户反馈显示:
- 约 78% 的乘客认为语音解释功能提高了乘坐舒适感
- 首次乘坐的用户对决策解释的需求远高于多次乘坐的用户
- 乘客对 VQA 功能的使用频率在前三次乘坐后趋于稳定
- 夜间行驶时乘客对主动沟通的需求增加约 40%
- 老年用户更偏好语音交互,年轻用户倾向多模态交互
参考资料
- Jain, A., et al. "Autonomy 2.0: Why is self-driving always 5 years away?" arXiv preprint arXiv:2107.08142, 2021.
- Koo, J., et al. "Why did my car just do that? Explaining semi-autonomous driving actions to improve driver understanding, trust, and performance." International Journal on Interactive Design and Manufacturing, 2015.
- Du, N., et al. "Look who's talking now: Implications of AV's explanations on driver's trust, AV preference, anxiety and mental workload." Transportation Research Part C, 2019.
- Large, D. R., et al. "Exploring the behaviour of distracted drivers during different levels of automation." Accident Analysis & Prevention, 2019.
- Waymo. "Waymo's Multimodal Foundation Models for Autonomous Driving." Technical Blog, 2024.
- DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models. arXiv preprint arXiv:2402.12289, 2024.
- Cui, C., et al. "A Survey on Multimodal Large Language Models for Autonomous Driving." arXiv preprint arXiv:2311.12320, 2023.
- Brooke, J. "SUS: A quick and dirty usability scale." Usability Evaluation in Industry, 1996.
- Hart, S. G. "NASA-Task Load Index (NASA-TLX); 20 Years Later." Proceedings of the Human Factors and Ergonomics Society, 2006.
- SAE International. "Taxonomy and Definitions for Terms Related to Driving Automation Systems for On-Road Motor Vehicles." SAE J3016, 2021.