自然语言处理与大语言模型
1. 开篇介绍:从语音交互到驾驶决策的演进
自然语言处理(Natural Language Processing,NLP)技术在自动驾驶领域的应用已经历了三个明显的发展阶段。
第一阶段(2010年代初):关键词触发。车载语音系统仅能识别有限的预设指令,如"导航"、"打电话",本质上是模板匹配,用户必须使用固定的措辞才能触发功能。
第二阶段(2015–2020年):端到端语音助手。以深度学习为基础的 ASR + NLU 流水线架构逐渐成熟,Siri、Google Assistant 等消费级助手被引入车机,车载语音交互从"指令识别"升级为"意图理解",支持自然的多轮对话。
第三阶段(2021年至今):大语言模型驱动的智能座舱。GPT 系列、LLaMA 系列等大语言模型(Large Language Model,LLM)展示出强大的常识推理与指令跟随能力,部分研究者开始探索将 LLM 直接用于驾驶决策。与此同时,以 CLIP、BLIP 为代表的视觉语言模型(Vision-Language Model,VLM)将语言理解与视觉感知结合,为驾驶场景理解提供了全新范式。
自动驾驶对 NLP 的需求可归纳为两大维度:
- 人机交互层面:驾驶员通过语音控制车辆、查询信息、表达偏好;系统通过语音反馈告知决策意图,提升驾乘体验。
- 机器智能层面:利用语言模型的推理能力提升感知、规划、决策的可解释性与泛化性,使自动驾驶系统具备类人的情境理解能力。
2. 车载语音交互系统
2.1 自动语音识别(ASR)
自动语音识别(Automatic Speech Recognition,ASR)将语音信号转换为文本,是整个语音交互链路的入口。
Whisper 模型架构
OpenAI 于 2022 年发布的 Whisper 模型代表了当前开源 ASR 的最高水平。其核心架构为编码器-解码器 Transformer:
- 编码器(Encoder):输入为 80 维 log-Mel 频谱,经过两层步长为 2 的一维卷积进行下采样,再输入 Transformer 编码器提取声学特征。
- 解码器(Decoder):自回归地生成 token 序列,通过交叉注意力(Cross-Attention)与编码器特征对齐。
- 多任务训练:模型同时学习语音识别、翻译、语言识别和时间戳预测,使用特殊 token 区分任务,例如
<|transcribe|>表示转录任务。
Whisper Large-v3 在 Common Voice 等基准上达到人类水平,且支持 99 种语言。在车载场景中,通常部署 Whisper Medium 或 Small 以平衡精度与延迟。
端点检测(VAD)
语音活动检测(Voice Activity Detection,VAD)负责判断何时有人说话,避免将背景噪声送入 ASR 模型。Silero-VAD 是目前流行的轻量级方案,基于 LSTM,模型大小仅约 1 MB,可在车载 MCU 上运行。
端点检测的核心指标是端点延迟(End-of-Speech Delay),通常要求在 300 ms 以内,以保证交互的自然流畅。
车内噪声抑制
车载环境存在多类噪声源,信噪比(SNR)通常在 10–20 dB 之间:
| 噪声类型 | 典型频率范围 | 抑制方法 |
|---|---|---|
| 发动机噪声 | 50–300 Hz | 高通滤波 + 频谱减法 |
| 风噪 | 宽频 | 麦克风阵列波束成形 |
| 路噪 | 100–500 Hz | 自适应滤波 |
| 车内回声 | 全频段 | 回声消除(AEC) |
主流方案采用麦克风阵列(4–6 个麦克风)结合波束成形算法,将主瓣对准说话人方向,从而显著提升 SNR。深度学习噪声抑制(如 DTLN、DeepFilterNet)可进一步在复杂场景下提升可懂度。
2.2 自然语言理解(NLU)
NLU 将 ASR 输出的文本转化为结构化的语义表示,核心任务包括意图识别与槽位填充。
意图识别(Intent Classification)
意图识别是多分类问题,现代方案通常使用预训练语言模型(如 BERT、RoBERTa)对文本编码后接分类头:
车载场景的常见意图分类:
| 意图类别 | 示例语句 | 动作 |
|---|---|---|
| 导航控制 | "导航去最近的充电桩" | 设置目的地 |
| 车辆控制 | "把座椅加热打开" | 执行设备操作 |
| 多媒体控制 | "播放周杰伦的歌" | 控制音乐 |
| 信息查询 | "还有多远到达" | 查询导航状态 |
| 驾驶辅助 | "打开 ACC 跟车" | 调用 ADAS 功能 |
| 闲聊 | "你觉得今天天气怎么样" | 生成闲聊回复 |
槽位填充(Slot Filling)
槽位填充是序列标注问题,采用 BIO 标注方案,模型输出每个 token 的标签,例如:
导 航 到 北 京 首 都 机 场
O O O B-dest I-dest I-dest I-dest I-dest I-dest
现代系统通常将意图识别与槽位填充联合训练(Joint Intent Detection and Slot Filling)以减少误差传播。
对话管理(Dialogue Management)
多轮对话管理维护对话状态(Dialog State),处理指代消解和上下文补全。例如:
用户:导航到三亚。 系统:已规划路线,预计 2 小时。 用户:沿途有没有服务区?("沿途"指代上一轮导航路线)
基于 LLM 的对话管理直接将历史对话拼接为提示词,利用模型的上下文理解能力隐式处理状态跟踪,相比传统 DST 方法更加灵活。
2.3 文字转语音(TTS)
文字转语音(Text-to-Speech,TTS)将系统回复文本合成为自然语音。
FastSpeech 2 架构
FastSpeech 2 是目前车载 TTS 的主流方案之一,核心优势在于非自回归并行推理,延迟极低。其架构包含:
- 文本编码器:Transformer 编码输入 phoneme 序列。
- 时长预测器(Duration Predictor):预测每个 phoneme 对应的音频帧数,实现文本与声学序列的对齐。
- 音调与能量预测器:分别预测基频 \(F_0\) 和帧级能量,控制语音的韵律。
- Mel 解码器:生成 Mel 频谱,再通过 Vocoder(如 HiFi-GAN)合成最终波形。
FastSpeech 2 的推理速度比 Tacotron 2 快约 38 倍,适合在车载芯片上实时合成。
情感语音
为提升交互体验,现代 TTS 支持情感控制,通过在编码器中加入情感嵌入向量(Emotion Embedding)调节合成语音的情感色彩,例如在播报紧急警告时使用紧迫的语气,在日常导航时使用平和的语气。
2.4 唤醒词检测(KWS)
唤醒词检测(Keyword Spotting,KWS)在设备始终监听的状态下,以极低功耗检测特定唤醒词(如"你好,理想"、"你好,小鹏")。
主流方案是在低功耗 DSP 上部署小型 CNN 或 LSTM 模型,仅在检测到唤醒词后才激活主 ASR 引擎。评估指标包括:
- 虚警率(False Accept Rate,FAR):每小时误触发次数,通常要求 < 1 次/小时。
- 漏检率(False Reject Rate,FRR):用户呼叫时未能触发的比例,通常要求 < 5%。
3. 大语言模型(LLM)与自动驾驶
3.1 LLM 的核心能力与迁移
大语言模型通过在海量文本上预训练获得的能力,在迁移至驾驶场景时具有以下显著优势:
- 常识推理:LLM 内化了大量交通法规、驾驶常识,能够推断"前方有施工标志应减速"等隐含规则。
- 少样本泛化(Few-Shot Generalization):通过提示词中的少量示例,LLM 可快速适应新场景,无需大量重新训练。
- 自然语言指令跟随:驾驶员可用自然语言表达复杂的驾驶偏好,如"遇到老年人过马路多等一会儿"。
- 链式思维推理(Chain-of-Thought,CoT):引导 LLM 逐步分解推理过程,提升复杂场景的决策准确性。
3.2 GPT-Driver
GPT-Driver(Mao et al., 2023)将运动规划任务转化为语言推理问题。其核心思路是:将驾驶场景(感知结果、自车状态、地图信息)格式化为结构化的自然语言描述,输入 GPT-3.5,模型输出包含推理步骤的驾驶轨迹。
输入格式示例:
当前场景:
- 自车位置:(0, 0),速度:12 m/s,航向:0°
- 前方 20m 处有一辆车,速度:8 m/s,同向行驶
- 右侧车道空闲
- 限速:80 km/h
任务:输出未来 3 秒的驾驶轨迹(每 0.5 秒一个路点)。
输出格式示例(链式思维):
推理:前方车辆较慢,当前无需急减速。右侧车道空闲,可考虑变道超车。
但变道需要安全距离检查……综合判断,保持当前车道,适度减速跟车。
轨迹:[(0,6), (0,5.5), (0,5), (0,4.5), (0,4), (0,3.5)]
在 nuScenes 数据集上,GPT-Driver 的 L2 轨迹误差与专用神经网络规划器相当,验证了语言推理在驾驶任务中的可行性。
3.3 DiMA
DiMA(Driving Intelligence and Multimodal Agents)框架利用 LLM 进行驾驶意图理解与场景摘要生成。其关键创新是将结构化感知输出(目标检测框、轨迹预测结果)通过模板化的自然语言"翻译"给 LLM,再由 LLM 输出驾驶员可读的决策解释。
这一框架解决了传统自动驾驶的"黑箱"问题:每一个驾驶决策都附带可读的文字解释,便于监管和用户信任建立。
3.4 提示工程(Prompt Engineering)
在驾驶场景中,提示工程的设计对 LLM 性能影响显著,常用策略包括:
角色设定(Role Prompting):
你是一名拥有 20 年经验的专业驾驶教练,请根据以下场景给出安全、合法的驾驶建议……
链式思维(CoT)提示:
请先分析当前交通场景,然后评估潜在风险,最后给出驾驶动作建议。请逐步推理。
少样本示例(Few-Shot):
提供 2–5 个带标注的场景-决策对作为示例,引导模型遵循特定的输出格式。
约束输出(Constrained Decoding):
将输出限定为预定义的驾驶动作集合(如 [加速, 减速, 变道左, 变道右, 保持]),通过逻辑采样约束避免非法动作。
4. 视觉语言模型(VLM)
4.1 CLIP 在驾驶场景理解中的应用
CLIP(Contrastive Language-Image Pretraining,Radford et al., 2021)通过对比学习在图像-文本对上预训练,学习到统一的多模态特征空间。
在驾驶场景中,CLIP 的主要应用是零样本分类(Zero-Shot Classification):
其中 \(f_{\text{img}}\) 和 \(f_{\text{text}}\) 分别是图像和文本编码器,\(t_k\) 是形如"a photo of a pedestrian crossing the road"的文本模板,\(\tau\) 是温度参数。
具体应用场景:
- 交通标志识别:无需针对新标志重新标注训练数据,直接通过文本描述进行零样本识别。
- 异常场景检测:将正常/异常场景的语言描述与当前图像比较,检测罕见事件。
- 驾驶场景语义分割辅助:LSeg 等方法利用 CLIP 文本特征引导分割,支持开放词汇(Open-Vocabulary)分割。
4.2 DriveVLM
DriveVLM(清华大学 & 上汽,2024)是面向自动驾驶的视觉语言模型,核心创新是将链式思维推理与驾驶规划深度融合。
处理流程:
- 场景描述(Scene Description):VLM 接收环视摄像头图像与 BEV 特征,生成结构化场景描述,包括目标列表、行为预测、关键交互对象。
- 场景分析(Scene Analysis):对关键对象进行深度推理,例如"前方行人正在犹豫是否过马路,需提前减速准备。"
- 层次规划(Hierarchical Planning):从元动作(如"谨慎通过路口")逐步细化为轨迹规划。
- DriveVLM-Dual:将 VLM 与传统运动规划器结合,VLM 处理长尾复杂场景,传统规划器处理常规场景,兼顾性能与效率。
在 nuScenes 数据集上,DriveVLM-Dual 在规划指标上超越了此前的端到端模型。
4.3 驾驶场景 VQA 数据集
视觉问答(Visual Question Answering,VQA)数据集为驾驶 VLM 的训练与评估提供基础:
| 数据集 | 规模 | 特点 |
|---|---|---|
| NuScenes-QA | 460K 问答对 | 基于 nuScenes 数据集,覆盖目标属性、关系、计数等问题 |
| LingoQA | 419K 问答对 | 专注于驾驶行为解释,含视频片段 |
| DriveLM | 多模态 | 图-语言对,支持链式思维推理标注 |
| Rank2Tell | 排名 + 语言 | 同时预测感知重要性排名和语言解释 |
4.4 VQA 用于安全性解释
VLM 可为自动驾驶的每一个决策生成自然语言解释,回答如"为什么系统此时刹车?"之类的问题,极大提升系统可解释性(Explainability),对监管合规和用户信任至关重要。
5. 端到端语言驾驶
5.1 Talk2Drive
Talk2Drive 框架将语音指令直接映射为底层驾驶行为,无需中间的符号化表示。驾驶员可发出如"靠右行驶,给救护车让路"的指令,系统直接生成横向控制量。其核心是将语言编码器的输出与感知特征融合,输入到轨迹规划网络中,实现"语言条件化(Language-Conditioned)"的端到端驾驶。
5.2 LingoQA
LingoQA 数据集专为驾驶场景语言理解设计,包含对驾驶片段的问答标注,问题涵盖:
- 可观测事实:"前方发生了什么?"
- 驾驶行为推理:"系统为什么减速?"
- 反事实推理:"如果不减速会发生什么?"
通过在 LingoQA 上微调,VLM 可以学习驾驶领域的语言-视觉对应关系,提升对复杂驾驶场景的理解能力。
5.3 RLHF 对齐驾驶风格
基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)被引入自动驾驶,用于将驾驶策略与人类偏好对齐。
基本流程:
- 监督微调(SFT):在专家驾驶数据上微调基础模型。
- 偏好数据收集:让驾驶员对两个驾驶片段进行偏好评分,如"片段 A 比片段 B 更舒适"。
- 奖励模型训练:用偏好数据训练奖励模型 \(r_\phi(\tau)\),预测驾驶轨迹的人类偏好分数。
- PPO 优化:用强化学习优化策略,最大化奖励模型得分,同时加入 KL 散度约束防止偏离安全策略:
RLHF 允许不同用户个性化其驾驶风格(运动型/舒适型/节能型),同时维持安全底线。
5.4 安全约束下的语言驾驶代理
语言驾驶代理(Language Driving Agent)将 LLM 作为高层规划器,但其输出必须满足安全约束才能被执行。常用方法包括:
- 形式化验证层:对 LLM 输出的轨迹进行碰撞检测和交规合规性验证,不通过则拒绝执行并回退到保守策略。
- 双重检查机制:LLM 规划器给出初始方案,安全规划器(Safety Planner)进行后验修正,确保满足动力学约束和最小安全距离。
- 置信度门控:当 LLM 输出置信度低于阈值时,系统自动切换至传统规划器。
6. 场景描述与可解释性
6.1 自动生成驾驶场景文字描述
驾驶场景自动描述(Automated Driving Scene Captioning)将传感器数据转化为人类可读的文字摘要,支持事故分析、数据标注和驾驶报告生成。
典型方法是训练一个以 BEV 特征图为输入、以文本序列为输出的序列到序列模型(Seq2Seq),结合注意力机制关注场景中的关键区域。
6.2 驾驶决策自然语言解释(Rationale Generation)
在自动驾驶系统的每个决策点,生成简洁的自然语言解释,例如:
"检测到前方路口有行人正在等待过马路,且当前信号灯为黄灯,系统选择提前减速,预计在停车线前停稳。"
这类解释有助于: - 用户信任建立:让乘客理解系统行为意图,降低不安感。 - 事故责任认定:在事故发生后,提供决策过程的文字记录。 - 系统调试:工程师通过自然语言解释快速定位问题决策。
6.3 对抗样本的语言描述
语言模型可用于描述和检测对抗样本(Adversarial Examples),例如通过文本指定需要测试的场景类型("强烈阳光直射摄像头"、"雨雪模糊"),自动生成对应的合成测试数据,用于安全评估。
6.4 用户个性化偏好的语言表达
用户可通过自然语言描述其驾驶偏好,系统将语言偏好编码为参数向量,注入到规划模型中实现个性化调整:
| 用户语言偏好 | 系统参数调整 |
|---|---|
| "我喜欢跟车距离大一些" | 增加期望跟车时距(THW)阈值 |
| "过弯道时慢一点" | 降低弯道侧向加速度上限 |
| "尽量走快速路" | 提高高速路权重 |
| "我晕车,少变道" | 降低变道频率,增加变道代价 |
7. 国内量产车实际案例
7.1 理想"同学"
理想汽车的"同学"语音助手(搭载于 L 系列车型)基于大语言模型构建,支持全场景自然对话,无需唤醒词(免唤醒),能够理解复杂指令如"调节到我上次停车时的空调温度"。其技术特点包括:
- 端侧 + 云侧混合推理:常见指令(车控、导航)在端侧推理,延迟 < 200 ms;复杂对话(知识问答、推理)上云处理。
- 个性化学习:通过用户历史行为建立个人语言档案,识别习惯性表达。
7.2 问界 HUAWEI ADS 智能座舱
问界 M9 搭载华为盘古大模型,实现了"聪明的 NPC"式车载助手,支持主动感知用户需求(如根据时间和地点主动推荐导航)以及情感化交互。
7.3 小鹏 AI 天玑系统
小鹏汽车的 AI 天玑系统整合了小鹏自研大语言模型,与 XNGP(智能导航辅助驾驶)深度融合,驾驶员可通过语言直接控制 ADAS 功能,如"前面有堵车,帮我规避"。
7.4 国内主流 LLM 车机方案对比
| 车企/品牌 | 语音助手 | 基础模型 | 推理架构 | 主要特色 |
|---|---|---|---|---|
| 理想汽车 | 理想同学 | 自研 + 第三方 | 端云混合 | 免唤醒,全场景对话 |
| 问界(华为) | 小艺 | 盘古大模型 | 端云混合 | 主动感知,情感交互 |
| 小鹏汽车 | 小P | 自研 | 端侧为主 | 与 XNGP 深度集成 |
| 蔚来汽车 | NOMI | GPT + 自研 | 云端 | 拟人化情感 AI |
| 比亚迪 | 小迪 | 第三方 LLM | 云端 | 广泛车型覆盖 |
7.5 端侧推理与模型压缩
将百亿参数的 LLM 部署到车载芯片(如高通 Snapdragon 8295,AI 算力约 30 TOPS)需要系统性的模型压缩:
- 量化(Quantization):将 FP32 权重压缩为 INT4/INT8,在精度损失可接受的情况下将模型大小缩减 4–8 倍,推理速度提升 2–4 倍。
- 知识蒸馏(Knowledge Distillation):用大模型(Teacher)监督小模型(Student)训练,在参数量减少 10 倍的情况下保留约 90% 的性能。
- 结构化剪枝(Structured Pruning):裁剪整个注意力头(Attention Head)或 FFN 层,生成硬件友好的稀疏模型。
- 投机解码(Speculative Decoding):用小型草稿模型(Draft Model)快速生成候选 token,再用大模型批量验证,整体吞吐量提升 2–3 倍。
7.6 隐私保护与数据合规
车载语音数据涉及用户的出行轨迹、对话内容等高度敏感信息。国内合规要求主要参考:
- 《个人信息保护法》(PIPL):用户语音数据须匿名化后才可用于模型训练,需明示收集目的。
- 《汽车数据安全管理若干规定》:重要数据需在境内存储,出境须通过安全评估。
- 技术措施:差分隐私(Differential Privacy)在训练数据上注入可控噪声,防止模型记忆个人信息;联邦学习(见第 8 节)允许在不上传原始数据的情况下协作训练。
8. 挑战与未来方向
8.1 幻觉问题(Hallucination)的危险性
LLM 的幻觉问题(Hallucination)在驾驶场景中具有极高风险。模型可能自信地输出与实际场景不符的描述或错误的驾驶建议,例如将停止标志误描述为"前方道路畅通"。
缓解措施包括:
- 检索增强生成(RAG):将实时感知结果作为上下文注入提示词,约束模型输出与感知一致。
- 不确定性量化(Uncertainty Quantification):通过 Monte Carlo Dropout 或 Conformal Prediction 估计模型输出的置信度,低置信度输出触发人工干预或保守策略。
- 交叉验证:LLM 输出与传统感知模块结果进行一致性校验,不一致时拒绝执行。
8.2 实时性约束
自动驾驶对决策延迟极为敏感,而大语言模型的推理延迟与安全要求之间存在根本性矛盾:
| 决策层级 | 时间要求 | LLM 可行性 |
|---|---|---|
| 紧急避障 | < 100 ms | 当前 LLM 不可行 |
| 轨迹规划 | 100–500 ms | 量化小模型勉强可行 |
| 行为决策 | 500 ms–2 s | 端侧中等规模 LLM 可行 |
| 场景理解/解释 | 2–5 s | 云端大模型可行 |
| 语音对话 | < 1 s(首 token) | 端云混合可行 |
实时性挑战要求未来研究在分层决策框架下合理分配 LLM 的参与深度。
8.3 多语言支持
中国市场多语言、多方言的需求对车载 NLP 提出挑战:普通话、粤语、闽南语等方言在语音特征上差异显著,且缺乏高质量的方言驾驶场景标注数据。多语言 TTS 还需处理中英混读(Code-Switching)等口语化现象。
8.4 联邦学习保护用户数据
联邦学习(Federated Learning)允许车辆在本地训练个性化语言模型,仅将梯度(而非原始对话数据)上传服务器进行聚合,实现在不暴露用户隐私的前提下持续优化模型。
联邦学习在车载场景的挑战包括:车辆连接间歇性(非 IID 数据分布)、通信带宽限制(上行速率不稳定)、恶意客户端攻击(梯度投毒)等。差分隐私与联邦学习结合是目前保护隐私的最佳实践。
8.5 未来方向展望
- 具身智能(Embodied AI):将语言理解、视觉感知与车辆行动紧密耦合,使车辆具备像人一样通过观察和语言描述学习驾驶技能的能力。
- 世界模型(World Model):LLM 作为世界模型的语言接口,理解物理规律并对未来场景进行预测,为规划提供先验。
- 多智能体协作:车辆之间通过自然语言共享感知信息和意图,实现协同驾驶(V2V Language Communication)。
参考资料
- Mao, J., et al. "GPT-Driver: Learning to Drive with GPT." arXiv:2310.01415, 2023.
- Radford, A., et al. "Learning Transferable Visual Models From Natural Language Supervision (CLIP)." ICML, 2021.
- Tian, X., et al. "DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models." arXiv:2402.12289, 2024.
- Ren, S., et al. "NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario." arXiv:2305.14836, 2023.
- Radford, A., et al. "Robust Speech Recognition via Large-Scale Weak Supervision (Whisper)." ICML, 2023.
- Ren, Y., et al. "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech." ICLR, 2021.
- Ouyang, L., et al. "Training language models to follow instructions with human feedback (InstructGPT/RLHF)." NeurIPS, 2022.