第四章:核心算法
本章介绍自动驾驶的灵魂——算法。
算法:自动驾驶的智慧核心
如果将自动驾驶车辆比作一个会思考的驾驶员,那么算法就是这位驾驶员的大脑。硬件提供感官和肌肉,算法则决定车辆如何理解世界、预判未来、做出决策并付诸行动。自动驾驶算法的水平,直接决定了系统在复杂、动态、不确定环境中的表现上限。
自动驾驶算法体系可以概括为一条完整的信息处理流水线:
传感器原始数据
↓
【感知】目标检测 / 语义分割 / 三维重建
↓
【预测】障碍物轨迹预测 / 意图理解
↓
【规划】全局路径规划 / 局部行为规划
↓
【控制】纵向/横向控制 → 执行器指令
这条流水线的每个环节都是独立的研究方向,同时又紧密耦合——上游模块输出的质量直接决定下游模块的性能。
模块化与端到端:两种技术哲学
当前自动驾驶算法领域存在两种主要的技术路线:
模块化方法(Modular Pipeline):将感知、预测、规划、控制分解为独立模块,每个模块单独设计和优化,模块之间通过结构化接口传递信息。优点是可解释性强、易于调试和迭代;缺点是模块之间的误差会逐级传播和放大,且联合优化困难。
端到端方法(End-to-End Learning):用一个大型神经网络直接从传感器输入映射到控制输出,近年来随着 Transformer 架构和大规模数据的普及而快速发展(以特斯拉 FSD、UniAD 等为代表)。优点是理论上可以避免模块间误差传递;缺点是可解释性差,长尾场景的安全保障难度更高。
本章将同时覆盖这两种方法。
本章内容概览
| 小节 | 标题 | 主要内容 |
|---|---|---|
| 4.1 | 算法概述 | 自动驾驶算法栈全景与各模块关系 |
| 4.2 | 图像处理 | 2D目标检测、语义分割、车道线检测 |
| 4.3 | 激光点云处理 | 3D目标检测、点云分割与配准 |
| 4.4 | 传感器融合 | 多传感器时空对齐与联合感知 |
| 4.5 | 定位 | GNSS/IMU组合、激光SLAM、视觉SLAM |
| 4.6 | 路径规划 | 全局规划(A*等)与局部规划(RRT/MPC) |
| 4.7 | 行为预测 | 障碍物轨迹预测与驾驶意图识别 |
| 4.8 | 决策规划 | 行为决策、场景理解与规则/学习方法 |
| 4.9 | 车辆控制 | PID、MPC 纵横向控制方法 |
| 4.10 | 端到端学习 | 基于大模型的端到端自动驾驶方法 |
| 4.11 | 自然语言处理 | 语音交互与 LLM 在自动驾驶中的应用 |
各小节简介
4.1 算法概述(sw_overview)
从软件架构视角俯瞰整个算法栈,介绍各模块的功能职责、接口定义和典型数据流,帮助读者在学习具体算法之前先建立系统性的全局认知。
4.2 图像处理(image_processing)
介绍基于摄像头的二维感知算法,包括以 YOLO、DETR 为代表的目标检测方法、语义/实例分割,以及车道线检测。深度学习在图像感知任务上已实现显著超越传统方法的效果。
4.3 激光点云处理(laser_processing)
介绍激光雷达点云数据的处理算法,包括 PointNet/VoxelNet 等三维目标检测方法、点云语义分割,以及 ICP/NDT 等点云配准算法,这是基于激光雷达方案的核心感知能力。
4.4 传感器融合(sensor_fusion)
单一传感器各有局限,融合多类传感器可以取长补短。本节介绍基于卡尔曼滤波、深度学习的多传感器融合方法,以及如何解决时序对齐、坐标系变换等工程问题。
4.5 定位(localisation)
厘米级定位是自动驾驶的基础能力之一。本节介绍 RTK-GNSS/IMU 组合定位、基于激光雷达的 SLAM(GMapping、Cartographer、NDT Mapping)和视觉 SLAM(ORB-SLAM3)方法,以及高精地图辅助定位。
4.6 路径规划(path_planning)
本节介绍自动驾驶的路径规划算法,包括全局路径规划(Dijkstra、A)和局部规划(Lattice Planner、RRT、MPC 轨迹优化),并讨论如何在满足运动学约束的同时处理动态障碍物。
4.7 行为预测(prediction)
安全行驶必须预判其他交通参与者的意图和轨迹。本节介绍基于物理模型、数据驱动(LSTM、Transformer)的轨迹预测方法,以及交互感知预测模型。
4.8 决策规划(decision_making)
在感知和预测的基础上,决策模块负责确定车辆应采取的驾驶行为(跟车、变道、避让等)。本节对比介绍基于规则的有限状态机、行为树,以及基于强化学习的决策方法。
4.9 车辆控制(control)
本节介绍纵向控制(速度/加速度控制)和横向控制(转向角控制)的经典方法,包括 PID 控制器、纯追踪算法(Pure Pursuit)和模型预测控制(MPC)。
4.10 端到端学习(end_to_end)
本节介绍以 UniAD、VAD、DriveVLM 等为代表的端到端自动驾驶方法,探讨视觉语言大模型(VLM)如何重塑自动驾驶的算法架构。
4.11 自然语言处理(nlp)
本节介绍语音指令识别、自然语言场景描述,以及大语言模型(LLM)在驾驶决策、人机交互中的最新应用进展。
学习建议
算法章节内容较多且相互关联,建议读者按照感知 → 预测 → 规划 → 控制的顺序依次学习,并在阅读具体算法时结合算法概述小节建立的全局框架来理解各模块的定位与价值。