公开数据集与评测基准

自动驾驶算法的进步离不开高质量公开数据集与统一评测基准：前者为模型提供训练燃料，后者为不同方法提供横向对比的共同标尺。本节汇总感知、预测、规划与端到端四大方向中最常用的资源，并给出选择建议与使用陷阱。

1. 为什么数据集和基准重要？

可复现性：没有统一测试集，论文结果难以比较，工程优化容易被运气误导；
长尾覆盖：单一公司数据即使量级再大，也无法覆盖所有地理、天气、文化场景；
公平对比：benchmark 的 leaderboard 能快速暴露新方法的真实边界；
工程脚手架：成熟数据集带完整 SDK、标注工具、评测脚本，省下大量基础建设。

常见陷阱

训练集污染测试集：同一路段不同时间采集的数据相互泄漏，导致指标虚高；
标注一致性差：多家标注商标准不同，拼接数据集时需重新校准；
指标口径不同：同为 mAP，IoU 阈值、类别权重略有差异就会出现 5~10% 的偏差；
基准过拟合：社区对特定榜单过度优化（"nuScenes-number chasing"），忽视真实场景。

2. 感知数据集

感知是自动驾驶数据最丰富的领域。下面按"数据体量 × 传感器复杂度"由低到高梳理。

2.1 KITTI（2012，卡尔斯鲁厄理工/丰田 TRI）

里程碑意义：自动驾驶领域的"MNIST"，几乎所有经典 3D 检测论文都报告 KITTI 分数；
配置：1 × 64 线 LiDAR（Velodyne HDL-64E）、双目摄像头、GPS/IMU；
规模：约 15 k 帧训练 + 7.5 k 帧测试，仅覆盖德国卡尔斯鲁厄郊区晴天；
任务：2D/3D 检测、语义分割、光流、里程计、跟踪、场景流；
局限：数据量小、场景单一、标注密度低，2020 年后已不再是主力训练集。

2.2 Waymo Open Dataset（2019 起，Waymo）

规模：1 200 段 20 秒的场景 + 1 150 个验证段（Perception v1.4，2024 年更新至 v2 包含更多天气）；
传感器：5 × LiDAR（自研 Honeycomb 近程 + Top LiDAR）、5 × 高分辨率摄像头、时钟精对齐；
标注：3D 边界框、语义分割、关键点、车道线、交互关系；
官方子挑战：Motion Prediction、Occupancy & Flow、Sim Agents、End-to-End Driving；
特点：传感器最齐全、标注工程质量最高；下载需同意 Waymo license，不可商用。

2.3 nuScenes（2019，Motional 前身 nuTonomy）

规模：1 000 段 20 秒场景，约 1.4 M 图像 + 390 k LiDAR 扫描；
传感器：6 × 摄像头（360°）、1 × 32 线 LiDAR、5 × 毫米波雷达；
场景：波士顿 + 新加坡，含夜间/雨天；
独特价值：毫米波雷达数据公开最全，BEV 时代（BEVFormer、PETR）的事实标准；
衍生：nuImages（图像检测）、nuScenes-Occupancy（2023）、nuScenes-QA（多模态问答）。

2.4 Argoverse 1/2（2019/2022，Argo AI / Uber ATG）

Argoverse 1：专注运动预测（324 k 场景）与 3D 跟踪；
Argoverse 2：1 000 段感知场景 + 250 k 运动预测场景 + 1 000 个 HD Map 覆盖城市；
价值：运动预测赛道主力，地图信息丰富，城市样本跨 6 个美国都市。

2.5 Cityscapes / BDD100K / Mapillary（图像感知）

Cityscapes（2016）：5 k 精细像素级语义分割，德国城市，学术界分割基准；
BDD100K（2018，伯克利）：100 k 视频 + 100 k 图像，10 类任务，覆盖美国多州；
Mapillary Vistas（2017）：25 k 全球众包图像，100+ 国家，多文化场景。

2.6 中国本土数据集

数据集	发布者	特色
Apollo Scape	百度	2018 年发布，包含车道、3D 跟踪、轨迹、立体匹配多任务
ONCE	华为诺亚	1 M 场景、无标注日志，主打自监督预训练
ZOD（Zenseact Open Dataset）	Zenseact	2023，含大量欧洲高速场景，但包含中国合作数据
DAIR-V2X	清华 + 百度	首个车路协同数据集，含 RSU LiDAR 视角，C-V2X 研究必备
OpenLane / OpenLane-V2	上海 AI Lab	车道线拓扑 + 交通要素，BEV 车道线主力基准

3. 运动预测与规划基准

3.1 Waymo Open Motion Dataset（WOMD）

1.1 M 个 9 秒场景，每个预测未来 8 秒；
Motion Prediction Challenge：Top-K 轨迹 minADE/minFDE + Miss Rate + Soft mAP；
Sim Agents Challenge（2023 起）：让模型同时预测所有交通参与者轨迹，用于闭环仿真；
End-to-End Driving Challenge（2024 起）：从传感器直接输出轨迹。

3.2 Argoverse 2 Motion Forecasting

250 k 场景，每段 5 秒观察 + 6 秒预测；
指标与 WOMD 类似，更突出稀有交互（非保护左转、环岛）；
允许在 HD Map 上训练，被 Wayformer/Scene Transformer 等工作广泛使用。

3.3 nuPlan（2023，Motional）

首个大规模规划闭环基准：1 300 h 数据，1 300 k 场景，8 座城市；
支持开环（Open-Loop，预测轨迹与真值对比）和闭环（Closed-Loop，把规划器放进仿真看碰撞/偏离）两种评测；
评分综合碰撞率、可行驶区间、舒适度、进度、交通规则遵守；
后起之秀 nuPlan-R（2024）增加重规划对抗扰动。

3.4 Bench2Drive / CARLA Leaderboard

CARLA Leaderboard 2.0（2023–）：在 CARLA 仿真器中跑 10 个城市 × 多天气 × 挑战场景，统计路线完成度、违章、碰撞；
Bench2Drive（2024，上海 AI Lab）：在 CARLA 上提供 44 个技能场景 + 220 个闭环路线，是当前端到端学术工作的主流闭环基准。

4. 端到端与大模型专用基准

基准	任务	特点
CARLA / Bench2Drive	端到端驾驶	仿真闭环，允许密集交互
nuScenes-OpenScene	开放闭环驾驶	以 nuScenes 为基础构造虚拟闭环
CVPR 2024 End-to-End Challenge	真实日志闭环重放	允许使用真实传感器数据进行策略评估
DriveLM	视觉-语言推理	场景问答 + 因果链，验证 VLM 驾驶能力
NuScenes-QA / LingoQA	驾驶问答	评估 VLM 对交通环境的理解
CODA / Corner Case Bench	长尾检测	特意采集不常见障碍物（横倒锥桶、异形车辆）

5. 选择数据集的实用建议

按任务匹配

任务	推荐首选	补充
3D 目标检测	Waymo Open + nuScenes	华为 ONCE（预训练）、DAIR-V2X（车路协同）
BEV 车道线	OpenLane-V2	nuScenes + Argoverse 2 地图
运动预测	WOMD + Argoverse 2	INTERACTION（高交互性）
规划闭环评测	nuPlan	Bench2Drive（仿真）
端到端	Bench2Drive + nuPlan	真实车队日志（自有）
VLM 驾驶问答	DriveLM + LingoQA	CODA（长尾）

工程化注意事项

许可合规：Waymo Open、nuScenes 均限研究用途，商业落地前务必核对 license；
数据泄漏：同一 trip 的帧不要跨训练/验证；时间顺序采样而非随机切分；
多数据集联合训练：需统一坐标系、类别映射、标注密度，一般以 nuScenes 为基准对齐；
合成与真实混合：CARLA/Bench2Drive 适合探索算法上限，必须叠加真实域数据避免 sim2real 崩塌；
定期刷新基准：leaderboard 每年更新任务与指标，2019 年的 mAP 分数与 2024 年不可直接比较。

6. 行业评测与安全报告

除学术基准外，监管方与运营商也公开了一些宏观评测：

California DMV Disengagement Report（每年 2 月）：加州路测公司按自愿报告披露 MPD（每千英里接管数）；
Waymo Safety Report / Safety Impact：Waymo 持续公开全无人驾驶事故统计与对比数据；
NHTSA Standing General Order：强制 Level 2+ 系统上报涉事事故，公开数据库可查询特斯拉/Cruise/Waymo 案例；
中国强标体系：GB/T 40429 分级、GB/T 44721 测试场景、GB 44495 网络安全，是国内上市必查项。

7. 小结

感知：nuScenes + Waymo Open 是事实标准；中国场景用 DAIR-V2X、ONCE、Apollo Scape 补齐；
预测：WOMD 与 Argoverse 2 是旗帜；INTERACTION 专攻高交互；
规划/端到端：nuPlan（真实日志）+ Bench2Drive（仿真闭环）是当下组合拳；
VLM/语言：DriveLM、LingoQA、NuScenes-QA 是重点新基准；
监管：California DMV、NHTSA、中国强标提供真实运营安全视角，是技术之外的重要评测渠道。

学术基准可以衡量进步，但最终落地仍需真实数据飞轮：读者在使用这些公开资源时，应始终把它们作为"起点"而非"终点"。

参考资料

Geiger, A., Lenz, P., Urtasun, R. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite. CVPR 2012.
Sun, P. et al. Scalability in Perception for Autonomous Driving: Waymo Open Dataset. CVPR 2020.
Caesar, H. et al. nuScenes: A multimodal dataset for autonomous driving. CVPR 2020.
Wilson, B. et al. Argoverse 2: Next Generation Datasets for Self-Driving Perception and Forecasting. NeurIPS Datasets 2021.
Caesar, H. et al. nuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles. CVPR 2022.
Jia, X. et al. Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving. NeurIPS 2024.
California DMV. Autonomous Vehicle Disengagement Reports, annual.
NHTSA. Standing General Order on Crash Reporting. 2021–.