公开数据集与评测基准
自动驾驶算法的进步离不开高质量公开数据集与统一评测基准:前者为模型提供训练燃料,后者为不同方法提供横向对比的共同标尺。本节汇总感知、预测、规划与端到端四大方向中最常用的资源,并给出选择建议与使用陷阱。
1. 为什么数据集和基准重要?
- 可复现性:没有统一测试集,论文结果难以比较,工程优化容易被运气误导;
- 长尾覆盖:单一公司数据即使量级再大,也无法覆盖所有地理、天气、文化场景;
- 公平对比:benchmark 的 leaderboard 能快速暴露新方法的真实边界;
- 工程脚手架:成熟数据集带完整 SDK、标注工具、评测脚本,省下大量基础建设。
常见陷阱
- 训练集污染测试集:同一路段不同时间采集的数据相互泄漏,导致指标虚高;
- 标注一致性差:多家标注商标准不同,拼接数据集时需重新校准;
- 指标口径不同:同为 mAP,IoU 阈值、类别权重略有差异就会出现 5~10% 的偏差;
- 基准过拟合:社区对特定榜单过度优化("nuScenes-number chasing"),忽视真实场景。
2. 感知数据集
感知是自动驾驶数据最丰富的领域。下面按"数据体量 × 传感器复杂度"由低到高梳理。
2.1 KITTI(2012,卡尔斯鲁厄理工/丰田 TRI)
- 里程碑意义:自动驾驶领域的"MNIST",几乎所有经典 3D 检测论文都报告 KITTI 分数;
- 配置:1 × 64 线 LiDAR(Velodyne HDL-64E)、双目摄像头、GPS/IMU;
- 规模:约 15 k 帧训练 + 7.5 k 帧测试,仅覆盖德国卡尔斯鲁厄郊区晴天;
- 任务:2D/3D 检测、语义分割、光流、里程计、跟踪、场景流;
- 局限:数据量小、场景单一、标注密度低,2020 年后已不再是主力训练集。
2.2 Waymo Open Dataset(2019 起,Waymo)
- 规模:1 200 段 20 秒的场景 + 1 150 个验证段(Perception v1.4,2024 年更新至 v2 包含更多天气);
- 传感器:5 × LiDAR(自研 Honeycomb 近程 + Top LiDAR)、5 × 高分辨率摄像头、时钟精对齐;
- 标注:3D 边界框、语义分割、关键点、车道线、交互关系;
- 官方子挑战:Motion Prediction、Occupancy & Flow、Sim Agents、End-to-End Driving;
- 特点:传感器最齐全、标注工程质量最高;下载需同意 Waymo license,不可商用。
2.3 nuScenes(2019,Motional 前身 nuTonomy)
- 规模:1 000 段 20 秒场景,约 1.4 M 图像 + 390 k LiDAR 扫描;
- 传感器:6 × 摄像头(360°)、1 × 32 线 LiDAR、5 × 毫米波雷达;
- 场景:波士顿 + 新加坡,含夜间/雨天;
- 独特价值:毫米波雷达数据公开最全,BEV 时代(BEVFormer、PETR)的事实标准;
- 衍生:nuImages(图像检测)、nuScenes-Occupancy(2023)、nuScenes-QA(多模态问答)。
2.4 Argoverse 1/2(2019/2022,Argo AI / Uber ATG)
- Argoverse 1:专注运动预测(324 k 场景)与 3D 跟踪;
- Argoverse 2:1 000 段感知场景 + 250 k 运动预测场景 + 1 000 个 HD Map 覆盖城市;
- 价值:运动预测赛道主力,地图信息丰富,城市样本跨 6 个美国都市。
2.5 Cityscapes / BDD100K / Mapillary(图像感知)
- Cityscapes(2016):5 k 精细像素级语义分割,德国城市,学术界分割基准;
- BDD100K(2018,伯克利):100 k 视频 + 100 k 图像,10 类任务,覆盖美国多州;
- Mapillary Vistas(2017):25 k 全球众包图像,100+ 国家,多文化场景。
2.6 中国本土数据集
| 数据集 | 发布者 | 特色 |
|---|---|---|
| Apollo Scape | 百度 | 2018 年发布,包含车道、3D 跟踪、轨迹、立体匹配多任务 |
| ONCE | 华为诺亚 | 1 M 场景、无标注日志,主打自监督预训练 |
| ZOD(Zenseact Open Dataset) | Zenseact | 2023,含大量欧洲高速场景,但包含中国合作数据 |
| DAIR-V2X | 清华 + 百度 | 首个车路协同数据集,含 RSU LiDAR 视角,C-V2X 研究必备 |
| OpenLane / OpenLane-V2 | 上海 AI Lab | 车道线拓扑 + 交通要素,BEV 车道线主力基准 |
3. 运动预测与规划基准
3.1 Waymo Open Motion Dataset(WOMD)
- 1.1 M 个 9 秒场景,每个预测未来 8 秒;
- Motion Prediction Challenge:Top-K 轨迹 minADE/minFDE + Miss Rate + Soft mAP;
- Sim Agents Challenge(2023 起):让模型同时预测所有交通参与者轨迹,用于闭环仿真;
- End-to-End Driving Challenge(2024 起):从传感器直接输出轨迹。
3.2 Argoverse 2 Motion Forecasting
- 250 k 场景,每段 5 秒观察 + 6 秒预测;
- 指标与 WOMD 类似,更突出稀有交互(非保护左转、环岛);
- 允许在 HD Map 上训练,被 Wayformer/Scene Transformer 等工作广泛使用。
3.3 nuPlan(2023,Motional)
- 首个大规模规划闭环基准:1 300 h 数据,1 300 k 场景,8 座城市;
- 支持开环(Open-Loop,预测轨迹与真值对比)和闭环(Closed-Loop,把规划器放进仿真看碰撞/偏离)两种评测;
- 评分综合碰撞率、可行驶区间、舒适度、进度、交通规则遵守;
- 后起之秀 nuPlan-R(2024)增加重规划对抗扰动。
3.4 Bench2Drive / CARLA Leaderboard
- CARLA Leaderboard 2.0(2023–):在 CARLA 仿真器中跑 10 个城市 × 多天气 × 挑战场景,统计路线完成度、违章、碰撞;
- Bench2Drive(2024,上海 AI Lab):在 CARLA 上提供 44 个技能场景 + 220 个闭环路线,是当前端到端学术工作的主流闭环基准。
4. 端到端与大模型专用基准
| 基准 | 任务 | 特点 |
|---|---|---|
| CARLA / Bench2Drive | 端到端驾驶 | 仿真闭环,允许密集交互 |
| nuScenes-OpenScene | 开放闭环驾驶 | 以 nuScenes 为基础构造虚拟闭环 |
| CVPR 2024 End-to-End Challenge | 真实日志闭环重放 | 允许使用真实传感器数据进行策略评估 |
| DriveLM | 视觉-语言推理 | 场景问答 + 因果链,验证 VLM 驾驶能力 |
| NuScenes-QA / LingoQA | 驾驶问答 | 评估 VLM 对交通环境的理解 |
| CODA / Corner Case Bench | 长尾检测 | 特意采集不常见障碍物(横倒锥桶、异形车辆) |
5. 选择数据集的实用建议
按任务匹配
| 任务 | 推荐首选 | 补充 |
|---|---|---|
| 3D 目标检测 | Waymo Open + nuScenes | 华为 ONCE(预训练)、DAIR-V2X(车路协同) |
| BEV 车道线 | OpenLane-V2 | nuScenes + Argoverse 2 地图 |
| 运动预测 | WOMD + Argoverse 2 | INTERACTION(高交互性) |
| 规划闭环评测 | nuPlan | Bench2Drive(仿真) |
| 端到端 | Bench2Drive + nuPlan | 真实车队日志(自有) |
| VLM 驾驶问答 | DriveLM + LingoQA | CODA(长尾) |
工程化注意事项
- 许可合规:Waymo Open、nuScenes 均限研究用途,商业落地前务必核对 license;
- 数据泄漏:同一 trip 的帧不要跨训练/验证;时间顺序采样而非随机切分;
- 多数据集联合训练:需统一坐标系、类别映射、标注密度,一般以 nuScenes 为基准对齐;
- 合成与真实混合:CARLA/Bench2Drive 适合探索算法上限,必须叠加真实域数据避免 sim2real 崩塌;
- 定期刷新基准:leaderboard 每年更新任务与指标,2019 年的 mAP 分数与 2024 年不可直接比较。
6. 行业评测与安全报告
除学术基准外,监管方与运营商也公开了一些宏观评测:
- California DMV Disengagement Report(每年 2 月):加州路测公司按自愿报告披露 MPD(每千英里接管数);
- Waymo Safety Report / Safety Impact:Waymo 持续公开全无人驾驶事故统计与对比数据;
- NHTSA Standing General Order:强制 Level 2+ 系统上报涉事事故,公开数据库可查询特斯拉/Cruise/Waymo 案例;
- 中国强标体系:GB/T 40429 分级、GB/T 44721 测试场景、GB 44495 网络安全,是国内上市必查项。
7. 小结
- 感知:nuScenes + Waymo Open 是事实标准;中国场景用 DAIR-V2X、ONCE、Apollo Scape 补齐;
- 预测:WOMD 与 Argoverse 2 是旗帜;INTERACTION 专攻高交互;
- 规划/端到端:nuPlan(真实日志)+ Bench2Drive(仿真闭环)是当下组合拳;
- VLM/语言:DriveLM、LingoQA、NuScenes-QA 是重点新基准;
- 监管:California DMV、NHTSA、中国强标提供真实运营安全视角,是技术之外的重要评测渠道。
学术基准可以衡量进步,但最终落地仍需真实数据飞轮:读者在使用这些公开资源时,应始终把它们作为"起点"而非"终点"。
参考资料
- Geiger, A., Lenz, P., Urtasun, R. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite. CVPR 2012.
- Sun, P. et al. Scalability in Perception for Autonomous Driving: Waymo Open Dataset. CVPR 2020.
- Caesar, H. et al. nuScenes: A multimodal dataset for autonomous driving. CVPR 2020.
- Wilson, B. et al. Argoverse 2: Next Generation Datasets for Self-Driving Perception and Forecasting. NeurIPS Datasets 2021.
- Caesar, H. et al. nuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles. CVPR 2022.
- Jia, X. et al. Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving. NeurIPS 2024.
- California DMV. Autonomous Vehicle Disengagement Reports, annual.
- NHTSA. Standing General Order on Crash Reporting. 2021–.