Tesla FSD
Tesla(特斯拉)是全球最大的电动汽车公司,也是自动驾驶领域最具争议性的玩家。Tesla 的自动驾驶策略与行业主流截然不同:放弃激光雷达、依赖纯视觉,通过数百万辆车的数据飞轮迭代进化。这一路线被批评者称为"危险的冒险",被支持者视为"正确的终局"。
核心理念:纯视觉路线
Tesla CEO Elon Musk 于 2019 年在 Autonomy Day 上发表了著名言论:
"LiDAR 是傻瓜的差事。依赖 LiDAR 的人注定失败。"
Tesla 纯视觉路线的逻辑: 1. 人类用眼睛开车:道路系统是为人眼设计的(交通标志、标线、信号灯均为视觉信号),AI 也应该用"眼睛"驾驶 2. 规模经济:摄像头成本极低(每个 < $50),LiDAR 成本极高(每套数千至数万美元),纯视觉方案可大规模部署 3. 数据飞轮:全球数百万台 Tesla 车辆同时采集数据,纯视觉系统可从真实人类驾驶行为学习
FSD 芯片演进
Tesla 的自动驾驶能力与芯片能力深度绑定,是唯一自研 AI 芯片的整车厂:
| 代际 | 型号 | 发布时间 | AI 算力 | 主要变化 |
|---|---|---|---|---|
| HW1 | Mobileye EyeQ3 | 2014 | 约 4 TOPS | 依赖第三方,功能简单 |
| HW2 | NVIDIA Tegra X2 | 2016 | 约 12 TOPS | 具备深度学习潜力 |
| HW2.5 | NVIDIA Parker + Pascal GPU | 2017 | 约 100 TOPS | 过渡版,双系统冗余 |
| HW3 / FSD Chip | 自研 NPU × 2 | 2019 | 144 TOPS × 2 = 288 TOPS | 完全自研,双芯冗余,效率提升 21 倍 |
| HW4 / AI5 | 自研下一代 | 2023 | 约 300+ TOPS | 支持更高分辨率摄像头,为 FSD V12 准备 |
HW3 FSD Chip 技术亮点(Tesla Autonomy Day 2019 披露): - 制程:Samsung 14nm,60 亿晶体管 - 每颗芯片含 2 个 NPU(Neural Processing Unit),设计算力 72 TOPS/颗 - 每帧推理能耗仅 2 W,远优于同等算力 GPU - 双芯片封装提供硬件冗余,任一芯片失效另一个接管
HW4 的摄像头升级: - 摄像头分辨率从 1.2 MP 提升至 5 MP(部分车型) - 新增高动态范围(HDR)传感器,改善逆光和隧道场景 - 由 8 个摄像头调整为 7 个(去除 B 柱摄像头,新增 Autopilot 摄像头)
神经网络架构演进
Tesla 的感知算法历经多代革命性演进:
早期(2016–2019):逐摄像头 2D 检测
各路摄像头独立运行 2D 目标检测,通过几何融合(三角测量)估计 3D 位置。问题:融合误差大,遮挡场景表现差。
BEV 感知范式(2021 AI Day)
Tesla 引入将多摄像头特征统一投影至鸟瞰视角(BEV)的感知架构:
8路摄像头帧 (当前帧 + 历史帧队列)
│
RegNet 图像骨干(特征提取)
│
BiFPN 特征融合
│
Transformer(空间位置编码,跨摄像头注意力)
│
BEV 特征图(统一 3D 表示)
│
┌───────────────────────────┐
│ 车道线检测 │ 目标检测 │
│ 占用网格 │ 可行驶区域 │
└───────────────────────────┘
时序融合: 利用历史帧建立视频级 BEV 特征,解决单帧遮挡问题。这是纯摄像头补偿深度估计不确定性的关键技术。
Occupancy Network(2022 AI Day)
将三维空间划分为体素网格,预测每个体素的占据概率和语义类别: - 可以表示任意形状的障碍物(不受边界框限制) - 可以表示地面、墙壁、植被等非车辆障碍物 - 输出为"世界的 3D 密集表示",供规划模块使用
端到端 FSD V12(2023)
Tesla 宣布将超过 300,000 行的 C++ 模块化代码替换为统一端到端神经网络:
- 输入:8 路摄像头图像序列
- 处理:大规模 Transformer 神经网络(无手工规则)
- 输出:车辆控制量(转向角、油门、制动)
- 训练:海量人类驾驶行为的模仿学习
Elon Musk 表示:"FSD V12 是真正的 AI,不是愚蠢的代码。"城区驾驶表现获得大幅提升,处理路口等复杂场景的能力明显增强。
数据飞轮
Tesla 最核心的竞争壁垒不是算法,而是数据:
车队规模
- 全球 FSD 激活车辆:约 200 万辆(2024 年,付费 FSD 订阅 + 试用)
- 每天数据量:约 160 PB 视频数据(按每辆车 8 路摄像头 × 每天 30 分钟行驶估算)
影子模式(Shadow Mode)
Tesla 系统在实车行驶中持续运行自动驾驶推断,记录: - 若系统自主接管,会做出什么决策 - 实际人类驾驶与系统预测的差异("介入触发器")
这些差异数据被自动标记为需要改进的训练样本,无需人工标注。每次 OTA 推送后,Tesla 可以评估全球车队的"虚拟干里程"(Shadow miles)。
自动标注(Auto-Labeling)
由于没有 LiDAR,Tesla 无法直接获取精确 3D 标注。解决方案:
离线重建(Offline Reconstruction): 1. 收集同一地点多辆车多次经过的视频 2. 利用多帧 + 多视角点云重建精确 3D 场景 3. 用高质量重建结果为单帧摄像头图像提供伪 LiDAR 标注 4. 规模化自动标注替代手工标注
这一流程使 Tesla 能以极低的人工成本生成海量高质量训练数据。
Dojo 超级计算机
Tesla 自研超算集群,专为神经网络训练设计: - 自研 D1 训练芯片(2021 发布),峰值算力 362 TFLOPS @ FP32 - 训练瓦片(Training Tile)= 25 × D1 芯片,用 SerDes 直连,无需 NVLink - 目标:构建 100 ExaFLOP 规模的训练能力 - 战略意义:摆脱对 NVIDIA GPU 的依赖,掌控训练基础设施
FSD 功能现状(截至 2024)
功能版本历史
| 版本 | 发布时间 | 主要能力 |
|---|---|---|
| Autopilot(HW1) | 2015 | ACC + LKA,高速公路 L2 |
| Autopilot 2.0 | 2016 | 自动变道、自动泊车 |
| FSD Beta V9 | 2021 | 城区街道辅助驾驶(需持续监督) |
| FSD V11 | 2022 | 统一单一驾驶栈(城区+高速) |
| FSD V12 | 2023 | 端到端神经网络,城区能力大幅提升 |
定价策略
| 区域 | 购买选项 | 价格(参考) |
|---|---|---|
| 美国 | 买断 | $8,000 |
| 美国 | 月订阅 | $99 / 月 |
| 中国 | 买断 | 约 64,000 元人民币 |
| 中国 | 月订阅 | 约 756 元 / 月 |
监管争议
- NHTSA 调查:多项 Autopilot / FSD 涉事事故(前方静止车辆、紧急车辆)触发调查,召回数百万辆并通过 OTA 修复
- "完全自动驾驶"命名争议:美国加州 DMV 认为该名称具有误导性(实际仍是 L2 级,需驾驶员监督),强制要求 Tesla 澄清
- 中国市场推进:2024 年获准在上海测试 FSD,但数据本地化要求使中国版本需要单独训练
Robotaxi 计划(Cybercab)
2024 年 10 月发布:
Tesla 发布 Cybercab 概念车,主要特点: - 无方向盘和踏板(L5 设计) - 线控双摄像头感知 - 计划 2026 年以 < $30,000 价格开始量产 - 目标:建立 Tesla 自营 Robotaxi 车队,同时允许车主将私家车接入共享网络
与 Waymo 的战略对比:
| 维度 | Waymo | Tesla |
|---|---|---|
| 核心假设 | 安全驱动规模(先验证安全,再扩大) | 规模驱动安全(数据越多越安全) |
| 商业路径 | 专用 Robotaxi 车队运营 | 私家车共享网络 + 专用 Cybercab |
| 成本结构 | 高(多传感器 + HD Map) | 低(纯摄像头 + 轻地图) |
| 上市规模 | 数千辆 | 目标数百万辆(借助现有产线) |
参考资料
- Tesla. Autonomy Day Presentation, April 2019.
- Tesla. AI Day Presentations, 2021, 2022.
- M. Bojarski et al. End to End Learning for Self-Driving Cars. NVIDIA, arXiv:1604.07316, 2016.
- NHTSA. Tesla Autopilot / FSD Investigation Reports, 2022–2024.
- 中国信通院. 智能网联汽车发展报告, 2024.