Optimus(擎天柱)
引言
Optimus(擎天柱),又称 Tesla Bot,是由美国特斯拉公司(Tesla, Inc.)研发的通用人形机器人。该项目于 2021 年在特斯拉 AI Day 上首次公布,目标是开发一款能够替代人类执行危险、重复或枯燥任务的通用机器人,被视为特斯拉从电动汽车公司向人工智能(Artificial Intelligence, AI)与机器人公司转型的关键产品。马斯克将 Optimus 定位为特斯拉有史以来最重要的产品,其长远愿景是在全球部署数十亿台人形机器人,从根本上改变人类生产方式。
发展历程
2021 年:概念公布
2021 年 8 月,埃隆·马斯克(Elon Musk)在特斯拉 AI Day 上首次公布 Tesla Bot 概念。发布会上仅展示了一名身着机器人服装的人类舞蹈演员,用以示意未来机器人的外形——身高约 1.75 m、体重约 57 kg,配备摄像头和自动驾驶芯片。马斯克表示,既然特斯拉的汽车已经是"半自动化机器人",将同样的 AI 系统迁移到人形机器人上是顺理成章的一步。该机器人定位于替代人类执行枯燥、危险或重复性任务,并给出了低于 25,000 美元的早期价格预期。
这次发布在业界引发了截然不同的反应。一部分研究者认为这是一个极具雄心的长期愿景;另一部分人则对时间线持怀疑态度,认为通用人形机器人面临的难题远超 AI 自动驾驶。
2022 年:原型机首次公开
2022 年 9 月 30 日,在特斯拉 AI Day 2022 上,Optimus 原型机"Bumble C"首次走上舞台,完成了缓慢但自主的步行展示。这是机器人首次公开在无安全绳索、无人辅助的情况下独立行走,具有里程碑意义。
发布会上还展示了第二台原型机"Adam",其外观更接近最终量产设计,具备完整的外覆盖板和更流畅的关节造型。在现场演示中,Optimus 完成了以下动作:
- 在工厂车间内拾起并移动金属箱
- 使用浇水壶为盆栽浇水
- 徒手移动工厂内的金属棒
马斯克在发布会上重申了 Optimus 的愿景:未来每位人类将拥有至少一台人形机器人,机器人总量将达到人口数量的两倍甚至更多。特斯拉同时披露了机器人内部的关键部件,包括自研执行器、骨骼结构以及基于特斯拉 FSD 芯片的计算平台。
2023 年:Gen 2 发布
2023 年 12 月,特斯拉正式发布 Optimus Gen 2(第二代)。官方发布的演示视频展示了 Gen 2 的大幅改进:
- 行走速度:步行速度较 Gen 1 提升约 30%
- 体重:整机减重约 10 kg,降至约 73 kg
- 灵巧手:全新设计的手部系统,每只手拥有 11 个自由度,手指内置触觉传感器(Tactile Sensors)
- 足部设计:新增足部力/力矩传感器,步态更自然、稳定
- 整体流畅性:关节运动更平滑,动作协调性显著提升
视频中,Gen 2 完成了鸡蛋抓取与精准放置的演示,充分展示了其手部灵巧度的进步——能够在不破坏鸡蛋的前提下完成抓取,体现出对施力大小的精细控制能力。
2024 年:进厂部署
2024 年初至年中,特斯拉公开了多段 Optimus 在其得克萨斯州超级工厂(Gigafactory Texas,又称 Giga Texas)内执行真实工作任务的视频:
- 电池分拣:Optimus 独立完成 4680 型电池单元的视觉识别与分拣,将电池从传送带上抓取并准确放入指定位置
- 自主导航:在工厂环境内进行半自主行走,避开障碍物和其他工人
- 零件搬运:完成轻型零部件的抓取与转运任务
2024 年下半年,特斯拉宣布 Optimus 已开始在 Giga Texas 内自主执行真实生产任务,不再需要人类实时监督,仅在出错时由远程操作员介入。马斯克表示,到 2025 年底,计划在特斯拉工厂内部署超过 1,000 台 Optimus。
2025 年:规模化量产与自主部署
2025 年,Optimus 进入关键的规模化部署阶段:
- 工厂自主运行:Optimus 开始在特斯拉工厂内全天候自主执行多类型生产任务,任务切换无需重新编程
- 批量生产提速:特斯拉启动 Optimus 的小批量对外销售计划,优先向工业客户供货
- 迭代加速:特斯拉通过从工厂部署中持续回收真实操作数据,加速模型迭代,形成"部署—数据—训练—再部署"的飞轮效应
- 技能扩展:Optimus 掌握的任务类型从初期的几类扩展至数十类,包括螺丝拧紧、标签扫描、货物堆叠等精细操作
技术规格
Gen 1 与 Gen 2 对比
| 参数 | Gen 1(Tesla Bot Alpha) | Gen 2 |
|---|---|---|
| 发布时间 | 2022 年 9 月 | 2023 年 12 月 |
| 身高 | 约 1.73 m | 约 1.73 m |
| 体重 | 约 83 kg | 约 73 kg |
| 行走速度 | 约 0.7 m/s | 约 1.0 m/s(提升约 30%) |
| 手部自由度 | 有限(早期原型) | 每手 11 个自由度 |
| 触觉传感器 | 无 | 手指内置触觉传感器 |
| 足部传感器 | 无 | 足部力/力矩传感器 |
| 执行器 | 早期自研版本 | 第二代自研执行器,更轻、更高效 |
| 整机自由度 | 约 28 | 约 28+(含手部改进) |
| 步态流畅性 | 较为生硬 | 更接近自然人类步态 |
| 主要展示能力 | 步行、简单抓取 | 精细抓取(鸡蛋)、流畅步态、灵巧手操作 |
Optimus Gen 2 详细规格
| 参数 | 规格 |
|---|---|
| 身高 | 1.73 m(5 英尺 8 英寸) |
| 体重 | 约 73 kg |
| 负载能力 | 约 20 kg |
| 行走速度 | 约 1.0 m/s |
| 整机自由度(DOF) | 28+(其中每只手 11 个自由度) |
| 驱动方式 | 全电动,旋转执行器(Rotary Actuator)与线性执行器(Linear Actuator)混合 |
| 处理器 | Tesla FSD 芯片(Full Self-Driving Chip) |
| 电池 | 2.3 kWh 电池组,续航约 5–8 小时(依任务强度而定) |
| 摄像头 | 头部多目摄像头,覆盖正前方及侧向视野 |
| 力/力矩传感器 | 手腕及足部 |
| 触觉传感器 | 指尖触觉阵列 |
| 惯性测量单元(IMU) | 躯干内置,用于姿态估计与平衡控制 |
技术架构
Tesla FSD 芯片在机器人上的应用
Optimus 的核心计算平台来源于特斯拉为自动驾驶系统开发的 FSD(Full Self-Driving)芯片。FSD 芯片是特斯拉完全自主设计的系统级芯片(SoC, System on Chip),最初用于 Model 3 / Model Y 等车型的自动驾驶计算,后被移植至 Optimus 的机器人控制场景。
FSD 芯片具备以下与机器人应用高度契合的特性:
- 强大的神经网络推理能力:芯片内置专为深度学习推理优化的神经网络加速器(Neural Processing Unit, NPU),能够实时处理多路摄像头视频流
- 高能效比:相比通用 GPU,FSD 芯片在相同功耗下提供更高的推理吞吐量,适合机器人对续航时间的严格要求
- 车规级可靠性:经过大规模车辆部署验证,具备高稳定性与耐久性
- 完整的感知-规划-控制流水线支持:芯片原生支持从视觉感知到路径规划的完整计算链路,可直接复用于机器人场景
特斯拉在自动驾驶领域的 FSD 芯片研发积累了大量工程经验,使 Optimus 能够在不依赖第三方 AI 芯片(如 NVIDIA Jetson 等)的情况下构建完整的感知与控制系统,实现核心技术的垂直整合。
纯视觉感知系统
与特斯拉自动驾驶系统的技术哲学一致,Optimus 采用纯摄像头(Camera-Only)方案进行环境感知,不依赖激光雷达(LiDAR)或飞行时间(ToF, Time of Flight)传感器。这一方案的核心逻辑是:人类仅凭双眼即可完成绝大多数任务,神经网络理应能从二维视觉信息中重建足够的三维场景理解。
具体而言,Optimus 的视觉系统包括:
- 多目摄像头阵列:头部配备多个摄像头,提供不同视角的覆盖,实现类似人类双目立体视觉(Binocular Stereo Vision)的深度估计
- 视觉变换器(Vision Transformer, ViT)骨干网络:采用大型 ViT 模型对图像特征进行提取,生成丰富的场景表征
- 占用网络(Occupancy Network):将摄像头输入转化为三维体素(Voxel)级别的空间占用预测,用于障碍物检测和导航
- 实时推理:所有感知计算在机载 FSD 芯片上完成,无需依赖云端服务器
端到端神经网络控制
Optimus 的行为控制系统采用端到端(End-to-End)神经网络架构,即网络直接从原始传感器输入(主要为摄像头图像)映射到电机控制指令,中间不依赖显式的人工规则或几何模型。
这一架构的工作流程如下:
端到端架构的优势在于:避免了传统机器人系统中感知模块与规划模块之间的信息损失,使系统能够学习人类难以显式建模的隐式技能。其挑战则在于需要大量高质量的训练数据,并且网络行为的可解释性(Interpretability)较低。
训练方法
遥操作数据采集
Optimus 的运动技能训练始于大规模遥操作(Teleoperation)数据采集。工程师通过穿戴外骨骼(Exoskeleton)手套或使用手持控制器,远程控制 Optimus 执行目标任务,同时记录完整的状态-动作对数据。
遥操作系统的设计目标包括:
- 低延迟:操作员的动作指令需在极短延迟内传达至机器人,以确保操作流畅
- 高保真度映射:人类手部的精细运动需尽可能准确地映射到机器人执行器指令
- 多模态记录:同步记录摄像头画面、关节角度、力/力矩数据,构建多模态训练数据集
视频预测模型
特斯拉将在自动驾驶领域验证的视频预测(Video Prediction)方法迁移到机器人训练中。视频预测模型的核心思想是:通过预测下一帧的视觉状态,模型能够隐式学习到物理世界的动态规律,从而支撑更稳健的行为策略。
具体方法为:模型接收当前帧图像序列,预测执行某一动作后的未来帧,并以预测误差作为训练信号。这种方式使模型能够在大量无标注视频数据(包括互联网视频和工厂监控录像)上进行自监督预训练,无需人工标注每一帧的语义信息。
仿真到真实迁移
由于真实机器人数据的采集成本高昂,特斯拉大量使用物理仿真(Physics Simulation)来扩充训练数据集,并通过域随机化(Domain Randomization)技术缩小仿真与现实之间的差距(Sim-to-Real Gap)。
域随机化的具体手段包括:
- 随机化光照条件(亮度、色温、阴影)
- 随机化物体的物理属性(摩擦系数、质量、尺寸)
- 随机化摄像头参数(焦距、畸变)
- 在仿真动作中注入随机噪声,模拟真实执行器的不确定性
从人类演示学习
在遥操作数据的基础上,Optimus 还采用了模仿学习(Imitation Learning)和行为克隆(Behavior Cloning, BC)方法,让神经网络直接从人类演示中学习动作策略。对于更复杂的操控任务,特斯拉还探索了基于强化学习(Reinforcement Learning, RL)的策略优化,使机器人在仿真环境中通过试错自我改进。
马斯克将这一训练体系描述为"向人类学习的神经网络(A Neural Net that Learns from Humans)",强调特斯拉的核心竞争力在于构建了一套能够持续从人类行为数据中学习并泛化的 AI 系统。
执行器技术
Optimus 的运动系统完全依赖自主研发的电动执行器,没有使用任何液压或气动元件。特斯拉工程团队从零开始设计了 6 种不同规格的执行器,覆盖旋转执行器和线性执行器两大类别。
旋转执行器(Rotary Actuators)
旋转执行器主要用于髋关节、肩关节、膝关节等需要大范围转动的关节。设计重点包括:
- 高功率密度:在严格的体积和重量限制下,提供足够的输出扭矩
- 内置力矩传感:每个执行器内置力/力矩传感器,实现精确的力控制(Force Control),使机器人在与环境接触时能够安全、柔顺地交互
- 反驱动性(Backdrivability):执行器设计为可被外力反向驱动,降低碰撞时对机器人和环境的冲击力,是实现安全人机协作的关键特性
线性执行器(Linear Actuators)
线性执行器主要用于踝关节、手指关节等需要直线运动的关节。线性执行器相比传统的旋转加传动机构方案,具有结构更紧凑、传动效率更高的优点。
执行器性能指标
| 执行器类型 | 主要应用关节 | 关键性能指标 |
|---|---|---|
| 大型旋转执行器 | 髋关节(外展/内收) | 高扭矩、宽角度范围 |
| 中型旋转执行器 | 膝关节、肩关节 | 速度与扭矩平衡 |
| 小型旋转执行器 | 踝关节翻转、腕关节 | 高精度、低惯量 |
| 大型线性执行器 | 踝关节背屈/跖屈 | 高推力、快速响应 |
| 中型线性执行器 | 肘关节 | 轻量化 |
| 小型线性执行器 | 手指关节 | 超小型化、精细力控 |
特斯拉强调,执行器的完全自研使其能够针对机器人任务进行专项优化,避免在使用通用工业执行器时面临的尺寸大、重量重、成本高等问题,同时为大规模量产降低供应链依赖。
与主要竞品对比
| 指标 | Optimus Gen 2 | Figure 02 | Atlas(波士顿动力电动版) | Digit(Agility Robotics) | Unitree H1 |
|---|---|---|---|---|---|
| 研发公司 | 特斯拉(Tesla) | Figure AI | 波士顿动力(Boston Dynamics) | Agility Robotics | 宇树科技(Unitree) |
| 驱动方式 | 全电动 | 全电动 | 全电动(新一代) | 全电动 | 全电动 |
| 身高 | 1.73 m | 1.70 m | 1.50 m | 1.75 m | 1.80 m |
| 体重 | 约 73 kg | 约 70 kg | 约 89 kg | 约 65 kg | 约 47 kg |
| 行走速度 | 约 1.0 m/s | 约 1.2 m/s | 约 1.5 m/s | 约 1.6 m/s | 约 1.5 m/s |
| 自由度 | 28+ | 未完全披露 | 28 | 约 23 | 约 19 |
| 手部自由度 | 每手 11 | 每手 16 | 有限 | 无独立手指 | 有限 |
| 感知方案 | 纯摄像头 | 摄像头 + 深度 | 摄像头 + 深度 | 摄像头 + LiDAR | 摄像头 + 深度 |
| 目标市场 | 工厂 + 家庭 | 工厂 | 工厂 | 仓储物流 | 研究 + 工业 |
| 核心计算 | Tesla FSD 芯片 | 第三方 GPU 模块 | 未披露 | 未披露 | 未披露 |
| 量产状态(2025年) | 小批量量产 | 试点部署 | 有限商用 | 商业部署中 | 批量销售 |
| 参考价格 | 目标 <$20,000 | 未公开 | 未公开 | 约 $250,000 | 约 $90,000 |
注:上表数据基于各公司公开披露信息,部分参数为估算值,实际产品规格以官方最新发布为准。
从对比可以看出,各家公司在技术路线上存在明显差异:
- 波士顿动力 Atlas 凭借深厚的仿生运动控制积累,在运动灵活性和稳定性上表现突出,但商业化定价尚未明确
- Agility Robotics Digit 率先实现仓储物流场景的商业部署,是目前落地最成熟的人形机器人之一
- Figure 02 与 OpenAI 深度合作,注重将大语言模型(Large Language Model, LLM)集成到机器人控制中,强调语言指令驱动
- Unitree H1 凭借极具竞争力的价格成为研究机构和初创公司的热门选择
- Optimus 的核心差异化优势在于特斯拉自有的 AI 芯片、车规级供应链以及从数百万辆汽车上积累的大规模真实世界数据
商业化路径
分阶段部署计划
马斯克多次公开阐述 Optimus 的商业化路线图,采用从内部到外部、从简单到复杂的渐进策略:
第一阶段:内部部署(2024–2025 年)
首先在特斯拉自有工厂内部署,执行结构化、重复性高的生产任务。这一阶段的主要目的是:
- 在真实工业环境中积累大量操作数据,为模型迭代提供燃料
- 验证机器人的可靠性和安全性,在风险可控的场景中发现并修复问题
- 建立机器人生产、测试、维护的完整流程
第二阶段:小批量对外销售(2025–2026 年)
面向工业客户开放小批量采购,优先供应对自动化需求迫切的制造业和物流企业。马斯克预计 2025 年对外交付量在数千台规模。定价目标为低于 20,000 美元,远低于同类产品的当前市场价格。
第三阶段:规模化量产与大众市场(2026 年及以后)
随着生产工艺成熟和成本下降,逐步扩大产能,进入更广泛的工业场景,并最终向家庭和服务业市场延伸。
长远愿景
马斯克多次在公开场合提出极为宏大的长期目标:
- 10 亿台机器人:马斯克认为,人形机器人的最终市场规模将达到 10 亿台甚至更多,远超汽车市场
- 重塑劳动力结构:在马斯克的设想中,Optimus 将承担人类社会中几乎所有的体力劳动,使人类得以专注于创造性工作
- 特斯拉市值预期:马斯克表示,Optimus 业务的长期价值可能超过特斯拉所有其他业务的总和
这些愿景虽然引发了广泛讨论,但也伴随着来自学术界和工业界的质疑,许多专家认为实现时间线过于乐观。
价格目标的经济逻辑
Optimus 低于 20,000 美元的目标售价是其商业化战略的核心。支撑这一目标的关键逻辑包括:
- 垂直整合:特斯拉自研芯片、执行器和电池,大幅削减外购零部件成本
- 汽车级供应链复用:电机、电池、电控等核心部件可复用特斯拉汽车供应链的规模效应
- 软件定义产品:硬件成本摊薄后,软件能力持续升级可通过 OTA(Over the Air)推送,无需更换硬件
局限与挑战
尽管 Optimus 取得了显著进展,其当前版本仍面临多方面的技术与工程挑战:
灵巧性局限
尽管 Gen 2 的手部自由度大幅提升,Optimus 在精细操控(Dexterous Manipulation)方面与人手相比仍有明显差距:
- 接触感知分辨率有限:触觉传感器阵列的空间分辨率尚无法完全复现人类指尖的触觉精度
- 双手协调任务困难:需要双手配合的复杂装配任务(如打绳结、拆装精密零件)对感知-规划-执行的协同要求极高,目前成功率有限
- 工具使用能力初级:使用螺丝刀、扳手等工具时,夹持稳定性和施力精度仍需提升
可靠性与鲁棒性
工业部署场景对机器人的稳定性要求极高:
- 长时间运行稳定性:连续工作数小时后,执行器温升可能影响性能,散热设计是一大挑战
- 环境适应性:对光照剧烈变化、地面摩擦差异、意外碰撞等非结构化干扰的应对能力仍在改进中
- 故障率:从工业设备角度看,机器人的平均无故障时间(Mean Time Between Failures, MTBF)需达到数千小时量级,目前距此标准仍有差距
训练数据需求
端到端神经网络的性能高度依赖训练数据的质量和多样性:
- 长尾问题(Long-Tail Problem):罕见场景(如遇到从未见过的物体形状或异常光照)可能导致系统行为异常
- 数据采集成本:遥操作数据的采集需要大量专业操作员投入,短期内难以快速规模化
- 泛化能力边界:模型在训练分布之外的泛化能力仍是开放问题,仿真到真实的迁移也并非完全无损
单台成本
尽管长期目标是将售价压至 20,000 美元以下,当前阶段的单台制造成本远高于此目标:
- 执行器、电池、FSD 芯片、传感器等核心部件的成本在无大规模量产的情况下难以快速下降
- 组装工艺尚未达到汽车级别的自动化程度,人工成本占比较高
- 软件开发、测试和安全认证的摊销成本不容忽视
安全与伦理
- 人机协作安全:在与人共存的环境中,如何确保机器人不对人类造成意外伤害是监管层面的核心关切
- 就业影响:大规模人形机器人部署将对劳动力市场产生深远影响,相关社会和政策讨论尚未形成共识
- 数据隐私:机器人在工厂和家庭中采集的大量视频和环境数据的隐私保护需要明确的法律框架
行业影响
Optimus 项目的公布与持续推进,对人形机器人行业产生了深远影响:
资本与产业热潮
特斯拉的入局大幅提升了投资者对人形机器人赛道的关注度,2022 年至 2025 年间全球人形机器人赛道融资规模显著扩大。中国、美国、欧洲的机器人初创公司纷纷获得大额融资,Figure AI、1X Technologies(前身 Halodi Robotics)、Apptronik 等公司均在此背景下完成了重要融资轮次。
成本预期重塑
马斯克提出 Optimus 最终售价低于 20,000 美元的目标,将行业对人形机器人量产成本的讨论带入了全新维度。这一目标迫使竞争对手重新审视自身的成本结构,也推动了执行器、传感器等核心部件供应商加速降本研发。
技术路线争论
Optimus 的纯视觉感知方案延续了特斯拉 FSD 的技术哲学,引发了关于机器人是否需要激光雷达等主动传感器的深入讨论。支持者认为纯视觉方案成本更低、扩展性更好;反对者则认为在安全关键场景中,激光雷达的可靠性优势不可替代。
对中国机器人产业的带动
Optimus 的快速进展加速了中国人形机器人产业的布局。宇树科技、傅利叶智能、优必选、小米等企业相继加速推出自己的人形机器人产品,北京、上海等地出台专项政策支持人形机器人产业链发展,将人形机器人列为战略性新兴产业。
参考资料
- Tesla Bot, Tesla 官网
- Optimus (robot), Wikipedia
- Tesla AI Day 2022, YouTube
- Tesla Optimus Gen 2 官方发布视频, YouTube, 2023
- Tesla 2024 年股东大会 Optimus 演示, YouTube, 2024
- FSD Chip, Wikipedia
- Elon Musk on Optimus at Tesla Q4 2024 Earnings Call, Tesla 投资者关系
- Boston Dynamics Atlas, Boston Dynamics 官网
- Agility Robotics Digit, Agility Robotics 官网
- Figure AI Figure 02, Figure AI 官网
- Unitree H1, 宇树科技官网