视觉传感器(摄像头)
摄像头是自动驾驶感知系统的核心传感器。相比激光雷达和毫米波雷达,摄像头具有成本低、信息密度高的显著优势——单颗图像传感器即可同时获取颜色、纹理、形状和语义信息,非常适合交通标志识别、车道线检测、目标分类等需要语义理解的任务。以特斯拉为代表的纯视觉自动驾驶方案证明,在算法足够强大的前提下,摄像头阵列可以成为整个感知体系的基础。
1. 摄像头光学基础
1.1 小孔成像模型
摄像头最常用的数学模型是小孔相机模型(Pinhole Camera Model)。三维空间中的点 \(P = (X, Y, Z)\) 经过光心投影到像平面上的点 \(p = (x, y)\),满足:
其中 \(f\) 为焦距(单位:像素或毫米)。将像素坐标系与主点偏移结合,得到完整的像素坐标:
1.2 相机内参矩阵
上述投影关系可以用齐次坐标写成矩阵形式:
其中内参矩阵(Intrinsic Matrix) \(K\) 定义为:
- \(f_x, f_y\):水平/垂直方向的焦距(像素为单位,\(f_x = f / s_x\),\(s_x\) 为像素水平尺寸)
- \((c_x, c_y)\):主点(Principal Point),通常接近图像中心
- 若像素为正方形(\(f_x = f_y\)),则只需一个焦距参数
1.3 视场角(FOV)
视场角描述摄像头的可视范围,由焦距 \(f\) 与传感器尺寸 \(d\) 共同决定:
其中 \(d\) 对应水平方向时得到水平FOV,对应垂直方向时得到垂直FOV,对应对角线时得到对角FOV。
实际车载摄像头的焦距选择遵循以下原则:
| 焦距类型 | 典型水平FOV | 适用场景 |
|---|---|---|
| 长焦(如 12 mm) | 约 30°–50° | 远端目标检测(>100 m),高速公路 |
| 中焦(如 6 mm) | 约 60° | 综合感知,城市道路 |
| 广角(如 2.5 mm) | 约 100°–120° | 近场覆盖,交叉路口,变道辅助 |
| 鱼眼(如 1.3 mm) | 约 180°–195° | 泊车环视,盲区覆盖 |
1.4 景深与光圈
景深(Depth of Field, DoF)是指图像中清晰成像的距离范围,由光圈(F值)、焦距和对焦距离共同决定:
其中 \(N\) 为光圈F值,\(c\) 为弥散圆直径,\(d\) 为对焦距离。车载摄像头通常使用较大光圈(F1.6–F2.0)以保证低照度性能,同时固定对焦于超焦距以获得最大景深,无需动态对焦机构。
2. 图像传感器
2.1 CMOS vs CCD
| 对比维度 | CMOS | CCD |
|---|---|---|
| 读取方式 | 每个像素独立放大读出 | 电荷逐行转移读出 |
| 速度 | 高(可局部读取) | 较低 |
| 功耗 | 低 | 高(约CMOS的10倍) |
| 集成度 | 高(ADC/ISP可片上集成) | 低(需外部电路) |
| 噪声 | 固定图案噪声稍高 | 均匀性好,暗电流低 |
| 成本 | 低 | 高 |
| 车载应用 | 主流选择 | 基本已淘汰 |
目前车载图像传感器几乎全部采用CMOS工艺,主流厂商包括索尼(Sony)、安森美(onsemi)、豪威(OmniVision)等。
2.2 卷帘快门(Rolling Shutter)
卷帘快门的曝光方式是逐行依次曝光,各行之间存在时间差。当拍摄运动目标或相机自身运动时,会产生以下伪影:
- 果冻效应(Jello Effect):快速横向运动导致垂直边缘倾斜
- 运动模糊不一致:图像上下部分的运动状态不同步
- 闪光带(Flash Banding):在频闪光源下出现横向亮暗条纹
在ADAS场景中,车辆高速行驶时卷帘快门会导致测距误差。例如,以 \(v = 30\ \text{m/s}\) 的速度行驶,帧读出时间为 \(16\ \text{ms}\),则图像顶部与底部的位置差可达 \(0.48\ \text{m}\),对检测精度影响显著。
2.3 全局快门(Global Shutter)
全局快门对所有像素同时开始和结束曝光,完全消除因逐行读出引起的运动伪影,是高速运动场景的必选方案。代价是像素面积利用率(Fill Factor)较低,在相同工艺下感光度略逊于卷帘快门。
车载应用中: - 前视远焦摄像头:通常要求全局快门,以保证高速行驶时的目标检测精度 - 环视鱼眼摄像头:低速泊车场景,卷帘快门可接受 - DMS内舱摄像头:检测眨眼/头部转动等高频动作,推荐全局快门
2.4 像素尺寸与低光性能
像素物理尺寸越大,单位时间内收集的光子数越多,信噪比越高。常见像素尺寸:
- 手机摄像头:0.6–1.0 µm
- 车载摄像头:2.0–4.0 µm(索尼 IMX490:3.0 µm)
像素尺寸与信噪比的近似关系:像素面积增大4倍,暗场信噪比提升约6 dB。
2.5 高动态范围(HDR)
自动驾驶场景需要同时看清隧道出口的强光区和隧道内的阴暗区,要求传感器动态范围(Dynamic Range)超过120 dB,而普通CMOS只有约60–70 dB。
常见HDR实现方式:
- 双曝光合并(Dual Exposure):同一帧内采用长短两次曝光,分别捕获暗部和亮部,再合并为HDR图像
- 多曝光交织(Multi-Exposure Interleaving):连续帧交替使用不同曝光时间
- 分区像素HDR(Lateral Overflow Integration Capacitor, LOFIC):像素内集成两个电容,分别存储高/低增益信号
- Log域传感器:像素响应曲线为对数型,天然压缩高光
索尼 IMX490 采用 DOL-HDR(Digital Overlap HDR)技术,可实现 120 dB 动态范围,是目前车载摄像头的主流选择。
3. ISP图像信号处理管线
原始传感器输出的RAW数据(拜尔格式,Bayer Pattern)需要经过图像信号处理器(ISP)的一系列处理才能转换为可用图像。
3.1 ISP处理流程
传感器RAW输出(Bayer格式)
│
▼
┌─────────────────────┐
│ 黑电平校正 │ Black Level Correction
│ (减去暗电流偏置) │
└──────────┬──────────┘
│
▼
┌─────────────────────┐
│ 镜头阴影校正 │ Lens Shading Correction (LSC)
│ (补偿边缘暗角) │
└──────────┬──────────┘
│
▼
┌─────────────────────┐
│ 去拜尔/插值 │ Demosaicing / Debayering
│ (RGGB → RGB) │
└──────────┬──────────┘
│
▼
┌─────────────────────┐
│ 自动白平衡 │ Auto White Balance (AWB)
│ (色温校正) │
└──────────┬──────────┘
│
▼
┌─────────────────────┐
│ 色彩校正矩阵 │ Color Correction Matrix (CCM)
│ (传感器色域→sRGB) │
└──────────┬──────────┘
│
▼
┌─────────────────────┐
│ 时域/空域去噪 │ Temporal NR + Spatial NR
└──────────┬──────────┘
│
▼
┌─────────────────────┐
│ Gamma校正 │ Gamma Correction
│ (线性→感知均匀) │
└──────────┬──────────┘
│
▼
┌─────────────────────┐
│ 图像压缩/输出 │ H.264 / H.265 / RAW
└─────────────────────┘
3.2 各处理步骤说明
去拜尔(Demosaicing):传感器使用拜尔滤色阵列(RGGB),每个像素只感知一种颜色。去拜尔算法通过插值恢复每个像素的完整RGB值,常用方法有双线性插值、自适应同色细节保持(AHDHA)等。
黑电平校正(Black Level Correction):传感器即使在完全遮光情况下也会输出非零的暗电流信号,需减去该基准值以保证黑色真正为零。
镜头阴影校正(Lens Shading Correction, LSC):镜头边缘进光量少于中心,导致图像四角变暗(Vignetting)。LSC通过查找表对每个像素施加位置相关的增益补偿。
去噪(Noise Reduction): - 空域降噪(Spatial NR):在单帧内利用相邻像素相关性平滑噪声,如双边滤波(Bilateral Filter) - 时域降噪(Temporal NR):跨帧对齐后加权平均,对静止背景去噪效果极佳,但运动区域需谨慎处理
白平衡(AWB):在不同色温光源(晴天 5500K / 阴天 6500K / 钨灯 3200K)下,白色物体在传感器上的R/G/B响应不同。AWB计算增益系数使白色物体的输出接近理想白色。
色彩校正矩阵(CCM):传感器的光谱响应与标准色空间(sRGB)不完全匹配,通过3×3矩阵线性变换进行校正:
Gamma校正:人眼对亮度的感知是非线性的(对暗部更敏感),Gamma编码将线性光信号压缩为感知均匀的编码值,减少编码位数需求。sRGB标准使用 \(\gamma \approx 2.2\):
图像压缩: - H.264/H.265:有损视频压缩,适合录像和远程传输,帧间预测大幅降低码率 - RAW输出:保留原始传感器数据,供后端算法进行自定义ISP处理,占用带宽大(通常需要SerDes链路)
4. 镜头畸变与标定
4.1 径向畸变(Radial Distortion)
径向畸变是最主要的镜头畸变类型,由镜片曲率不完美导致。以主点为原点,设无畸变像点为 \((x, y)\),畸变后的像点为 \((x', y')\),径向畸变模型为:
其中 \(r^2 = x^2 + y^2\),\(k_1, k_2, k_3\) 为径向畸变系数。
- 桶形畸变(Barrel Distortion):\(k_1 < 0\),图像向中心收缩,广角镜头常见
- 枕形畸变(Pincushion Distortion):\(k_1 > 0\),图像向外膨胀,长焦镜头常见
4.2 切向畸变(Tangential Distortion)
切向畸变由镜片与传感器平面不完全平行引起:
其中 \(p_1, p_2\) 为切向畸变系数。通常 \(p_1, p_2\) 远小于 \(k_1\),在精度要求不高时可忽略。
4.3 棋盘格标定法(Zhang's Method)
张正友标定法是目前最广泛使用的相机标定方法,无需精密三维标定靶,仅使用平面棋盘格即可标定内参和畸变系数。
标定流程: 1. 打印或显示已知尺寸的棋盘格图案(如 \(9 \times 6\) 内角点) 2. 从不同角度和距离采集 15–30 张图像 3. 使用角点检测算法(如 Harris 角点、亚像素细化)提取图像中的棋盘格角点坐标 \(\{m_i\}\) 4. 建立世界坐标 \(\{M_i\}\) 与图像坐标的对应关系,通过最小化重投影误差求解参数:
- 使用 Levenberg-Marquardt 算法进行非线性优化
- 标定精度评估:重投影误差(Reprojection Error)通常要求小于 0.5 个像素
4.4 鱼眼镜头等距投影模型
普通针孔模型不适用于FOV超过150°的鱼眼镜头,需使用等距投影(Equidistant Projection)或等立体角投影(Equisolid Angle)模型:
等距投影:
其中 \(r\) 为像点到主点的距离,\(\theta\) 为入射光线与光轴的夹角。鱼眼标定常用 OpenCV 的 fisheye 模块,畸变系数为 \(k_1, k_2, k_3, k_4\)。
4.5 多相机外参标定
自动驾驶车辆通常配备多个摄像头,需要标定各摄像头相对于车体坐标系(或某一基准传感器)的外参——即刚体变换矩阵:
其中 \(R \in SO(3)\) 为旋转矩阵(3个自由度),\(t \in \mathbb{R}^3\) 为平移向量。
多相机外参标定方法: - 使用大型平面靶板:多个摄像头同时观测同一靶板,通过优化各摄像头的相对姿态 - 使用三维特征点:在环境中放置已知三维坐标的标定点(如AprilTag),各摄像头独立定位后求相对变换 - 在线联合标定:利用运动中的自然特征点(车道线、建筑边缘),通过束调整(Bundle Adjustment)在线优化外参
5. 车载摄像头类型对比
5.1 各类型摄像头说明
前视摄像头(Forward Camera):
特斯拉的三目前视方案(前主摄/前广角/前远摄)代表了行业最佳实践: - 前远摄(Narrow):FOV约 25°,焦距约 12 mm,最远感知距离 >250 m,用于高速公路跟车和目标预判 - 前中摄(Main):FOV约 52°,覆盖主要前向感知区域,用于目标检测和车道线识别 - 前广角(Wide):FOV约 120°,用于交叉路口和低速跟车场景
环视鱼眼摄像头(Surround View Camera):
四路鱼眼摄像头布置于车辆前后左右,每路FOV约 185°–195°,通过图像拼接和俯视变换生成鸟瞰图(BEV),主要用于自动泊车和低速辅助驾驶。
后视摄像头(Rear Camera):
布置于车辆尾部,FOV约 130°–140°,中焦或广角,用于倒车辅助和后方来车检测。部分法规(如美国FMVSS 111)强制要求安装。
内舱DMS摄像头(Driver Monitoring System Camera):
监测驾驶员疲劳、注意力分散和头部姿态。使用近红外(NIR)摄像头(850 nm 或 940 nm 波长),配合红外补光灯,可在强光和黑暗环境下工作,不受驾驶员佩戴太阳镜影响。
5.2 车载摄像头规格对比表
| 类型 | 水平FOV | 典型焦距 | 分辨率 | 快门 | 主要应用 |
|---|---|---|---|---|---|
| 前视远焦 | 25°–35° | 10–16 mm | 8 MP | 全局快门 | 远距目标检测,>150 m |
| 前视中焦 | 50°–60° | 6–8 mm | 8 MP | 全局快门 | 综合前向感知 |
| 前视广角 | 100°–120° | 2.5–4 mm | 2–3 MP | 卷帘/全局 | 近场交叉路口覆盖 |
| 环视鱼眼 | 180°–195° | 1.2–1.8 mm | 3–5 MP | 卷帘快门 | 泊车,BEV拼接 |
| 后视摄像头 | 130°–140° | 2–3 mm | 2–3 MP | 卷帘快门 | 倒车辅助 |
| DMS摄像头 | 80°–100° | 3–4 mm | 1–2 MP | 全局快门 | 驾驶员状态监测 |
6. 主流车载摄像头产品
6.1 图像传感器(Sensor Die)
索尼(Sony)IMX系列
索尼是全球车载图像传感器的领导者,主要车规级产品: - IMX490:1/2.5 英寸,5.4 MP,3.0 µm像素,全局快门,DOL-HDR 120 dB,支持车规(AEC-Q100 Grade 2) - IMX728:1/1.7 英寸,8.3 MP,2.5 µm像素,全局快门,适用于高分辨率前视应用
安森美(onsemi)AR系列
- AR0820CS:1/2 英寸,8.3 MP,2.1 µm像素,卷帘/全局快门可选,三曝光HDR,适合L2+前视摄像头
- AR0233:2.3 MP,全局快门,低功耗,适合ADAS入门级应用
豪威科技(OmniVision)
- OX08B40:8 MP,车规级,支持DOL-HDR,广泛用于中端自动驾驶平台
韦尔半导体(Will Semi / OmniVision)
韦尔半导体通过收购豪威科技成为中国最大的图像传感器设计公司,积极拓展车载市场,其CMOS传感器产品已进入多家国内整车厂供应链。
6.2 摄像头模组(Camera Module)
| Tier1模组厂商 | 代表产品 | 特点 |
|---|---|---|
| 舜宇光学(Sunny Optical) | SV系列车载模组 | 中国最大光学镜头企业,出货量全球领先 |
| 联创电子(LianChuang) | 多款前视/环视模组 | 专注车载摄像头,客户包括比亚迪、蔚来等 |
| Sekonix(韩国) | SF3324/SF3325 | NVIDIA Jetson/DRIVE平台官方推荐 |
| Continental(德国大陆) | MFC5xx系列 | 集成ISP和SoC,Tier1一体化前视模组 |
| Aptiv(安波福) | 多款ADAS摄像头 | 与Mobileye紧密合作,主供欧美OEM |
6.3 主流产品规格对比
| 产品型号 | 传感器 | 分辨率 | 动态范围 | 快门 | 接口 |
|---|---|---|---|---|---|
| 索尼 IMX490 | 索尼 | 5.4 MP | 120 dB | 全局 | MIPI CSI-2 |
| 索尼 IMX728 | 索尼 | 8.3 MP | 100 dB | 全局 | MIPI CSI-2 |
| 安森美 AR0820CS | 安森美 | 8.3 MP | 120 dB | 全局/卷帘 | MIPI CSI-2 |
| OmniVision OX08B | 豪威 | 8 MP | 120 dB | 卷帘 | MIPI CSI-2 |
| Sekonix SF3325 | AR0231AT | 2.1 MP | 100 dB | 全局 | GMSL2 |
7. 摄像头时序同步
多传感器融合的前提是各传感器数据在时间上严格对齐。摄像头与激光雷达、IMU之间的时间不同步会导致运动目标位置估计错误,是系统设计的关键挑战。
7.1 硬件触发同步
最可靠的摄像头同步方式是硬件触发:
- 主控(Domain Controller)或专用时序控制器产生Trigger信号(GPIO脉冲)
- 脉冲的上升沿(或下降沿)触发所有摄像头同时开始曝光
- 各摄像头的曝光中心时刻相同,消除帧间的相对时间差
对于多路摄像头(如8路360°摄像头阵列),所有Trigger信号应从同一时钟源派生,并考虑线缆传输延迟的补偿(通常 \(<10\ \text{ns}\))。
7.2 与LiDAR的时间对齐
激光雷达通常以固定频率(如10 Hz或20 Hz)旋转扫描,每圈扫描的起始时刻由内部时钟决定。与摄像头对齐需要:
- PPS脉冲(Pulse Per Second):GPS接收机或时钟模块每秒输出一个高精度脉冲,精度可达 \(<1\ \mu\text{s}\)
- IEEE 1588 PTP(Precision Time Protocol):通过以太网实现纳秒级时间同步,各节点(摄像头SoC、LiDAR控制器、ECU)锁定到同一时钟
- 时间戳注入(Timestamp Injection):在摄像头曝光中心时刻记录精确时间戳,与LiDAR点云的时间戳对应,用于数据融合时的插值对齐
典型时间同步精度要求:对于100 km/h行驶速度,1 ms的时间误差对应约2.8 cm的位置误差,多数系统要求时间同步精度优于 \(\pm 0.5\ \text{ms}\)。
7.3 帧率选择(30 fps vs 60 fps)
| 对比项 | 30 fps | 60 fps |
|---|---|---|
| 帧间距 | 33.3 ms | 16.7 ms |
| 高速场景(100 km/h)帧间位移 | ~92 cm | ~46 cm |
| 带宽需求 | 基准 | 约2倍 |
| 功耗 | 低 | 高(约30–50%增加) |
| ISP处理需求 | 低 | 高 |
| 适用场景 | L2级ADAS,大多数城市场景 | L3+高速场景,高精度目标跟踪 |
实际工程中,前视远焦摄像头(高速行驶)通常使用60 fps,环视鱼眼(低速泊车)使用30 fps,以平衡性能与系统带宽。
参考资料
- Zhang, Z. "A Flexible New Technique for Camera Calibration." IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(11):1330–1334, 2000.
- Szeliski, R. Computer Vision: Algorithms and Applications, 2nd ed. Springer, 2022. Chapter 2: Image Formation.
- Sony Semiconductor Solutions. IMX490 Product Brief: Automotive CMOS Image Sensor. 2022.
- Tesla AI Day. "Tesla Vision & Occupancy Networks." Presentation, 2021. https://tesla.com/AI
- AUTOSAR. Specification of Camera ISP Driver. Release 4.4.0, 2019. https://www.autosar.org