三维视觉参考资料
引言
本页面汇集三维视觉领域的核心论文、教材、开源工具、数据集和常用公式,为学习和研究三维视觉提供系统化的参考索引。内容涵盖立体视觉、点云处理、三维重建和神经辐射场等方向,适合作为日常查阅的快速参考手册。
经典论文
立体视觉与深度估计
| 论文 | 作者 | 年份 | 会议/期刊 | 核心贡献 |
|---|---|---|---|---|
| A Taxonomy and Evaluation of Dense Two-Frame Stereo | Scharstein & Szeliski | 2002 | IJCV | 立体匹配方法综述与基准 |
| Stereo Processing by SGM and Mutual Information | Hirschmuller | 2005/2008 | CVPR/TPAMI | 半全局匹配算法 |
| GC-Net | Kendall et al. | 2017 | ICCV | 首个端到端深度学习立体匹配 |
| RAFT-Stereo | Lipson et al. | 2021 | 3DV | 迭代更新立体匹配 |
| Depth Anything | Yang et al. | 2024 | CVPR | 大规模单目深度估计基础模型 |
点云处理与配准
| 论文 | 作者 | 年份 | 会议/期刊 | 核心贡献 |
|---|---|---|---|---|
| A Method for Registration of 3-D Shapes | Besl & McKay | 1992 | TPAMI | 迭代最近点算法(ICP) |
| PointNet | Qi et al. | 2017 | CVPR | 直接处理点云的深度网络 |
| PointNet++ | Qi et al. | 2017 | NeurIPS | 层次化点云学习 |
| FPFH | Rusu et al. | 2009 | ICRA | 快速点特征直方图描述子 |
| Fast Global Registration | Zhou et al. | 2016 | ECCV | 无需初始化的快速全局配准 |
| GeoTransformer | Qin et al. | 2022 | CVPR | 几何感知 Transformer 配准 |
三维重建
| 论文 | 作者 | 年份 | 会议/期刊 | 核心贡献 |
|---|---|---|---|---|
| SfM Revisited | Schonberger & Frahm | 2016 | CVPR | COLMAP 增量式 SfM |
| MVSNet | Yao et al. | 2018 | ECCV | 深度学习多视角立体 |
| NeRF | Mildenhall et al. | 2020 | ECCV | 神经辐射场 |
| Instant-NGP | Muller et al. | 2022 | SIGGRAPH | 多分辨率哈希编码加速 NeRF |
| 3D Gaussian Splatting | Kerbl et al. | 2023 | SIGGRAPH | 实时辐射场渲染 |
| 2D Gaussian Splatting | Huang et al. | 2024 | SIGGRAPH | 二维高斯改善表面重建 |
教材与专著
基础教材
| 书名 | 作者 | 出版社 | 说明 |
|---|---|---|---|
| Multiple View Geometry in Computer Vision | Hartley & Zisserman | Cambridge | 多视图几何经典教材,涵盖对极几何、三维重建理论 |
| Computer Vision: Algorithms and Applications | Szeliski | Springer | 计算机视觉全面教材,免费在线版本 |
| An Invitation to 3D Vision | Ma et al. | Springer | 三维视觉入门,涵盖射影几何到运动恢复结构 |
| Robotics, Vision and Control | Corke | Springer | 机器人视觉实践导向教材 |
| State Estimation for Robotics | Barfoot | Cambridge | 机器人状态估计,包括视觉里程计相关理论 |
进阶参考
| 书名 | 作者 | 说明 |
|---|---|---|
| Three-Dimensional Computer Vision | Faugeras | 三维计算机视觉理论基础 |
| Numerical Optimization | Nocedal & Wright | 优化理论,光束法平差必备基础 |
| 视觉SLAM十四讲:从理论到实践 | 高翔 | 中文 SLAM 入门教材,含丰富代码示例 |
| Probabilistic Robotics | Thrun et al. | 概率机器人学,SLAM 理论基础 |
开源工具
通用三维视觉库
| 工具 | 语言 | 许可证 | 主要功能 |
|---|---|---|---|
| Open3D | C++/Python | MIT | 点云处理、配准、重建、可视化 |
| PCL | C++ | BSD | 点云滤波、分割、配准、特征提取 |
| OpenCV | C++/Python | Apache 2.0 | 立体标定、视差计算、三维重投影 |
| PyTorch3D | Python | BSD | 可微渲染、点云/网格操作 |
| Kaolin | Python | Apache 2.0 | NVIDIA 三维深度学习库 |
三维重建系统
| 工具 | 功能 | 输入 | 输出 |
|---|---|---|---|
| COLMAP | SfM + MVS | 图像集合 | 稀疏/稠密点云、网格 |
| OpenMVS | MVS + 网格重建 | COLMAP 稀疏重建 | 稠密点云、纹理网格 |
| Meshroom | 照片建模(GUI) | 图像集合 | 纹理网格模型 |
| nerfstudio | NeRF 训练框架 | 图像 + 位姿 | 辐射场模型、点云导出 |
| gsplat | 3DGS 渲染核心 | 高斯参数 | 渲染图像 |
| SuGaR | 3DGS 转网格 | 3DGS 模型 | 三角网格 |
点云标注与可视化
| 工具 | 用途 | 特点 |
|---|---|---|
| CloudCompare | 点云可视化与编辑 | 支持大规模点云,丰富的处理插件 |
| MeshLab | 网格处理与可视化 | 网格修复、简化、纹理映射 |
| Rerun | 多模态数据可视化 | 支持点云、图像、时序数据的实时可视化 |
| 3D Slicer | 医学三维可视化 | 体数据分割与三维重建 |
数据集
自动驾驶
| 数据集 | 规模 | 传感器 | 标注 | 链接 |
|---|---|---|---|---|
| KITTI | 389 对立体图像 | 双目相机 + LiDAR | 视差、光流、位姿 | cvlibs.net |
| nuScenes | 1000 场景 | 6 相机 + LiDAR + RADAR | 三维框、语义 | nuscenes.org |
| Waymo Open | 1150 场景 | 5 相机 + 5 LiDAR | 三维框、分割 | waymo.com/open |
| Argoverse 2 | 1000 场景 | 7 相机 + 2 LiDAR | 三维框、地图 | argoverse.org |
室内场景
| 数据集 | 规模 | 传感器 | 标注 | 链接 |
|---|---|---|---|---|
| ScanNet | 1513 场景 | RGB-D | 三维语义分割、实例 | scan-net.org |
| ScanNet++ | 460 场景 | 高分辨率 RGB-D + DSLR | 语义、实例、法向量 | scannetpp |
| Matterport3D | 90 栋建筑 | 全景 RGB-D | 语义、实例、布局 | matterport3d |
| NYU Depth V2 | 1449 帧 | Kinect RGB-D | 深度、语义分割 | nyu |
| Replica | 18 个房间 | 合成数据 | 稠密深度、语义 | replica |
物体与形状
| 数据集 | 规模 | 类型 | 用途 |
|---|---|---|---|
| ShapeNet | 51,300 模型 | CAD 模型 | 形状生成、补全、分类 |
| ModelNet | 12,311 模型 | CAD 模型 | 三维形状分类 |
| CO3D | 19,000 视频 | 多视角视频 | 物体重建、新视角合成 |
| Objaverse | 800K+ 模型 | 三维模型 | 大规模三维预训练 |
配准基准
| 数据集 | 场景类型 | 配准难度 | 说明 |
|---|---|---|---|
| 3DMatch | 室内 | 中 | 62 场景,点云配准标准基准 |
| 3DLoMatch | 室内 | 高 | 低重叠率(10-30%)配准 |
| KITTI Odometry | 室外 | 中 | LiDAR 里程计与配准 |
| ETH | 室外 | 高 | 大规模室外点云配准 |
基准排行榜
主要基准评测网站:
- KITTI Stereo/Flow/Depth: http://www.cvlibs.net/datasets/kitti/eval_stereo.php
- ETH3D Benchmark: https://www.eth3d.net/
- DTU MVS Benchmark: https://roboimagedata.compute.dtu.dk/
- Tanks and Temples: https://www.tanksandtemples.org/
- ScanNet Benchmark: http://kaldir.vc.in.tum.de/scannet_benchmark/
- 3DMatch Benchmark: https://3dmatch.cs.princeton.edu/
公式快速参考
相机模型
针孔相机模型:将三维点 投影到图像平面 :
其中 为焦距(像素), 为主点坐标。
带畸变模型(径向畸变 + 切向畸变):
其中 , 为径向畸变系数, 为切向畸变系数。
对极几何
基础矩阵(Fundamental Matrix):
- 秩为 2,包含 7 个自由度
- 由至少 8 对匹配点(8 点法)或 7 对匹配点(7 点法)估计
本质矩阵(Essential Matrix):
- 包含 5 个自由度(3 旋转 + 2 平移方向)
- 由至少 5 对匹配点估计(5 点法)
单应矩阵(Homography):
适用于平面场景或纯旋转运动,包含 8 个自由度。
三角化
给定两个相机的投影矩阵 和对应点 ,三维点 通过求解齐次线性方程组获得:
其中 为投影矩阵 的第 行。使用 SVD 求最小二乘解。
视差与深度
校正后双目相机的深度计算:
其中 为焦距(像素), 为基线长度(米), 为视差(像素), 为视差测量误差。
刚体变换
旋转表示:
| 表示 | 参数数 | 优点 | 缺点 |
|---|---|---|---|
| 旋转矩阵 | 9 (约束后 3) | 直接用于变换 | 冗余参数,需正交约束 |
| 四元数 | 4 (约束后 3) | 插值方便,无万向锁 | 双覆盖 |
| 轴角 | 3 | 最小参数化 | 奇异性() |
| 欧拉角 | 3 | 直观 | 万向锁问题 |
罗德里格斯公式(轴角转旋转矩阵):
体积渲染
NeRF 的体积渲染积分:
离散化近似:
参考资料
- Hartley R, Zisserman A. Multiple View Geometry in Computer Vision. 2nd Edition, Cambridge University Press, 2003.
- Szeliski R. Computer Vision: Algorithms and Applications. 2nd Edition, Springer, 2022.
- 高翔, 张涛 等. 视觉SLAM十四讲:从理论到实践. 电子工业出版社, 2017.
- Open3D 官方文档. http://www.open3d.org/docs/
- COLMAP 官方文档. https://colmap.github.io/
- nerfstudio 官方文档. https://docs.nerf.studio/
- Awesome 3D Gaussian Splatting. https://github.com/MrNeRF/awesome-3D-gaussian-splatting