跳转至

深度学习数据集

图像类

  • ImageNet: 根据WordNet层次结构(目前只有名词)组织的图像数据库,其中层次结构的每个节点都由数百和数千个图像描绘。ImageNet是全球最大的开源图片库,截至到现在(2017.5)ImageNet共有一千四百多万张图片。其中包括超过20000个synset(s),synset是近义词的合集,synsnet可以理解为ImageNet整理的标签。
  • CIFAR: 由Alex Krizhevsky, Vinod Nair和 Geoffrey Hinton收集并整理,在Visual Dictionary的80万张图片中选择了6万张,并把它们分为CIFAR-10 和CIFAR-100。CIFAR-10数据集包含60000个32*32的彩色图像,共有10类。有50000个训练图像和10000个测试图像。数据集分为5个训练块和1个测试块,每个块有10000个图像。测试块包含从每类随机选择的1000个图像。训练块以随机的顺序包含这些图像,但一些训练块可能比其它类包含更多的图像。训练块每类包含5000个图像。CIFAR-100数据集包含100小类,每小类包含600个图像,其中有500个训练图像和100个测试图像。100类被分组为20个大类。
  • MNIST: 深度学习领域中大名鼎鼎的数据集—MNIST,几乎所有的深度学习教程的入门实例都是手写数字识别,而它们用到的库就是MNIST。这就好比我们学习一门语言的时候显示”hello world”。 MNIST数据集共包含7万个样本,分别是手写体数字0~9,样本大小为28*28。
  • COCO: 由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。
  • CityScapes: 数据场景包括50个不同城市(主要在德国),春夏秋三个季节白天的场景,有大量的动态目标不同层次的场景和多样的背景。场景不包括下大雨的和下雪的,因为这种场景需要用特殊的技术处理。图像数据分为30类:除了有 5000帧细标注的(像素级别的),标注一张图时间控制在1.5h左右,精细标注的数据划分成如下图训练验证测试集,不是随机划分的,而是确保每个划分的数据集里面包含各种场景。最终有2975张用来训练,500张用来验证,1525张用来测试。此外,还有20000张弱标注的帧,只用来训练,标注一张图控制在7min内。

SLAM数据集

  • TUM RGB-D: TUM RGB-D数据集由在不同的室内场景使用Microsoft Kinect传感器记录的39 个序列组成。包含了Testing and Debugging(测试),Handheld SLAM(手持SLAM),Robot SLAM(机器人SLAM),Structure vs. Texture(结构 vs 低纹理),Dynamic Objects(动态物体),3D Object Reconstruction(三维物体重建),Validation Files(验证集),Calibration Files(标定文件)几种针对不同任务的数据集,每个种类有包含多个数据,可以用于多种任务的性能测试。其groundtruth通过光学捕捉系统获得。其中的Dynamic Objects中包含了9个包含groundtrth的数据集,以及每个每种轨迹的验证集。该数据集涵括了四种相机运动姿态(xyz、rpy、halfsphere、static),以及两种动态程度(sitting、walking)。该动态数据集被广泛应用于动态SLAM系统的定位精度评估,如DynaSLAM、DsSLAM等都以该数据集为主要评测对象。值得一提的是,该网站还自带了在线评测工具,将自己的轨迹上传即可获得各项指标。
  • KITTI: KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI数据集的数据采集平台装配有2个灰度摄像机,2个彩色摄像机,一个Velodyne 64线3D激光雷达,4个光学镜头,以及1个GPS导航系统。其中visual odometry中包含的22个道路环境中采集的双目视频序列,可以用来评估SLAM系统在户外动态环境下的定位性能(以及运动物体跟踪性能)。目前,包括Dyna SALAMII、VDO-SLAM等著名的户外动态SLAM系统都是用了该数据集进行性能评估。此外,考虑到这些轨迹中有回环的部分,一些研究回环检测的人员制作了某些序列(00、02、05、06、07、08、09、13、15、16、18、19)中的回环真值,可以用来研究动态环境下回环检测的内容。
  • ReFusion: ReFusion是一个出色的、不采用深度学技术的、可以运行在动态环境中的三位实时重建系统。在该论文中,他们采集了自己的数据集,包括9种场景的24个视频序列,比TUM动态数据集的场景更加丰富,也更及复杂。他们用专业的地面激光雷达采集了环境静态部分的高分辨率点云,然后将点云对齐到我们的运动捕捉系统。之后RGB-D传感器的参考坐标系转换为运动捕捉系统的参考坐标系。目前,该数据集逐渐被一些三位重建的论文所采用。
  • Dynamic-Scenes: 场景中的动态物体不仅会影响SLAM短期的定位精度(帧间运动估计),还会影响长期定位性能(回环检测)。陈等人提出了一种SLCD进行回环检测,并发布了用于户外动态环境下回环检测的数据集。他们在道路环境中用ZED相机制作了两段数据,包括CBD与Road Ring。其中CBD的轨迹为一个环形,回环只有一处。Road Ring的轨迹有多处回环,且回环处存在多出动态物体,很适合研究动态动态场景对场景识别的影响。但是该数据集并没有给相机的参数,且没有轨迹的groungtruth,目前并不能直接使用,可信度并不是很高。