面向动态物体场景的视觉SLAM综述

1 引言(Introduction)

同步定位与地图构建(SLAM)是移动载体搭载相机、激光雷达等传感器,在未知环境下进行自身定位和建图的过程 [1-2].近年来,随着计算机视觉等技术的发展,以相机作为唯一传感器的视觉SLAM(visual SLAM,vSLAM)技术因其具有较高的实用性和较低的成本成为机器人、无人驾驶和增强现实等领域的热门研究方向 [3-5].与激光雷达和GPS (全球定位系统)相比,使用视觉图像进行同步定位和建图能获取更多有关环境的重要信息,例如颜色、纹理、表面成分,这些信息可用于环境的语义解释,而且在提高定位精度和开展闭环检测等方面也拥有巨大潜力[6-7].根据使用图像信息的方式,典型的 vSLAM 可以分为基于特征的方法 [8-10]和直接法 [11-14].基于特征的方法从 2D 图像中提取和匹配特征点,然后计算并优化相机位姿以及这些特征点在 3D 空间中的位置.相比之下,直接法不提取特征点,而是直接使用图像中的像素并通过最小化光度误差来计算 6 自由度相机的位姿.闭环检测和后端优化可以与这两种方法结合使用,以形成完整的 vSLAM 系统.

典型的 vSLAM 从 2007 年发展至今已经取得了巨大成功,它们在定位和制图精度方面展示出卓越的性能,特别是基于特征的方法 ORB-SLAM2 [10]和直接法 DSO(direct sparse odometry) [14],都在大规模环境中实现了高精度定位与建图,而且可以在消费级 CPU 上实时运行.但是,当面对无特征的、动态的、光照剧烈变化的挑战性环境时,它们的鲁棒性仍然难以保障.目前大多数的 vSLAM 方案的鲁棒性和高效率都是在静态环境的假设下才能够保证实现,然而现实世界却是复杂而动态的.当场景中出现动态物体,例如行人、宠物和车辆等时,特征匹配、位姿估计、回环检测和地图构建可能会出错,从而使算法失败.这些问题也促发了动态 SLAM 技术被大量地研究和开发[15].

动态物体场景下的 vSLAM 问题可以从两个不同的角度来看待:一个是鲁棒性问题,另一个是 3维重建与场景理解问题.从鲁棒性问题来看,尽管相机前方存在多个动态物体,这可能会导致先前跟踪的特征出现错误匹配或被遮挡,但 vSLAM 系统的位姿估计仍然保持精确,其鲁棒性是通过分割图像中的静态和动态特征,并将动态部分视为异常值,然后仅基于静态部分计算位姿估计来实现的.鲁棒的位姿估计对于机器人导航、无人驾驶汽车或紧急响应任务都是至关重要的;另一方面,从 3 维重建与场景理解的角度来看,大多数基于特征的vSLAM 方案通常构建稀疏路标点地图,只实现了定位功能,但要想满足移动机器人自主导航、避障和交互等其他高级需求,则要求系统最好能够全面地重建整个 3 维场景(静态背景、静态物体以及刚性/非刚性动态物体),使机器人能够从 3 维结构、物体运动、语义这 3 个层面透彻地感知和理解整个场景.

当搭载相机的移动载体在执行定位和建图等任务时,面对环境中出现的动态物体,需要考虑以下3 个问题:
(1) 对移动物体如何检测、分割和跟踪?
(2) 如何消除动态物体对位姿估计的影响,保持系统的鲁棒性?
(3) 构建地图时对运动物体如何处理,是直接丢弃还是跟踪重建?

针对上述问题,根据动态 SLAM 在定位与建图时对动态物体的不同处理方式,将现有动态 SLAM的研究分为 3 个方向:一是动态鲁棒性 SLAM 与静态背景重建,即将动态特征作为异常值丢弃,实现精准定位,并在建图时剔除动态物体,构建 3 维稠密静态背景地图或语义地图;二是非刚性动态物体跟踪重建,即直接忽略静态背景,只对场景中的非刚性动态物体进行跟踪重建;三是移动物体跟踪与重建,即同时处理场景中的静态和动态成分,跟踪移动物体,确保其上的特征不被用于相机位姿估计,以保证系统鲁棒性,或者更进一步,同时估计相机运动和移动物体运动,且对多移动刚性物体进行跟踪重建,并添加到背景地图中.除此之外,还有不少研究人员针对复杂动态环境下的闭环检测展开研究 [16-17].本文主要综述用于处理动态物体场景的定位和建图技术.

2 动 态 鲁 棒 性 SLAM 与 静 态 背 景 重 建(Dynamic robust SLAM and static background reconstruction)

针对环境中的动态物体,关于 vSLAM 的一个直接想法是从输入数据中提取动态成分,并将其作为异常值而明确丢弃,不参与位姿估计与建图.在典型 vSLAM 方案中,ORB-SLAM [9-10] 系统利用RANSAC (random sample consensus)[18] 算法进行外点过滤,而在 PTAM(parallel tracking and mapping) [8] 方法中则使用鲁棒核函数进行处理,以应对场景中的小移动物体.但是当动态物体占据图像的比例过大或数量较多时,这些方法则会失败.对于如何准确地检测动态特征并将其剔除的问题,本文从基于几何的方法、基于光流的方法和结合深度学习的方法 3 类进行综述.

文章目录
  • 1 引言(Introduction)
  • 2 动态鲁棒性SLAM与静态背景重建(Dynamic robust SLAM and static background reconstruction)
  •     2.1 基于几何的方法
  •     2.2 基于光流的方法
  •     2.3 结合深度学习的方法
  • 3 非刚性动态物体跟踪重建(Tracking andreconstruction of non-rigid dynamic object)
  • 4 移动物体跟踪与重建(Tracking and re-construction of the moving object)
  •     4.1 移动物体跟踪
  •     4.2 多移动刚性物体跟踪重建
  •         4.2.1 结合深度学习的方法
  •         4.2.2 非深度学习的方法
  • 5 总结与展望(Conclusion and prospect)
  •     5.1 深度学习与几何、光流等方法结合
  •     5.2 刚性与非刚性动态物体联合处理
  •     5.3 语义SLAM
  •     5.4 事件相机
  •     5.5 场景推理
图 1 静态场景下的对极约束与动态场景下的违反几何约束 [15]
图 1 静态场景下的对极约束与动态场景下的违反几何约束 [15]
面向动态物体场景的视觉SLAM综述-AGV吧
面向动态物体场景的视觉SLAM综述
此内容为付费资源,请付费后查看
20积分
付费资源
已售 1
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容