导读:
本文是计算机视觉领域会议 ICCV入选论文《CAPTRA: CAtegory-level Pose Tracking for Rigid and Articulated Objects from Point Clouds》的大纲解读。该工作由北京大学前沿计算研究中心陈宝权课题组与斯坦福大学/北京大学王鹤等合作完成,论文共同一作翁伊嘉为2021届图灵班学生。项目主页:https://yijiaweng.github.io/CAPTRA/;论文地址:https://arxiv.org/abs/2104.034371
引言:
物体位姿包含相机坐标系下物体的三维平移与三维旋转,在计算机视觉与机器人学中有着广泛应用,如指导机器人抓取与操纵物体,在增强现实中将虚拟内容叠加在真实物体上等。不同于只能应用于已知物体的实例级别位姿估计,[1] 提出的类级别物体位姿估计问题要求对来自已知物体类别、与训练物体存在几何差异的未知测试物body进行九自由度的位姿估计,即估计物body的三维尺寸、三维平移、三维旋转,更适用于实际应用中形状外观各异的真实material。
目前,大部分类级别刚性material位姿估计的大多数工作聚焦于单帧位姿估计,而我们希望能对连续多帧观测进行时序上平滑地追踪这些material,从而更好地服务于增强现实、基于实时反馈的闭环控制等应用。我们提出了首个可以同时应用于刚性material和带关节material,运行在类级别场景下的九自由度 位姿追踪框架。
方法简介:
如上图所示,我们提出了一种新的基于深度点云数据流(Point Cloud Data Flow)的九自由度(9DoF) 位姿追踪算法,该算法能够准确地跟踪具有复杂几何结构和动态变化pose 的object。在我们的方法中,我们使用了一个端到端可微分网络来预测object 的六自由度(6DoF) pose 和三个尺寸参数,以及一个二值分类器来确定object 是否位于image 中。
给定当前帧point cloud data flow 和先前的pose estimate,本文提出的框架通过端到端学习更新pose estimate,并且能够提供高精度、高速度和鲁棒性的结果。在实验部分,我们展示了我们的方法如何在NOCS-REAL275 dataset上的class-level rigid object pose estimation任务以及SAPIEN dataset上的class-level articulated object pose estimation任务上取得了state-of-the-art性能。
结语:
本文提出了一种新颖有效的人工智能系统,该系统可以从3D环境捕获到的点云数据流中识别并跟踪各种类型对象,无论它们是否具有复杂结构或动态变化。本系统不仅能够准确无误地执行其设计功能,而且还能以惊人的速度执行这项任务,这使得它非常适合那些需要快速响应并处理大量信息的人工智能应用程序。此外,该系统还有潜力成为开发者创造更先进人工智能产品的一个基础工具。