CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法

AI最新资讯5个月前发布 tree
90 0 0

今日应用


今日话题


CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法
CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法
 

重点标签 姿态估计6D物体神经隐式合成数据Transformer

文章摘要


方法介绍
FoundationPose是一个统一的大模型,支持6D物体姿态估计和跟踪,适用于新颖物体。它通过神经隐式表示来弥合基于模型和无模型设置之间的差距,允许有效的新视图合成。该框架利用大规模合成训练、LLM、新颖的Transformer架构和对比学习公式,实现了强大的泛化能力。在多个公共数据集上的评估表明,FoundationPose在性能上大幅优于现有的专门方法。

3.1 大语言模型辅助的大规模数据生成
为了实现强大的泛化能力,该研究开发了一个新颖的合成数据生成流程,借助了大规模3D模型数据库、大型语言模型和扩散模型。与之前的方法相比,这种方法显著提高了数据量和多样性。

3.2 神经辐射场物体建模
对于无模型设置,该研究引入了一个以物体为中心的神经场表示来进行物体建模。神经隐式表示对于新颖视图合成和在GPU上可并行化均非常有效。

3.3 姿态假设生成
给定RGBD图像,该研究使用现成方法检测物体,并从中初始化平移和旋转。通过姿态精化网络,预测平移和旋转更新,从而更新输入的粗略姿态。

3.4 最终输出姿态选取
该研究使用分层姿态排名网络计算经过精化的姿态假设的得分。得分最高的姿态被选为最终估计值。

实验和结果
FoundationPose在5个数据集上的评估表明,其在多个具有挑战性场景和物体的数据集上的表现优于现有专门方法。此外,该研究还提交了结果至BOP排行榜并取得了第一名的成绩。

团队介绍
论文一作华人温伯文博士,任英伟达研究院研究员。他的研究方向为机器人感知和3D视觉,此前曾在谷歌X、Facebook Reality Labs、亚马逊和商汤实习,获得过RSS最佳论文奖提名。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...