赋予机器人思考能力!SC-MLLM: 构建自我纠正多模态大模型赋能端到端机器人操作

AI最新资讯3个月前发布 tree
35 0 0

今日应用


今日话题


赋予机器人思考能力!SC-MLLM: 构建自我纠正多模态大模型赋能端到端机器人操作
赋予机器人思考能力!SC-MLLM: 构建自我纠正多模态大模型赋能端到端机器人操作
 

重点标签 SC-MLLM自纠正多模态大模型机器人操纵闭环自纠正

文章摘要


摘要

机器人操作策略在面对新的任务或对象时,表现出不理想的动作表现。因此,具备自动检测和自我纠正失败动作的能力对于一个实用的机器人系统至关重要。最近,多模态大模型(MLLMs)在视觉指令执行方面表现出色,并在各种任务中展示了强大的推理能力。

为了将通用的MLLMs作为端到端的机器人代理,我们引入了一个自我纠正SC-MLLM,使我们的模型不仅能够预测末端执行器的姿态,还能自主识别和纠正失败的动作。具体来说,我们首先进行参数高效的微调,以赋予MLLM操纵位姿预测能力,将其重新定义为语言建模问题。当面对执行失败时,我们的模型学会识别低级别动作错误的原因(即接触点和旋转预测错误),并自适应地从专家那里寻求提示反馈。基于反馈,SC-MLLM重新思考当前的失败场景并生成纠正后的动作。此外,我们设计了一种持续的策略学习方法,针对成功纠正的样本,提高模型对当前场景配置的适应性,减少专家干预的频率。

为了评估我们的SC-MLLM,我们在仿真和现实环境中进行了广泛的实验。与之前的最先进的机器人MLLM(ManipLLM)相比,SC-MLLM代理显著提高了操作准确性,在已见过的对象类别上的准确率从57%提升到79%,在未见过的新对象类别上的准确率从47%提升到69%。

研究意义

为了赋予机器人大脑,使其可以模仿人类的思维方式,本文将我们提出的自我纠正多模态大模型(SC-MLLM)构建成类人思维方式的快系统1和慢系统2。心理学中的系统1和系统2是由心理学家丹尼尔·卡尼曼(Daniel Kahneman)和阿莫斯·特沃斯基(Amos Tversky)提出的两个思维系统,用于描述人类思维和决策过程的不同方式。系统1用于处理日常生活中的大部分决策和判断。它依靠直觉和经验进行快速反应,不需要耗费太多的心理资源。系统2用于处理复杂和需要深思熟虑的决策和判断。它依靠逻辑和分析来做出决定,通常需要更多的时间和心理资源。因此,我们将SC-MLLM中直接进行操纵位姿预测比作快系统1。当发生错误操纵时,我们把SC-MLLM中的自纠正过程比作慢系统2。最后,通过持续性策略学习将慢系统2中的操纵知识逐渐迁移到快系统1中,提升系统1的操纵稳定性。

同时,我们的端到端 SC-MLLM 代理可以在每个应用场景中多次使用,不断提高模型位姿预测的准确性。例如,在家具设置中,场景环境和操作对象在不同用户之间有所不同。在获得基本操作能力后,我们的 SC-MLLM 可以在每个用户的家中进行重复的闭环校正和持续性策略学习会话。这个过程可以高效地为每个用户提供定制的、高精度的操作策略模型,而不是共享的、低准确性的策略模型。

研究背景

最近,多模态大模型(MLLMs)在视觉指令执行和常识推理方面展示了显著的能力。一些研究将MLLMs整合到机器人操作中,使机器人能够探索多模态信息并制定任务计划。同时,其他研究人员则专注于开发能够直接预测机器人低级动作轨迹的MLLMs。

尽管将多模态大模型整合到机器人领域已经显示出很有前景的进展,但当前的模型在面对新任务或对象实例时仍然容易出现大量失败预测。现有方法缺乏在闭环控制过程中自动检测和自我纠正失败动作的能力。这一限制显著影响了其在现实世界环境中的实用性,而现实世界中充满了不确定性和意外障碍。

认识到自我纠正在机器人操作中的关键作用,最近的研究提出了一些解决方案。REFLECT通过利用LLMs生成故障解释并帮助基于语言的规划器纠正错误而脱颖而出。在此创新的基础上,后续研究更深入地探讨了LLMs在机器人纠正能力方面的应用,纠正了高级任务规划和低级技能。然而,现有的机器人纠正方法仍面临两个主要挑战。

**1) 缺乏纠正低级操纵位姿预测的能力[SC-MLLM/自纠正/多模态大模型/机器人操纵/闭环自纠正]

摘要

本文介绍了一种面向机器人操纵的自纠正多模态大模型(SC-MLLM),该模型能够预测机械臂的操纵位姿,并自主识别和纠正失败的操作动作。SC-MLLM通过参数高效的微调,将操纵位姿预测问题转化为语言建模问题。在执行失败时,模型能够识别动作错误的低级别原因,并自适应地寻求专家反馈以生成纠正后的动作。此外,SC-MLLM还设计了一种持续的策略学习方法,以提高模型对当前场景配置的适应性,减少专家干预的频率。在仿真和现实环境中的广泛实验表明,SC-MLLM在已见过的对象类别上的准确率从57%提升到79%,在未见过的新对象类别上的准确率从47%提升到69%。

研究意义

SC-MLLM的提出旨在赋予机器人类似人类的思维方式,通过构建类人思维方式的快系统1和慢系统2。快系统1负责日常决策和判断,而慢系统2处理复杂和需要深思熟虑的决策。SC-MLLM的直接操纵位姿预测类似于快系统1,而自纠正过程则类似于慢系统2。通过持续性策略学习,慢系统2中的操纵知识逐渐迁移到快系统1中,提升系统的操纵稳定性。此外,SC-MLLM代理可以在每个应用场景中多次使用,不断提高模型位姿预测的准确性,为用户提供定制的、高精度的操作策略模型。

研究背景

多模态大模型(MLLMs)在视觉指令执行和常识推理方面展现出显著能力,被整合到机器人操作中,使机器人能够探索多模态信息并制定任务计划。然而,现有模型在面对新任务或对象实例时容易出现失败预测,缺乏自动检测和自我纠正失败动作的能力。现有方法的这一限制显著影响了其在现实世界环境中的实用性。

闭环自纠正过程

SC-MLLM的闭环自纠正过程包括三个步骤:1) 将操纵位姿预测重新定义为语言建模问题;2) 利用终止状态图像和末端执行器参数进行错误识别,并自动化地请求专家提供及时反馈以生成纠正后的操纵位姿;3) 从成功纠正的样本中不断学习策略,提高模型对当前场景配置的适应性。

自纠正多模态大模型(SC-MLLM)

SC-MLLM采用LLaMA-Adapter V2作为基础的多模态大模型,通过CLIP视觉编码器提取视觉特征,并使用预训练的LLaMA分词器对文本提示进行编码。模型结构设计包括操纵位姿预测、错误检测和纠正、专家提示反馈机制以及持续性策略学习。SC-MLLM在定量实验中与四个代表性基线模型进行比较,表现出色,能够有效地纠正失败动作,从成功纠正的样本中学习,并提高对未见对象的泛化能力。

定性结果

SC-MLLM在SAPIEN模拟器和真实世界中的定性可视化展示表明,模型能够在实际世界中准确预测接触点和3D方向,对于许多真实世界中的物体,可以直接预测精确的动作姿势,并且只在失败情况下执行校正方案。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...