用AI自动设计智能体,数学提分25.9%,远超手工设计

今日应用


今日话题


用AI自动设计智能体,数学提分25.9%,远超手工设计
用AI自动设计智能体,数学提分25.9%,远超手工设计
 

重点标签 智能体系统自动化设计元智能体搜索性能提升跨域迁移

文章摘要


摘要:
智能体系统自动化设计(ADAS)是一个新兴的研究领域,致力于通过自动化方法设计出性能更优的智能体系统。本文介绍了ADAS算法的三个关键组成部分:搜索空间、搜索算法和评估函数。研究者们提出了一种名为元智能体搜索(Meta Agent Search)的算法,该算法能够通过编程发明出新颖而强大的智能体设计。实验结果表明,基于ADAS所发现的智能体在多个任务上的性能均优于现有的手工设计基线,且具有较好的跨域迁移能力。

详细摘要:
智能体系统自动化设计(ADAS):ADAS是一个新兴的研究领域,旨在通过自动化方法设计出性能更优的智能体系统。ADAS算法包括三个关键组成部分:搜索空间、搜索算法和评估函数。搜索空间定义了可以在ADAS中被表征并被发现的智能体系统;搜索算法定义了ADAS算法如何探索搜索空间;评估函数定义了如何评估候选智能体的性能、成本、延迟或安全性等指标。

元智能体搜索(Meta Agent Search):元智能体搜索是ADAS算法的一种实现方式,其核心概念是指示元智能体迭代地创建有趣的新智能体,评估它们,将它们添加到智能体存储库中,并使用此存储库帮助元智能体在后续迭代中创建更有趣的新智能体。元智能体搜索采用基础模型(FM)作为搜索算法,基于不断增长的智能体存储库来迭代编程有趣的新智能体。

实验结果:实验表明,基于ADAS所发现的智能体在多个任务上的性能均优于现有的手工设计基线。例如,在DROP阅读理解任务中,F1分数提高了13.6/100;在MGSM数学任务中,准确率提高了14.4%。此外,跨域迁移后,在GSM8K和GSM-Hard数学任务上的准确率分别比基线提高了25.9%和13.2%。

跨域迁移能力:研究者进一步展示了所发现智能体的可迁移性和可泛化性。在数学领域发现的智能体可以迁移到非数学领域,表现出色。例如,基于Anthropic最强大的模型Claude-Sonnet的智能体在ARC任务上实现了近50%的准确率。

结论:智能体系统的自动化设计(ADAS)展现出了在自动化智能体系统设计方面的潜力。元智能体搜索算法通过编程发明出新颖而强大的智能体设计,证明了自动化方法在设计智能体系统方面的有效性。实验结果和跨域迁移能力表明,ADAS算法能够发现性能更优的智能体,且具有良好的泛化性和可迁移性。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...