标签:迭代过程

关于post-training和一些思考

摘要:本文深入分析了大模型技术报告中的后训练(post-training)环节,特别是开源大模型Llama3.1的相关技术细节。文章首先指出,尽管学界普遍认为PPO(Proxima...

吴恩达:AI智能体工作流今年将有巨大进展,可能超过下一代基础模型

Cognition AI团队发布的首个AI软件工程师Devin最近在社交媒体上引起了广泛关注。吴恩达的团队发现,在智能体循环(agent loop)中,GPT-3.5的正确率高达95.1%...