中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一

AI最新资讯4个月前发布 tree
49 0 0

今日应用


今日话题


中国大模型头名易主:全球盲测榜单上,Yi-LargeGPT-4o中文并列第一
中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一
 

重点标签 大模型竞技零一万物Yi-LargeGPT-4oLMSYS

文章摘要


零一万物的Yi-Large模型在大模型竞技场Chatbot Arena中表现出色
上周,一个名为 “im-also-a-good-gpt2-chatbot” 的神秘模型在大模型竞技场Chatbot Arena中亮相,排名超过多家国际大厂的当家基座模型。随后,OpenAI 揭开了其神秘面纱,证实该模型正是 GPT-4o 的测试版本。Chatbot Arena 由开放研究组织 LMSYS Org 发布,已成为 OpenAI、Anthropic、Google、Meta 等国际大厂竞技的当红擂台,采用开放和科学的评测方法,让群众参与投票。

一周后,中国大模型公司零一万物提交的 “Yi-Large” 千亿参数闭源大模型在最新排名中飞速上升,总榜排名世界模型第 7,中国大模型中第一,已经超过 Llama-3-70B、Claude 3 Sonnet。在中文分榜上,Yi-Large 与 GPT-4o 并列世界第一。零一万物也成为总榜上唯一一个自家模型进入排名前十的中国大模型企业。

LMSYS 还实施了重复数据删除机制,以提高 Chatbot Arena 查询的整体质量,并计划将去除冗余查询后的榜单设为默认。在去除冗余查询后的总榜中,Yi-Large 的 Elo 得分进一步上升,与 Claude 3 Opus、GPT-4-0125-preview 并列第四。LMSYS 中文榜显示 GPT-4o 和 Yi-Large 并列第一。

Yi-Large 在 LMSYS 盲测竞技场的表现亮眼,在编程能力、长提问及最新推出的 “艰难提示词” 的三个评测中均位列全球第二。这些评测以专业性与高难度著称,可称作大模型 “最烧脑” 的公开盲测。

LMSYS Org 是一个开放的研究组织,由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。他们不仅开发大语言模型,还向业内输出多种数据集、评估工具,并开发分布式系统以加速大模型训练和推理。

Chatbot Arena 采用真实用户盲测投票机制,减少偏见影响,避免基于测试集进行刷榜的可能性,增加最终成绩的客观性。它使用 Elo 评分系统来量化模型的表现,进一步优化评分机制,力求公平反应参与者的实力。Elo 评分系统是一项基于统计学原理的权威性评价体系,由 Arpad Elo 博士创立,广泛应用于国际象棋、围棋、足球、篮球、电子竞技等运动中。

Yi-Large 以千亿参数量级紧追国际第一阵营,与海外大厂的旗舰模型处于同一梯队。在当前大模型步入商业应用的浪潮中,模型的实际性能亟需通过具体应用场景的严格考验,以证明其真正的价值和潜力。Chatbot Arena 这样的权威评测平台,能够提供真实用户反馈、采用盲测机制以避免操纵结果、并且能够持续更新评分体系,显得尤为重要。它不仅能够为模型提供公正的评估,还能够通过大规模的用户参与,确保评测结果的真实性和权威性。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...