标签:基准测试

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

[AI模型/基准测试/Hugging Face/GPU服务/逻辑题][AI写作助手/Glaive公司/高质量数据/AI开发][Otherside AI/HyperWrite/Chrome插件/AI驱动功能]

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

在探讨大型语言模型(LLM)的数学推理能力时,菲尔兹奖得主Timothy Gowers对GPT-4o进行了一项测试,以解决经典的“狼-山羊-卷心菜”过河问题。结果显示,即使是...

谷歌开源Gemma-2:参数小,同类性能最佳之一

谷歌在官网宣布开源其最新的大型语言模型Gemma 2,专为研究和开发人员设计。该模型有两种参数规模:9B和27B,相较于上一代,性能显著提升,同时部署要求降低...

开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有

Databricks公司发布了一款1320亿参数的混合专家模型(MoE)DBRX,超越了其他大模型如Llama 2、Mistral和Grok-1。DBRX在语言理解、编程、数学和逻辑等方面的性...