标签:效率

谁将替代 Transformer?

摘要:本文探讨了Transformer架构在人工智能领域的主导地位及其面临的挑战。自2017年谷歌发表《Attention Is All You Need》以来,Transformer已成为NLP研究...

开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有

Databricks公司发布了一款1320亿参数的混合专家模型(MoE)DBRX,超越了其他大模型如Llama 2、Mistral和Grok-1。DBRX在语言理解、编程、数学和逻辑等方面的性...

谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力

SELF-DISCOVER可以引导大语言模型根据一组给定的原子推理模块,自行选择、调整和组合这些模块,形成一个用于解决特定任务的推理结构。这种结构不仅结合了多个...