标签：效率

谁将替代 Transformer？

摘要：本文探讨了Transformer架构在人工智能领域的主导地位及其面临的挑战。自2017年谷歌发表《Attention Is All You Need》以来，Transformer已成为NLP研究...

5个月前

Databricks公司发布了一款1320亿参数的混合专家模型（MoE）DBRX，超越了其他大模型如Llama 2、Mistral和Grok-1。DBRX在语言理解、编程、数学和逻辑等方面的性...

5个月前

SELF-DISCOVER可以引导大语言模型根据一组给定的原子推理模块，自行选择、调整和组合这些模块，形成一个用于解决特定任务的推理结构。这种结构不仅结合了多个...

5个月前