标签:开源模型

第一个100%开源的MoE大模型,7B的参数,1B的推理成本

[预训练数据/自适应/实验评估/负载平衡损失/路由器z损失][模型性能/激活参数/经济选择/指令调优/偏好调优]在机器之心的报道中,我们了解到了大语言模型(LM)...

非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

阿布扎比技术创新研究所(TII)发布了一个名为Falcon Mamba 7B的新型开源Mamba架构模型,该模型自2023年12月首次推出以来,已成为Transformer架构的有力竞争...

Stable Diffusion原班人马新公司官宣!新模型一夜刷新AI绘画格局,已获2.3亿元融资

黑森林实验室(Black Forest Lab)是Stable Diffusion原班人马成立的新公司,由Robin Rombach领导,他也是Stable Diffusion的两个主要作者之一。公司一亮相就...

开源视频模型SV4D,一键创建8角度动态3D视频

Stability.ai 最近开源了一项创新的视频模型 Stable Video 4D(简称“SV4D”),该模型能够将单个视频转换成具有8个不同角度的动态3D视频。使用该模型的方法非...

首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

Llama 3.1版本模型的泄露在Reddit上引起了广泛关注。这个版本不仅包括基础模型,还有8B、70B和405B参数的基准测试结果。在与OpenAI GPT-4o和Llama 3 8B/70B的...

开发者狂喜!Meta最新发布的LLM Compiler,实现77%自动调优效率

Meta公司近期推出了一项创新的人工智能技术——LLM Compiler,旨在帮助程序员更高效地编写代码。这一开源模型通过优化代码,有潜力彻底改变编译器的设计。在自...

开源创新框架MoA,可极大增强大模型的能力

Together AI开源的创新框架Mixture-of-Agents(MoA)在提升大模型生成内容能力和安全性方面取得显著成果,同时降低了对AI算力的需求。在AlpacaEval 2.0等多个...

DeepSeek Coder V2开源发布,首超GPT4-Turbo代码能力

DeepSeek-Coder-V2是由DeepSeek团队推出的一款全球领先的开源代码和数学能力模型,具有236B的总参数量和21B的激活量,其性能在全球多个榜单上排名第二,仅次...

英伟达开源最强通用模型Nemotron-4 340B

英伟达宣布推出Nemotron-4 340B,包含一系列开源模型,开发人员可以使用这些模型生成合成数据,用于训练大语言模型(LLM),适用于医疗健康、金融、制造、零...

阿里Qwen2正式开源,性能全方位包围Llama-3

斯坦福团队的套壳清华大模型事件使得中国模型在全球范围内得到了更多关注,人们开始意识到中国在大模型领域已经取得了显著的进展。阿里云通义千问团队的Qwen2...
12