标签：开源模型

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

[预训练数据/自适应/实验评估/负载平衡损失/路由器z损失][模型性能/激活参数/经济选择/指令调优/偏好调优]在机器之心的报道中，我们了解到了大语言模型（LM）...

2天前

阿布扎比技术创新研究所（TII）发布了一个名为Falcon Mamba 7B的新型开源Mamba架构模型，该模型自2023年12月首次推出以来，已成为Transformer架构的有力竞争...

4周前

黑森林实验室（Black Forest Lab）是Stable Diffusion原班人马成立的新公司，由Robin Rombach领导，他也是Stable Diffusion的两个主要作者之一。公司一亮相就...

1个月前

Stability.ai 最近开源了一项创新的视频模型 Stable Video 4D（简称“SV4D”），该模型能够将单个视频转换成具有8个不同角度的动态3D视频。使用该模型的方法非...

1个月前

Llama 3.1版本模型的泄露在Reddit上引起了广泛关注。这个版本不仅包括基础模型，还有8B、70B和405B参数的基准测试结果。在与OpenAI GPT-4o和Llama 3 8B/70B的...

1个月前

Meta公司近期推出了一项创新的人工智能技术——LLM Compiler，旨在帮助程序员更高效地编写代码。这一开源模型通过优化代码，有潜力彻底改变编译器的设计。在自...

2个月前

Together AI开源的创新框架Mixture-of-Agents（MoA）在提升大模型生成内容能力和安全性方面取得显著成果，同时降低了对AI算力的需求。在AlpacaEval 2.0等多个...

2个月前

DeepSeek-Coder-V2是由DeepSeek团队推出的一款全球领先的开源代码和数学能力模型，具有236B的总参数量和21B的激活量，其性能在全球多个榜单上排名第二，仅次...

3个月前

英伟达宣布推出Nemotron-4 340B，包含一系列开源模型，开发人员可以使用这些模型生成合成数据，用于训练大语言模型（LLM），适用于医疗健康、金融、制造、零...

3个月前

斯坦福团队的套壳清华大模型事件使得中国模型在全球范围内得到了更多关注，人们开始意识到中国在大模型领域已经取得了显著的进展。阿里云通义千问团队的Qwen2...

3个月前