标签：多模态模型

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

本文介绍了一种名为Transfusion的新型多模态生成模型，该模型能够同时处理离散数据（如文本或代码）和连续数据（如图像、音频和视频）。Transfusion模型通过...

2周前

摘要：本文深入探讨了多模态模型，特别是视觉语言模型（VLM）的架构、训练流程和部署方案。文章首先回顾了去年年初大型语言模型（LLM）的部署情况，并指出虽...

2个月前

洛桑联邦理工学院（EPFL）和苹果公司的研究者联合开发了一种新型的任意到任意模态单一模型，称为4M-21。这种模型在数十种高度多样化的模态上进行训练，并对大...

2个月前

斯坦福大学发布的Llama3-V多模态模型在开源社区引起了广泛关注，该模型声称仅需500美元即可训练出与GPT-4-V、Gemini Ultra、Claude Opus等性能相当的模型，但...

3个月前

Chameleon的技术挑战在于模型训练，Meta研究团队为此引入了一系列架构创新和训练技术。结果表明，在纯文本任务中，Chameleon的性能与Gemini-Pro相当。在视觉...

4个月前

OpenAI首席执行官Sam Altman在接受红点风险投资公司董事Logan Bartlett专访时，深入讨论了多模态大模型GPT-4o及其未来版本GPT-5。GPT-4o模型能够跨文本、视频...

4个月前

机器之心报道了OpenAI发布的新一代旗舰生成模型GPT-4o，并特别提到了对该项目有重大贡献的Omni团队负责人Prafulla Dhariwal。文章详细介绍了Dhariwal的背景和...

4个月前

摘要：奥特曼在发布会上表扬了GPT-4o关键团队的成员，该团队由17人组成，其中包括6位华人。这些成员分别来自清华、北大、上交、中科大、MIT等知名学府，甚至...

4个月前

微软宣布其与OpenAI合作开发的多模态模型GPT-4o已在Azure OpenAI云服务中可用。GPT-4o能够进行跨文本、视频、音频的多模态推理，如辅导孩子解答数学题或进行...

4个月前