近一年，多模态视觉&语言大模型架构演进汇总梳理

AI最新资讯2个月前发布 tree

18 0 0

今日应用

AI卡通头像生成器

AI卡通头像生成器 - 万能在线编辑器，支持多格式，一键修改、智能抠图、添加水印文字，打造属于您的独特卡通头像！

今日话题

近一年，多模态视觉&语言大模型架构演进汇总梳理

重点标签 多模态学习、视觉-语言模型、模型架构演进、技术综述、前沿技术

文章摘要

多模态学习领域综述：视觉-语言模型架构演进

本文深入探讨了多模态学习领域中视觉-语言模型（LLM）的架构演进，从2022年1月到2024年6月的代表性研究成果进行了精炼总结。文章通过一张图清晰展示了多模态LLM的典型架构，并详细介绍了各个模型的特点和训练过程。

1. BLIP（2022.01发布）：统一视觉-语言理解和生成，使用captioner+filter高效利用互联网有噪数据。模型架构包括Image/text encoder、Image-grounded text encoder和Image-grounded text decoder，采用ITC loss、ITM loss和LM loss进行训练。

2. BLIP-2（2023.01发布）：使用轻量级Q-Former连接视觉-语言模态，通过两阶段训练优化ITC/ITM/LM loss，使用不同的self-attention mask。

3. LLaVA（2023.04发布）：使用仅文本模态的GPT-4生成视觉-语言指令遵循数据，用于微调多模态LLM。模型采用两阶段训练，包括预训练特征对齐和端到端微调。

4. MiniGPT-4（2023.04发布）：在预训练阶段使用image-text pair微调linear projection layer，指令微调阶段关注指令格式。

5. InstructBLIP（2023.05发布）：基于BLIP-2进行预训练，指令微调阶段只微调instruction-aware Q-former。

6. Qwen-VL（2023.08发布）：支持中英双语、多图像输入，采用位置感知的VL adapter和三阶段训练策略。

7. InternLM-XComposer（2023.09发布）：自动在输出文本中插入合适的图片，采用两阶段训练。

8. Fuyu-8B（2023.10发布）：模型架构和训练过程简单，支持任意图像分辨率，推理速度快。

9. LLaVA-1.5（2023.10发布）：使用MLP作为模态连接，突出训练的数据高效性。

10. CogVLM（2023.11发布）：深度视觉-语言模态融合，冻住LLM和ViT，在attention和FFN层训练视觉专家模块。

11. CogAgent（2023.12发布）：针对GUI场景的多模态理解和导引，使用高分辨率-低分辨率双编码器。

12. VILA（2023.12发布）：探索视觉-语言模型训练的设计选择，包括预训练阶段冻住LLM的影响和图文交错的预训练数据的重要性。

13. LLaVA-Next（2024.01发布）：相对于LLaVA-1.5，提高输入图像分辨率，支持多种纵横比，增强视觉推理和OCR能力。

14. InternLM-XComposer2（2024.01发布）：提出新的模态对齐方法partial LoRA，采用两阶段训练策略。

15. Mini-Gemini（2024.03发布）：使用双视觉编码器提取低分辨率embedding作为query，高分辨率特征区域作为key/value，外接图像解码器生成图像。

文章还提供了相关论文的引用链接，以及极市平台的技术专栏和动态，为读者提供了丰富的学习资源和行业信息。通过本文，读者可以全面了解多模态学习领域中视觉-语言模型的架构演进和最新技术趋势。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

近一年，多模态视觉&语言大模型架构演进汇总梳理

今日应用

今日话题

文章摘要

文章来源

英伟达也对 Mamba下手了，视觉 Transformer 与 Mamba 的完美融合！

实践教程 | 轻松入门模型转换和可视化

相关文章

暂无评论

热门网址

热门标签

近一年，多模态视觉&语言大模型架构演进汇总梳理

今日应用

今日话题

文章摘要

文章来源

英伟达也对 Mamba下手了 ，视觉 Transformer 与 Mamba 的完美融合 ！

实践教程 | 轻松入门模型转换和可视化

相关文章

暂无评论

热门网址

热门标签

英伟达也对 Mamba下手了，视觉 Transformer 与 Mamba 的完美融合！