视觉 AI 的「Foundation Model」，已经发展到哪一步？丨CVPR 2024 现场直击

AI最新资讯2个月前发布 tree

33 0 0

今日应用

文心一言

百度文心一言：利用尖端自然语言处理与机器学习技术，为您提供个性化的写作建议、文本优化及智能内容推荐，助力您提升写作效率和内容创作质量。

今日话题

视觉 AI 的「Foundation Model」，已经发展到哪一步？丨CVPR 2024 现场直击

重点标签 视觉Foundation Model、AIGC、自动驾驶、端侧AI、多模态大模型

文章摘要

在2024年的IEEE国际计算机视觉与模式识别会议（CVPR）上，视觉Foundation Model成为了核心议题之一，与自动驾驶、3D视觉等传统研究课题并列。AIGC（人工智能生成内容）技术在图像和视频合成与生成领域取得了显著进展，两篇最佳论文均颁给了AIGC相关研究。同时，多模态大模型在视觉领域的应用也受到了广泛关注。

视觉Foundation Model的研究正在借鉴OpenAI的路线，聚焦于预测下一个visual token和扩大算力规模等方面。研究者们认为，AI已经从开放的研究问题转变为实际的工业生产线，目标转向了数据和算力的获取。多模态成为视觉基础模型研究的热点，但视觉与语言两派的合作尚未有效建立。

上海人工智能实验室的OpenGVLab展示了其最新的视觉多模态基础模型研究成果InternVL-1.5，该模型在视觉编码器、分辨率和双语数据集方面表现出色。InternVL-26B的研究始于2023年3月，旨在构建一个支持多模态任务的基础模型，如图文检索等。

自动驾驶在CVPR上占据了重要位置，特别是将语言大模型应用于自动驾驶场景中。研究者们正在探索如何将大模型集成到自动驾驶系统中，以提高对环境的理解、预测和安全性。CVPR 2024自动驾驶国际挑战赛吸引了全球近500支队伍参赛，英伟达联合复旦大学的团队获得了端到端自动驾驶赛道的冠军。

苹果公司在CVPR上展示了其在多模态大模型预训练方面的最新研究进展。通过构建大模型MM1，苹果探讨了如何获取高质量的预训练数据，并分析了不同数据类型对模型性能的影响。

总体来看，CVPR 2024展示了计算机视觉领域的最新技术进展，特别是在视觉Foundation Model、AIGC、自动驾驶和多模态大模型等方面的研究成果。随着AI技术的不断发展，这些领域的研究将继续推动计算机视觉的创新和应用。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

视觉 AI 的「Foundation Model」，已经发展到哪一步？丨CVPR 2024 现场直击

今日应用

今日话题

文章摘要

文章来源

何恺明新工作！加入MIT的首篇论文！打破自回归图像生成瓶颈，奥赛金牌得主参与！

谷歌推出创新方法：通过自然文本提示，快速训练视觉模型

相关文章

暂无评论

热门网址

热门标签