标签:多模态大模型

李飞飞团队提出ReKep,让机器人具备空间智能,还能整合GPT-4o

[ReKep/机器人操作/约束优化问题/算法实例化/前向模型][关键点提议/ReKep生成/实验验证/操作策略泛化/系统错误分析]李飞飞团队在机器人学习领域取得了重要进...

离散视觉tokenizer

本文深入探讨了离散视觉分词器(tokenizer)在多模态大模型中的关键作用,特别是在图像和文本数据的处理上。离散视觉分词器能够将图像转换成与文本token形式...

Llama也能做图像生成?文生图模型已开源

极市导读:最近,香港大学和字节跳动共同提出了一种名为LlamaGen的图像生成模型,该模型基于自回归模型LLama,首次在ImageNet benchmark上超越了LDM、DiT等扩...

视觉 AI 的「Foundation Model」,已经发展到哪一步?丨CVPR 2024 现场直击

在2024年的IEEE国际计算机视觉与模式识别会议(CVPR)上,视觉Foundation Model成为了核心议题之一,与自动驾驶、3D视觉等传统研究课题并列。AIGC(人工智能...

赋予机器人思考能力!SC-MLLM: 构建自我纠正多模态大模型赋能端到端机器人操作

摘要机器人操作策略在面对新的任务或对象时,表现出不理想的动作表现。因此,具备自动检测和自我纠正失败动作的能力对于一个实用的机器人系统至关重要。最近...

大模型时代的计算机视觉!CVPR 2024线上分享会全日程公布

随着OpenAI发布ChatGPT,大模型和AIGC在技术社区中受到越来越多的关注。为了帮助CV领域从业者快速了解AI的最新科研成果和发展趋势,机器之心计划于2024年6月1...

中国首个Sora级大模型:文本生成16秒,1080p高清视频

在2024年的中关村论坛上,清华大学联合生数科技发布了中国首个长时间、高一致性、高动态性的视频大模型——Vidu。Vidu采用了原创的Diffusion与Transformer融合...

颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑

摘要:颜水成教授团队联合新加坡国立、南洋理工大学共同开源了Vitron模型,这是一个通用视觉多模态大语言模型,支持从视觉理解到视觉生成、从低层次到高层次...

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

步骤2:撰写详细摘要生数科技联合清华大学发布了一款名为「Vidu」的视频大模型,它在视频生成领域取得了显著的进展。该模型能够生成长达16秒的视频片段,并且...

初创团队Reka推出多模态大模型Reka Core,性能比肩GPT4-V

步骤2:撰写详细摘要近日,Reka发布了一款名为Reka Core的前沿多模态大模型,该模型在数千个GPU上经过数月的从头训练而成。Reka Core在关键的行业评估指标上...
12