标签：多模态大模型

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o

[ReKep/机器人操作/约束优化问题/算法实例化/前向模型][关键点提议/ReKep生成/实验验证/操作策略泛化/系统错误分析]李飞飞团队在机器人学习领域取得了重要进...

5天前

本文深入探讨了离散视觉分词器（tokenizer）在多模态大模型中的关键作用，特别是在图像和文本数据的处理上。离散视觉分词器能够将图像转换成与文本token形式...

1个月前

极市导读：最近，香港大学和字节跳动共同提出了一种名为LlamaGen的图像生成模型，该模型基于自回归模型LLama，首次在ImageNet benchmark上超越了LDM、DiT等扩...

2个月前

在2024年的IEEE国际计算机视觉与模式识别会议（CVPR）上，视觉Foundation Model成为了核心议题之一，与自动驾驶、3D视觉等传统研究课题并列。AIGC（人工智能...

2个月前

摘要机器人操作策略在面对新的任务或对象时，表现出不理想的动作表现。因此，具备自动检测和自我纠正失败动作的能力对于一个实用的机器人系统至关重要。最近...

3个月前

随着OpenAI发布ChatGPT，大模型和AIGC在技术社区中受到越来越多的关注。为了帮助CV领域从业者快速了解AI的最新科研成果和发展趋势，机器之心计划于2024年6月1...

3个月前

在2024年的中关村论坛上，清华大学联合生数科技发布了中国首个长时间、高一致性、高动态性的视频大模型——Vidu。Vidu采用了原创的Diffusion与Transformer融合...

4个月前

摘要：颜水成教授团队联合新加坡国立、南洋理工大学共同开源了Vitron模型，这是一个通用视觉多模态大语言模型，支持从视觉理解到视觉生成、从低层次到高层次...

4个月前

步骤2：撰写详细摘要生数科技联合清华大学发布了一款名为「Vidu」的视频大模型，它在视频生成领域取得了显著的进展。该模型能够生成长达16秒的视频片段，并且...

4个月前

步骤2：撰写详细摘要近日，Reka发布了一款名为Reka Core的前沿多模态大模型，该模型在数千个GPU上经过数月的从头训练而成。Reka Core在关键的行业评估指标上...

5个月前