文章资讯

通用文档理解新SOTA，多模态大模型TextMonkey来了

TextMonkey 是由华中科技大学和金山的研究人员基于 Monkey [1]（Li et al., CVPR2024）工作提出的，专注于文本相关任务的多模态大模型（LMM）。TextMonkey 在...

6个月前

PreFLMR模型是一个基于NeurIPS 2023的FLMR模型改进而来的多模态知识检索器。它能够处理文文检索、图文检索和知识检索等任务，通过在M2KR上进行大规模预训练，...

6个月前

研究背景文章首先分析了人们对下一个token预测的反对意见，指出这种预测方式可能无法捕捉到人类语言的真正目的。尽管每个token序列的分布都可以通过链式规...

6个月前

...

6个月前

PointMamba: A Simple State Space Model for Point Cloud Analysis 是一种新颖的点云分析工具，通过高效的全局建模能力和简洁的模型结构，在3D视觉任务中展...

6个月前

TextMonkey模型概述：TextMonkey是基于Monkey模型的改进版，由华中科技大学和金山的研究人员共同提出。该模型专注于文本相关任务，如文档问答和场景文本问答...

6个月前

摘要：本文研究了放大Transformer模型时遇到的训练不稳定性问题，并提出了研究和预测这些不稳定性的方法。作者指出，尽管扩展Transformer模型已在多个领域取...

6个月前

摘要：Mora 是一个由理海大学和微软研究院提出的多智能体框架，旨在复制 OpenAI 的 Sora 视频生成模型的能力。Mora 通过整合多个视觉 AI 智能体，成功模仿了 ...

6个月前

OpenAI 计划下周在洛杉矶与好莱坞电影公司和媒体高管会面，探讨在娱乐行业建立合作伙伴关系，推广其新的人工智能视频生成器 Sora。Sora 可以根据文本提示生成...

6个月前

文章还提到，Neuralink由马斯克在2016年创立，致力于开发植入式脑机接口，以从大脑信号中解码运动意图。Neuralink已在老鼠、猪和猴子的大脑上植入过脑机接口...

6个月前