文章资讯

通用文档理解新SOTA,多模态大模型TextMonkey来了

TextMonkey 是由华中科技大学和金山的研究人员基于 Monkey [1](Li et al., CVPR2024)工作提出的,专注于文本相关任务的多模态大模型(LMM)。TextMonkey 在...

剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器

PreFLMR模型是一个基于NeurIPS 2023的FLMR模型改进而来的多模态知识检索器。它能够处理文文检索、图文检索和知识检索等任务,通过在M2KR上进行大规模预训练,...

讨论下一个token预测时,我们可能正在走进陷阱

研究背景 文章首先分析了人们对下一个token预测的反对意见,指出这种预测方式可能无法捕捉到人类语言的真正目的。尽管每个token序列的分布都可以通过链式规...

PointMamba: 点云分析的简单状态空间模型

PointMamba: A Simple State Space Model for Point Cloud Analysis 是一种新颖的点云分析工具,通过高效的全局建模能力和简洁的模型结构,在3D视觉任务中展...

向通用文字识别迈出坚实的一步!华科&金山办公推出多模态大模型TextMonkey

TextMonkey模型概述:TextMonkey是基于Monkey模型的改进版,由华中科技大学和金山的研究人员共同提出。该模型专注于文本相关任务,如文档问答和场景文本问答...

ICLR2024 oral:小尺度Transformer如何Scale Up

摘要:本文研究了放大Transformer模型时遇到的训练不稳定性问题,并提出了研究和预测这些不稳定性的方法。作者指出,尽管扩展Transformer模型已在多个领域取...

复刻Sora的通用视频生成能力,开源多智能体框架Mora来了

摘要:Mora 是一个由理海大学和微软研究院提出的多智能体框架,旨在复制 OpenAI 的 Sora 视频生成模型的能力。Mora 通过整合多个视觉 AI 智能体,成功模仿了 ...

OpenAI进军好莱坞:电影制作用Sora指日可待

OpenAI 计划下周在洛杉矶与好莱坞电影公司和媒体高管会面,探讨在娱乐行业建立合作伙伴关系,推广其新的人工智能视频生成器 Sora。Sora 可以根据文本提示生成...

成为网红,马斯克Neuralink脑机接口植入者上线表演意念发帖

文章还提到,Neuralink由马斯克在2016年创立,致力于开发植入式脑机接口,以从大脑信号中解码运动意图。Neuralink已在老鼠、猪和猴子的大脑上植入过脑机接口...