​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接

今日应用


今日话题


Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接
​Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接
 

重点标签 MistralPixtral 12B多模态模型AI技术端侧AI

文章摘要


Mistral 团队发布了名为 Pixtral 12B 的多模态大模型,参数量为 12B。该模型具备视觉编码器,支持 1024×1024 大小的图像,有 24 个隐藏层,层数为 40、隐藏维度大小为 14,336,注意力头有 32 个。Pixtral 12B 的词汇库有 131,072 个不同的 token,能实现非常细腻的语言理解和生成。该模型至少有能力处理文本和图像数据,实现多模态处理。

Pixtral 12B 性能指标

Pixtral 12B 支持任意大小的图像和 128k 的上下文窗口,也能处理同时包含文本和图像的大型文档。在性能上,Pixtral 12B 虽不及 GPT-4o 和 Claude-3.5 Sonnet,但在各基准上全面胜过了 Claude-3 Haiku 和 Gemini-1.5 8B。在开放多模态模型中,Pixtral 在大多数基准上都表现最佳,仅在 DocVQA 上略低于 Qwen2 7B。

Pixtral 12B 应用案例

Pixtral 12B 能通过 OCR 将包含数学公式的科学文章图片转录成 Markdown 格式,识别潦草的手写内容,提取图片信息和描述图像内容。此外,Pixtral 还能理解更加复杂的图像,并从中提取出关键信息和见解。Pixtral 也具备非常出色的解释和推理能力,在 MMMU 和 MathVista 上的多模态知识和推理性能均领先其它参与对比的模型。

Mistral 的愿景

Mistral 旨在简化用户的使用流程,降低用户的使用成本,将复杂的技术部分都整合进 La Platforme,让用户只需进行简单的配置就能享受 AI 带来的便利和效率。Mistral 的模型矩阵中已经包含了用于通用任务和科研任务的多种免费模型,包括支持 80 多种编程语言的 Codestral 模型。

Mistral AI 简介

Mistral AI 是一家法国人工智能初创公司,成立于 2023 年 5 月。该公司在 AI 领域以开发高质量的大模型而闻名,其 Twitter 虽有 10 万关注者却并未关注任何一个人,其 CEO Arthur Mensch 的个人账户也毫不活跃。Mistral AI 曾在 2023 年 6 月获得了创纪录的 1.18 亿美元种子轮融资,是欧洲历史上最大的种子轮融资之一。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...