OCR研究不曾结束，它才刚刚开始——GOT-OCR-2.0模型开源！

AI最新资讯6天前发布 tree

3 0 0

今日应用

AI-论文高质量论文写作

写论文，仅需3步，5分钟搞定！写论文就是这么快捷！论文质量有保障，知网论文查重率为10%左右，超过15%可联系客服退款！

今日话题

OCR研究不曾结束，它才刚刚开始——GOT-OCR-2.0模型开源！

重点标签 OCR-2.0、GOT模型、多模态、数据渲染、OCR技术

文章摘要

本文介绍了一种名为OCR-2.0的通用光学字符识别（OCR）模型，即GOT，它旨在克服传统OCR系统和大型多模态模型在纯OCR任务上的局限性。GOT模型支持多种OCR任务，并能够输出普通文本和格式化文本，如Markdown。模型结构包括视觉编码器、输入嵌入层和解码器，采用分步训练方法，不依赖于大型语言模型（LLM）对齐阶段。GOT在数据工程方面面临挑战，需要使用多种数据渲染工具来构建多样化的数据。尽管GOT模型在多语言支持、复杂几何图形和图表OCR性能方面存在局限，但作者希望通过开源GOT模型吸引更多研究者参与OCR-2.0的研究，并推动OCR技术的发展。

极市导读：本文提出了通用或广义OCR（OCR-2.0）的概念，并设计开源了第一个起步OCR-2.0模型GOT。GOT模型旨在解决传统OCR系统和大型多模态模型在纯OCR任务上的不足，通过支持多种OCR任务和输出格式，提高OCR技术的通用性和实用性。

GOT模型：GOT模型的输入输出设计通用，能够处理各种OCR任务，并支持普通文本和格式化文本（如Markdown）的输出。模型结构包括视觉编码器、输入嵌入层和解码器，采用分步训练方法，不依赖于大型语言模型（LLM）对齐阶段。训练过程分为三个阶段：高效预训练编码器、联合训练编码器-解码器、锁定编码器并加强解码器以适应更多OCR应用场景。

数据工程：GOT模型在数据工程方面面临挑战，需要使用多种数据渲染工具（如Latex、Mathpix-markdown-it、Matplotlib、Tikz、Verovio、Pyecharts等）来构建多样化的数据。

结果可视化：GOT模型的输出可视化效果展示了其在PDF图像转Markdown、双栏文本感知、自然场景和细粒度OCR、动态分辨率OCR、多页OCR以及更多符号的OCR等方面的能力。

总结：尽管GOT模型在多语言支持、复杂几何图形和图表OCR性能方面存在局限，但作者希望通过开源GOT模型吸引更多研究者参与OCR-2.0的研究，推动OCR技术的发展。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

OCR研究不曾结束，它才刚刚开始——GOT-OCR-2.0模型开源！

今日应用

今日话题

文章摘要

文章来源

参数量减少40倍，推理速度提高6倍！UV-Mamba：结合变形卷积的网络如何克服SSM的内存问题？

你的赛博朋友上线！变现快、门槛低，AI陪伴类应用真的能理解人类情感吗？

相关文章

暂无评论

热门网址

热门标签