OCR研究不曾结束,它才刚刚开始——GOT-OCR-2.0模型开源!

今日应用


今日话题


OCR研究不曾结束,它才刚刚开始——GOT-OCR-2.0模型开源!
OCR研究不曾结束,它才刚刚开始——GOT-OCR-2.0模型开源!
 

重点标签 OCR-2.0GOT模型多模态数据渲染OCR技术

文章摘要


本文介绍了一种名为OCR-2.0的通用光学字符识别(OCR)模型,即GOT,它旨在克服传统OCR系统和大型多模态模型在纯OCR任务上的局限性。GOT模型支持多种OCR任务,并能够输出普通文本和格式化文本,如Markdown。模型结构包括视觉编码器、输入嵌入层和解码器,采用分步训练方法,不依赖于大型语言模型(LLM)对齐阶段。GOT在数据工程方面面临挑战,需要使用多种数据渲染工具来构建多样化的数据。尽管GOT模型在多语言支持、复杂几何图形和图表OCR性能方面存在局限,但作者希望通过开源GOT模型吸引更多研究者参与OCR-2.0的研究,并推动OCR技术的发展。

极市导读:本文提出了通用或广义OCR(OCR-2.0)的概念,并设计开源了第一个起步OCR-2.0模型GOT。GOT模型旨在解决传统OCR系统和大型多模态模型在纯OCR任务上的不足,通过支持多种OCR任务和输出格式,提高OCR技术的通用性和实用性。

GOT模型:GOT模型的输入输出设计通用,能够处理各种OCR任务,并支持普通文本和格式化文本(如Markdown)的输出。模型结构包括视觉编码器、输入嵌入层和解码器,采用分步训练方法,不依赖于大型语言模型(LLM)对齐阶段。训练过程分为三个阶段:高效预训练编码器、联合训练编码器-解码器、锁定编码器并加强解码器以适应更多OCR应用场景。

数据工程:GOT模型在数据工程方面面临挑战,需要使用多种数据渲染工具(如Latex、Mathpix-markdown-it、Matplotlib、Tikz、Verovio、Pyecharts等)来构建多样化的数据。

结果可视化:GOT模型的输出可视化效果展示了其在PDF图像转Markdown、双栏文本感知、自然场景和细粒度OCR、动态分辨率OCR、多页OCR以及更多符号的OCR等方面的能力。

总结:尽管GOT模型在多语言支持、复杂几何图形和图表OCR性能方面存在局限,但作者希望通过开源GOT模型吸引更多研究者参与OCR-2.0的研究,推动OCR技术的发展。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...