ECCV2024|上交推出 PosFormer!优化位置识别任务来辅助表达式识别,复杂公式识别能力再创新SOTA!

今日应用


今日话题


ECCV2024|上交推出 PosFormer!优化位置识别任务来辅助表达式识别,复杂公式识别能力再创新SOTA!
ECCV2024|上交推出 PosFormer!优化位置识别任务来辅助表达式识别,复杂公式识别能力再创新SOTA!
 

重点标签 PosFormer手写数学表达式识别位置森林变换器深度学习计算机视觉

文章摘要


本文介绍了上海交大在ECCV 2024上发表的论文PosFormer,这是一种新型的位置森林变换器,用于识别复杂的手写数学表达式。手写数学表达式识别(HMER)是一项将表达式图像转换为LaTeX序列的任务,具有广泛的应用场景,如在线教育、手稿数字化和自动评分等。然而,现有的识别方法在处理复杂和嵌套的数学表达式时存在一定的局限性。

PosFormer的核心是位置森林变换器,它由DenseNet、位置森林和表达式识别头组成。DenseNet用于提取图像的二维视觉特征,然后通过Transformer解码器获取符号特征。位置森林则用于识别LaTeX表达式,并优化位置感知的符号级特征表示学习。此外,PosFormer还引入了隐式注意力校正(IAC)技术,以解决解码结构符号时的覆盖问题。

在实验部分,PosFormer在多个数据集上进行了测试,包括单行数据集CROHME、大规模单行数据集HME100k和多行手写数学表达式数据集M2E。实验结果表明,PosFormer在没有使用数据增强的情况下,与其他先进方法相比具有显著的性能提升。此外,消融实验也证明了位置森林和隐式注意力校正两个组件对性能的显著贡献。

PosFormer的提出为手写数学表达式识别领域带来了一种全新的视角,通过显式建模表达式的位置关系,提高了模型的鲁棒性和准确性。这一方法不仅在理论上具有创新性,而且在实际应用中也展现出了巨大的潜力。随着深度学习技术的不断发展,我们期待PosFormer能够在手写数学表达式识别领域取得更多的突破。

技术专栏:提供了多模态大模型、Transformer系列、ICCV2023论文解读等技术专栏,帮助读者深入了解相关技术。
极视角动态:介绍了极视角2023年教育部产学合作协同育人项目,以及无人机+AI在道路智能巡检中的应用。
技术综述:包括Neural ODE和Transformer的详细解析,为读者提供了深入的技术知识。
点击阅读原文:进入CV社区,获取更多的技术干货和交流机会。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...