论文笔记 - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition

前言

这篇文章针对的是艺术字体识别领域,为了克服艺术字体识别中存在的问题,作者引入角点Map作为艺术字体的特征表达以提高鲁棒性,并且将角点作为query引入transformer的attention中,使得attention更加精确。同时,作者设计了字符对比loss来学习字符特征,使得同字符的特征能够更加聚集

论文:Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition

代码:https://github.com/xdxie/WordArt
艺术字体效果

背景

艺术字体识别主要面临如下挑战,现有的基于attention的方法无法进行有效定位。

  • 字体外观多变,包括不同字体,艺术效果和形变
  • 字符间有复杂的连接及遮挡

针对上述问题,为了获得更有效的特征表达,作者采取了以下措施

  • 字符内部特征提取:角点作为字符内部特征,相对位置变化较小,且通过角点可以打断字符间连接,因此可以将角点作为query,图片作为key来提取attention
  • 字符特征:通过设计字符对比loss,使同一字符的特征更加聚集
  • 图像整体特征:包含背景的语义及视觉信息

本文框架

Pipeline
框架由以下几个步骤组成:

  1. 角点检测器从图片中检测角点
  2. 分别通过角点map及图片提取特征
  3. 通过Cross-Attention机制将图片特征和corner特征进行融合
  4. 通过Transformer解码器获得输出,并计算Loss

角点检测器

图片角点
如上图所示,虽然艺术字体变化较多,但角点还是还是可以很好的被检测,且角点含有较多的视觉信息,且角点仅包含关键信息,排除了背景干扰,本文使用Shi-Tomasi corner detector作为角点检测器,效果

Transformer Encoder

分别提取图片Xg{X_g}'及角点Map特征MM'后,将角点特征作为query,将图像特征作为value和key,来计算attention

字符对比Loss

将每个batch中的同一字符作为正样例,不同字符作为负样例求对比loss,并和CE Loss组合作为最终Loss

消融实验

作者通过大量消融实验来验证每个创新点的作用,如下所示
角点的有效性:将角点替换为图片,性能会有所下降不同角点检测器的影响调整图片/角点特征融合方式,会降低算法性能

实验结果

在艺术字体数据集以及通用文本识别数据集上,算法都取得了较好的结果
WordArt数据集上的结果通用文本识别数据集上的结果

讨论

通过attention及特征的可视化,可以证明:

  • 角点能使attention更精确
  • 字符对比Loss能让同一字符特征更加聚集

角点能使attention更精确字符对比Loss能让同一字符特征更加聚集字符对比Loss能让同一字符特征更加聚集

局限性

当字体与背景外观较为相似时,算法效果较差