0%

论文笔记 - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition

Posted on 2022-08-30 Edited on 2022-09-28 In 论文笔记 Views:

前言

这篇文章针对的是艺术字体识别领域，为了克服艺术字体识别中存在的问题，作者引入角点Map作为艺术字体的特征表达以提高鲁棒性，并且将角点作为query引入transformer的attention中，使得attention更加精确。同时，作者设计了字符对比loss来学习字符特征，使得同字符的特征能够更加聚集

论文：Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition

代码：https://github.com/xdxie/WordArt
艺术字体效果

背景

艺术字体识别主要面临如下挑战，现有的基于attention的方法无法进行有效定位。

字体外观多变，包括不同字体，艺术效果和形变
字符间有复杂的连接及遮挡

针对上述问题，为了获得更有效的特征表达，作者采取了以下措施

字符内部特征提取：角点作为字符内部特征，相对位置变化较小，且通过角点可以打断字符间连接，因此可以将角点作为query，图片作为key来提取attention
字符特征：通过设计字符对比loss，使同一字符的特征更加聚集
图像整体特征：包含背景的语义及视觉信息

本文框架

Pipeline
框架由以下几个步骤组成：

角点检测器从图片中检测角点
分别通过角点map及图片提取特征
通过Cross-Attention机制将图片特征和corner特征进行融合
通过Transformer解码器获得输出，并计算Loss

角点检测器

图片角点
如上图所示，虽然艺术字体变化较多，但角点还是还是可以很好的被检测，且角点含有较多的视觉信息，且角点仅包含关键信息，排除了背景干扰，本文使用Shi-Tomasi corner detector作为角点检测器，效果

Transformer Encoder

分别提取图片${X_g}’$及角点Map特征$M’$后，将角点特征作为query，将图像特征作为value和key，来计算attention

字符对比Loss

将每个batch中的同一字符作为正样例，不同字符作为负样例求对比loss，并和CE Loss组合作为最终Loss

消融实验

作者通过大量消融实验来验证每个创新点的作用，如下所示
角点的有效性：将角点替换为图片，性能会有所下降不同角点检测器的影响调整图片/角点特征融合方式，会降低算法性能

实验结果

在艺术字体数据集以及通用文本识别数据集上，算法都取得了较好的结果
WordArt数据集上的结果通用文本识别数据集上的结果

讨论

通过attention及特征的可视化，可以证明：

角点能使attention更精确
字符对比Loss能让同一字符特征更加聚集

角点能使attention更精确字符对比Loss能让同一字符特征更加聚集

局限性

当字体与背景外观较为相似时，算法效果较差