论文笔记 - You Can even Annotate Text with Voice:Transcription-only-Supervised Text Spotting

Posted on 2022-10-16 In 论文笔记 Views:

前言

这篇论文是第一篇只使用文本标注进行训练的text spotting算法，该方法使用transformer来学习文本query和图片特征的交互，来隐式学习文本位置的相关信息，然后在文本识别的过程中，通过attention map的形式显式地表现出来，为了提高定位精度，本文还提出了一种由粗到精的注意力定位机制。为了帮助模型快速收敛，本文提出了一种循环分阶段式的学习策略。此外，本文提出了一种通过语音进行文本标注的方式，来降低标注文本所需要的时间。

论文：You Can even Annotate Text with Voice:Transcription-only-Supervised Text Spotting

背景

传统的text spotting方法对文本的位置信息依赖较为严重，需要将其作为监督信息训练检测网络，同时需要进行特征crop来训练识别网络，但位置信息标注耗费时间较长，严重制约了文本数据的数量。受到image caption领域的启发，本文将text spotting算法作为image caption问题进行考虑，提出了一种仅依赖文本标注信息进行训练的弱监督训练算法TOSS，本文的贡献如下：

首次提出不依赖文本位置作为监督信息的text spotting算法，该方法仅依靠文本queries和图片特征的交互即可完成文本识别
提出了一种循环分阶段训练策略帮助模型快速收敛
提出了一种由粗到精的定位方式，从而可以在文本位置标注信息确实的情况下尽量精确的定位文本
提出了一种通过语音标注数据完成text spot的解决方案

框架

Pipeline

基于query的cross-attention机制

使用的是标准的transformer结构，由4个8头的transformer block构成，$Q$为随机初始化的$N_q$个text quries，维度为$d$，$K$和$V$都为图片embedding，为图片经过backbone提取的特征进行flatten后得到，维度为$L \times d$，将$Q,K,V$输入Transformer后可以得到每个query对应的local feature，这些feature可以输入分类分支和文本识别分支进行分类和识别

由粗到精的Cross Attention定位机制

该机制由两个阶段组成，第一个阶段即上述的内容，使用$N_q$个text quries进行文本粗定位，第二个阶段使用第一阶段的输出，使用一个共享的query，进一步提高文本定位的精度。在第一个阶段，可以使用以下公式获得attention map:
$$
A A M=\operatorname{softmax}\left(\frac{W_q(Q+h) W_k(f)^T}{\sqrt{d}}\right)
$$
其中，$Q$即为queries，$h$为上个部分提到的local feature，$f$为图像的feature。得到$AAM$后，即可将在进入第二阶段前，将与文本无关的token(图片feature)进行过滤，同时得到文本的位置信息。

在第二阶段，会通过一个共享的query来学习到更精确的attention map，即
$$
\text { Refined } M a p=\left(M_1, M_2 \ldots, M_{N_q}\right) \text {, }
$$

$$
M_i=\operatorname{softmax}\left(\frac{W_q\left(Q_r+h_i\right) W_k\left(\hat{f_i}\right)^T}{\sqrt{d}}\right)
$$

其中，$\hat{f_i}$为第$i$个query产生的过滤后的token

基于文本的匈牙利匹配loss

TOSS共有文本识别和文本分类2个分支，其中文本识别分支loss基于匈牙利匹配算法的结果进行计算，分类分支的loss基于文本的匹配结果进行计算

文本识别分支的输入为由decoder产生的$x \in \mathbb{R}^{N_q \times d}$，输出为$N_{q}$个文本结果，根据匈牙利算法可计算出预测结果和GT之间的一对一匹配关系
$$
\hat{\sigma}=\underset{\xi \in N_{g t}}{\operatorname{argmin}} \sum_{i=1}^{N_q} H\left(t_i, \hat{t}{\sigma(i)}\right)
$$
其中，$H$为匹配函数，$\hat t$为gt，得到匹配关系$\hat{\sigma}$后，可以计算文本识别loss
$$
L{text} \left( t, \hat{t} \right) = \sum_{i=1}^{N} L \left( t_{i}, \hat{t}{\sigma \left( i \right)} \right)
$$
对于每个预测文本，如果有gt与其匹配，则分配一个’text’标签，否则分配一个’non-text’标签，然后计算如下loss
$$
\mathrm{L}{c l s}\left(p_i, \hat{t}_{\sigma(i)}\right)= \begin{cases}-\alpha \log p_i & \text { if } \hat{t}_{\sigma(i)} \neq \emptyset \ -(1-\alpha) \log \left(1-p_i\right) & \text { otherwise }\end{cases}
$$