NERV

与其感慨路难行,不如马上出发

0%

现有基于图像-文本对数据的对比学习训练方法(CLIP等)大多构建2个独立的encoder,无法使用不成对的弱监督数据,且对比学习的采样策略会带来一定的bias,为此,本文提出了一种图像-文本数据统一的encoder,通过预测mask token来训练。在大规模的图像-文本数据集上进行实验表明,预训练的模型在下游任务上有很好的表现,且与bert相比,M3AE可以使用更高的文本mask ratio。除此之外,该模型可以在图像-文本对或图像数据上使用
Read more »

本篇论文提出了一种可以隐式融入语言模型信息的多粒度预测策略,来进行文本识别。与其他使用语言模型的文本识别算法不同,该方法不需要在视觉模型以外显式的训练一个语言模型,而是通过NLP中常见的subword reprewsentation来构建除字符以外的监督信息,从而隐式的引入语言模型信息,并提高文本识别精度。
Read more »

这篇论文是第一篇只使用文本标注进行训练的text spotting算法,该方法使用transformer来学习文本query和图片特征的交互,来隐式学习文本位置的相关信息,然后在文本识别的过程中,通过attention map的形式显式地表现出来,为了提高定位精度,本文还提出了一种由粗到精的注意力定位机制。为了帮助模型快速收敛,本文提出了一种循环分阶段式的学习策略。此外,本文提出了一种通过语音进行文本标注的方式,来降低标注文本所需要的时间。
Read more »

为了能够充分利用未标注数据,本文提出了一种基于transformer的端到端文本识别算法,该算法是第一个可以同时使用有监督和弱监督进行训练的端到端文本识别算法,该方法使用同一个隐变量完成多个任务,并提出一种新的适用于文本识别的匈牙利匹配Loss,该方法可以使用只带有文本标注的图片进行训练,并达到与有监督算法相当的指标,加入标注数据后进行,性能会超过现有的有监督算法
Read more »

这篇论文借鉴对比学习算法simCLR,并在其基础上针对文本识别的特点进行改良形成seqCLR算法,通过引入instance mapping,实现sub-word level级别的对比学习,来提供一个良好的预训练模型。同时,针对文本识别特点,提出更加合适的数据增强防范。在手写字符数据集和街景数据集上的实验结果表明,当使用全部标签finetune预训练模型时,seqCLR算法的性能要优于有监督识别算法
Read more »

这篇文章针对的是艺术字体识别领域,为了克服艺术字体识别中存在的问题,作者引入角点Map作为艺术字体的特征表达以提高鲁棒性,并且将角点作为query引入transformer的attention中,使得attention更加精确。同时,作者设计了字符对比loss来学习字符特征,使得同字符的特征能够更加聚集
Read more »

DiMP是Martin大神的新作,这篇作品不同于CVPR2019中大量使用的SiamRPN系列,而是通过针对Siamse系列对于背景和目标的区分性不足的确定,进行改善。在这篇论文中,作者设计了一种具有判别能力的Loss,并且通过end-to-end的训练学习Loss重点的关键参数。结合权重预测模块,对网络进行良好的初始化,最终DiMP在速度和准确性的都有所提高,在VOT2018数据集上,EAO达到0.440,且FPS达到40。
Read more »