论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能

摘要：本文提出了一种针对文字识别的半监督方法。区别于常见的半监督方法，本文的针对文字识别这类序列识别问题做出了特定的设计。

本文分享自华为云社区《[CVPR 2022] 不使用人工标注提升文字识别器性能》，作者：Hint。

本文提出了一种针对文字识别的半监督方法。区别于常见的半监督方法，本文的针对文字识别这类序列识别问题做出了特定的设计。具体来说，本文首先采用了teacher-student的网络结构，然后采用字符级别的一致性约束对teacher和student网络的预测进行对齐。此外，考虑到文字识别是step-by-step，每一个字符的预测都和之前时刻的预测结果相关。为了避免student网络在当前时刻的预测结果受到之前时刻错误预测的影响，本文将当前时刻之前，teacher的预测结果作为student当前时刻之前的预测结果，这样可以得到比较鲁棒的一致性约束，从而提升性能。

近年来，场景文本识别（STR）因其广泛应用而备受关注。大多数识别模型需要大量的有标注数据进行强监督训练。虽然合成数据可以缓解识别模型对数据量的需求，但是合成数据和真实场景的域间差距极大地限制了识别模型在真实场景下的性能。在本文中，作者希望通过同时利用有标注的合成数据以及无标注的真实数据来提升STR模型的性能，完全不需要任何人工标注。本文提出了一种鲁棒的基于一致性约束的半监督方法，可以有效解决合成数据与真实数据域不一致导致的不稳定问题。字符级的一致性约束旨在减轻序列识别过程中错误识别导致的不对齐问题。在标准文字识别数据集上，大量实验证明了所提出方法的有效性。该方法能够稳步提升现有的STR模型，并得到最先进的结果。此外，本文也是第一个将一致性约束应用到文字识别领域的工作。

方法：

本框架包括两个分支，一个是输出有标签合成数据的强监督分支，一个是输入无标签真实数据的半监督分支。强监督分支和一般的识别模型一样。关于半监督分支，采用teacher-student进行一致性约束。具体来说，将强监督得到的预训练模型作为teacher和student网络的初始化模型，然后对同一张输入图像进行弱数据扩增和强数据扩增，并分别输入到teacher和student网络中；将teacher网络的预测结果作为伪标签对student的输出进行监督。

由于文字识别是一个序列识别问题，当前时刻的预测结果和之前时刻的预测结果相关。为了尽可能减少target和online模型在同一时刻预测结果的不对齐问题，online分支之前时刻的预测结果会和target分支之前时刻的预测结果保持一致，然后再进行当前时刻的字符预测。字符级别的一致性loss如下公式所示，Dist()可以是交叉熵，KL-Div或者MSE，本文采用的是KL-Div。

此外，为了减轻合成数据与真实数据之间的域间差别，本文还使用了字符级别的域对齐模块。该模块首先分别将合成数据和真实数据每个时刻的视觉特征收集起来构成一个集合H

，然后计算他们各自的协方差矩阵cov()。

最终，整个框架的loss由强监督识别loss，一致性约束loss和域适应loss构成：

实验：

在引入无标签数据之后，当前识别模型的性能能够得到稳定的提升。

相比于其他利用无标签数据的方法而言，本文提出的基于一致性约束的方法能够优于其他几种方法。

该实验主要证明了online model中的projection layer，使用EMA更新的target model和domain adaptation模块的有效性。

该实验证明了在online model中使用和target model相同的之前时刻预测结果的有效性。

该实验主要讨论了一致性loss的类型对最终性能的影响，可以看到交叉熵和KL-Div性能差不多，且优于MSE。

论文链接：[2204.07714] Pushing the Performance Limit of Scene Text Recognizer without Human Annotation (arxiv.org)

点击关注，第一时间了解华为云新鲜技术~

论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能的更多相关文章

论文解读丨基于局部特征保留的图卷积神经网络架构(LPD-GCN)
摘要:本文提出一种基于局部特征保留的图卷积网络架构,与最新的对比算法相比,该方法在多个数据集上的图分类性能得到大幅度提升,泛化性能也得到了改善. 本文分享自华为云社区<论文解读:基于局部特征保留 ...
论文解读丨表格识别模型TableMaster
摘要:在此解决方案中把表格识别分成了四个部分:表格结构序列识别.文字检测.文字识别.单元格和文字框对齐.其中表格结构序列识别用到的模型是基于Master修改的,文字检测模型用到的是PSENet,文字识 ...
论文解读（ N2N）《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》
论文信息论文标题:Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximiz ...
跟我读CVPR 2022论文：基于场景文字知识挖掘的细粒度图像识别算法
摘要:本文通过场景文字从人类知识库(Wikipedia)中挖掘其背后丰富的上下文语义信息,并结合视觉信息来共同推理图像内容. 本文分享自华为云社区<[CVPR 2022] 基于场景文字知识挖掘的 ...
自监督学习(Self-Supervised Learning)多篇论文解读（上）
自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...
CVPR 2022数据集汇总｜包含目标检测、多模态等方向
前言本文收集汇总了目前CVPR 2022已放出的一些数据集资源. 转载自极市平台欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读.CV招聘信息. M5Produc ...
zz扔掉anchor！真正的CenterNet——Objects as Points论文解读
首发于深度学习那些事已关注写文章扔掉anchor!真正的CenterNet——Objects as Points论文解读 OLDPAN 不明觉厉的人工智障程序员关注他 JustDoIT 等 ...
CVPR2020行人重识别算法论文解读
CVPR2020行人重识别算法论文解读 Cross-modalityPersonre-identiﬁcationwithShared-SpeciﬁcFeatureTransfer 具有特定共享特征变换 ...
CVPR2020论文解读：CNN合成的图片鉴别
CVPR2020论文解读:CNN合成的图片鉴别 <CNN-generated images are surprisingly easy to spot... for now> 论文链接:h ...
昇腾CANN论文上榜CVPR，全景图像生成算法交互性再增强！
摘要:近日,CVPR 2022放榜,基于CANN的AI论文<Interactive Image Synthesis with Panoptic Layout Generation>强势上榜 ...

随机推荐

a除于b
a=eval(input()) b=eval(input()) if b!=0: print("{}".format(round(a/b,2))) else: print(&quo ...
[题解] Topcoder 15279 SRM 761 Div 1 Level 3 SpanningSubgraphs DP，容斥
题目考虑DP.\(f(msk,i)\) 表示集合 \(msk(一定包含0号点)\) ,选了恰好i条边的连通方案数.转移用容斥,用这个点集内部所有连边方案减去不连通的.令\(|e_{msk}|\)表示 ...
P5657 [CSP-S2019] 格雷码（找规律）
观察几个数据,有一种思路:类似于二分,判断每一位应该填1还是0: 1 #include <bits/stdc++.h> 2 //#define loveGsy 3 using namesp ...
qiankun+vue，为什么我的子应用的子路由老是跳404？这么解决
主要解决子应用内部跳转路由时,跳到404页的问题你能搜这个,我姑且认为你基本配置已经好了,而且主跳子的一级路由是正常的,请往下看忘说了,我的主应用和子应用都是Vue 主应用跳子应用都正常,为什么子 ...
我说HashMap初始容量是16，面试官让我回去等通知
众所周知HashMap是工作和面试中最常遇到的数据类型,但很多人对HashMap的知识止步于会用的程度,对它的底层实现原理一知半解,了解过很多HashMap的知识点,却都是散乱不成体系,今天一灯带你一 ...
1NF | 2NF | 3NF的区分以及什么是函数依赖、部分函数依赖、值传递依赖（最详细的讲解1NF、2NF、3NF的关系）
1NF | 2NF | 3NF的区分以及什么是函数依赖.部分函数依赖.值传递依赖符合3NF一定符合2NF.一定符合1IF 简单区分.2NF不存在部分函数依赖,3NF不存在传递函数依赖第一范式1NF ...
C语言------循环结构II
仅供借鉴.仅供借鉴.仅供借鉴(整理了一下大一C语言每个章节的练习题.没得题目.只有程序了) 文章目录 1 .实训名称 2 .实训目的及要求 3 .源代码及运行截图 4 .小结 1 .实训名称实训6: ...
Droplet——一款轻量的Golang应用层框架
Github地址如标题所描述的,Droplet 是一个轻量的中间层框架,何为中间层呢? 通常来说,我们的程序(注意这里我们仅仅讨论程序的范围,而非作为一个系统,因此这里不设计如 LB.Gate ...
数据库json字段类型总结
----------------------------------------=================以下是个人自己总结,可能只有自己看的懂.===================---- ...
linux如何删除多余网卡
ifconfig tunl0 down ip link delete tunl0

论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能

方法：

实验：

论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能的更多相关文章

随机推荐

热门专题