An end-to-end TextSpotter with Explicit Alignment and Attention

论文下载:http://cn.arxiv.org/pdf/1803.03474
代码下载:https://github.com/tonghe90/textspotter

1方法概述
1.1主要思路
将文字检测和识别整合到一个端到端的网络中,检测使用PVAnet,识别使用RNN,其中加入一个Text-alignment layer和字符attention和mask机制,通过利用Text-alignment layer中的抽样网格将文字区域固定为64*8大的feature map,再输入双向LSTM进行识别。
1.2文章亮点
·提出Text alignment layer,用网格抽样方案代替RoI Pooling,处理多方向的文本区域
·增加字符attention和mask机制,使用字符的空间信息作为额外的监督,指导decode过程
·提出一个新颖的training strategy
1.3主要流程

·整个端到端识别主要有三个步骤:

·检测:用PVAnet代替ResNet50的EAST框架,得到任意方向的文本区域

·Test alignment:将四边形区域统一映射为大小为64*8的feature map

·识别:Test alignment得到的feature map经过encode-decode得到最终结果

2 方法细节

·检测

·检测的框架是用PVAnet代替ResNet50的EAST框架,通过调节IoU损失实现一个多任务预测。

·最终得到两个分支:第一个子分支返回文本分类概率。第二个子分支返回bounding box的五个参数,分别是当前点到上下左右边的距离以及倾斜角度。

·识别

上述得到的四边形将被输入RNN分支。

·Text-alignment layer:

·这步的目的:

·它可以将任意方向的region proposal固定为统一大小的feature map,精确地跟每个像素对齐

·为什么不用RoI Pooling

·RoI Pooling进行量化,不可避免地在原始RoI区域和提取出来的特性之间引入了misalignment。

·RoI Pooling是为矩形区域设计的,只能够定位水平region proposal。

·Text-alignment layer做什么

·给定一个四边形区域,首先在feature map中建立一个64*8大的采样网格,在这个区域内生成等间距的采样点,Vp代表每个采样点p空间位置(px,py)的特征向量,这个特征向量通过bilinear sampling计算,公式如下:

·Vpi是p周围的四个点,g(m,n)是双线性插值函数

·最终输出固定大小为64*8的文本区域

·Character Attention

·识别流程

·经过Text-Alignment Layer得到的feature map,经过多个inception模块,最终大小变为1*64,然后经过双向LSTM操作,encode-decode操作后输出最终识别结果。

·Attention alignment

·这张图与传统的注意力机制不同的地方是在增加了字符的attention作为监督,引入了字符对齐的损失函数,指导decode过程。这就是图中update的由来

·即attention point,它应该尽可能和字符的中心点尽可能对齐;

·是第t个字符GT的中心坐标,是当前字符的GT宽度,T是一个序列的字符数

·这个损失函数表示归一化的attention

·Character mask

·增加了binary masks,引入,mask数等于字符label数

·Position embedding

·从attention向量中生成一个one-hot向量,然后直接将one-hot向量和上下文向量直接连接起来,得到一个新的带有额外one-hot注意力信息的特征表示。

·Overall loss

·Lloc是文本检测的loss,Lword是文字识别的loss,Lalign和Lmask是可选的loss,可以不使用。λ1,λ2是平衡因子,这里面的实验都设为0.1。

·Training Strategy

·从800K张合成图像张随机抽取600K张,固定检测部分,提供Ground trut文本框进行单词识别的训练,迭代120K次,只计算识别,字符对齐和mask的loss

·打开检测部分,仍然提供GT文本框,更新权重,迭代80K次,接下来用检测部分生成抽样网格,进行端到端训练,迭代20K次

·在ICDAR2013和2015数据集上进行端到端训练,迭代60K次。

3 实验结果

·在ICDAR2013上得到的数据与最先进的结果相当,而在ICDAR2015上,这篇文章的方法大大超过了最新的结果。

·使用这篇文章的方法,一些小的文字和大幅度倾斜的文字都能很好的被识别到。

4 总结和收获

·检测部分用PVAnet代替ResNet50的EAST框架

·用bilinear sampling代替RoI Pooling,处理多方向的文本区域

·在原有的attention中增加字符的对齐信息和mask作为额外的监督,指导decode过程

·一个新颖的training strategy

An end-to-end TextSpotter with Explicit Alignment and Attention的更多相关文章

  1. 2017-2018_OCR_papers汇总

    2017-2018_OCR_papers 1. 简单背景 基于深度的OCR方法的发展历程 近年来OCR发展热点与趋势 检测方法按照主题进行分类 2. ECCV + CVPR + ICCV +AAAI ...

  2. A Survey of Visual Attention Mechanisms in Deep Learning

    A Survey of Visual Attention Mechanisms in Deep Learning 2019-12-11 15:51:59 Source: Deep Learning o ...

  3. QA系统Match-LSTM代码研读

    QA系统Match-LSTM代码研读 背景 在QA模型中,Match-LSTM是较早提出的,使用Prt-Net边界模型.本文是对阅读其实现代码的总结.主要思路是对照着论文和代码,对论文中模型的关键结构 ...

  4. 可空类型(Nullable<T>)及其引出的关于explicit、implicit的使用

    问题一:Nullable<T>可赋值为null 先看两行C#代码 int? i1 = null; int? i2 = new int?(); int? 即Nullable<int&g ...

  5. 关于Django 错误 doesn't declare an explicit app_label and isn't in an application in INSTALLED_APPS

    记录一下 报错 doesn't declare an explicit app_label and isn't in an application in INSTALLED_APPS\ 这个问题出现没 ...

  6. 显示转换explicit和隐式转换implicit

    用户自定义的显示转换和隐式转换 显式转换implicit关键字告诉编译器,在源代码中不必做显示的转型就可以产生调用转换操作符方法的代码. 隐式转换implicit关键字告诉编译器只有当源代码中指定了显 ...

  7. explicit抑制隐型转换

    本文出自 http://www.cnblogs.com/cutepig/ 按照默认规定,只有一个参数的构造函数也定义了一个隐式转换,将该构造函数对应数据类型的数据转换为该类对象,如下面所示: clas ...

  8. C++ explicit关键字详解

    本文系转载,原文链接:http://www.cnblogs.com/ymy124/p/3632634.html 首先, C++中的explicit关键字只能用于修饰只有一个参数的类构造函数, 它的作用 ...

  9. Implicit and Explicit Multithreading MULTITHREADING AND CHIP MULTIPROCESSORS

    COMPUTER ORGANIZATION AND ARCHITECTURE DESIGNING FOR PERFORMANCE NINTH EDITION The concept of thread ...

随机推荐

  1. Python 常见异常类型

    python标准异常 异常名称                                   描述 BaseException                         所有异常的基类Sy ...

  2. 使用VS2013操作MYSQL8 (ADO.NET方式 & EF6)

    今天有时间测试了一下通过.net环境操作MYSQL数据库,测试过程及结果记录如下: 1.MYSQL安装 (1)我是从MYSQL官网下载的最新版,即MYSQL8.0,在MySql官网的下载页面,找到“M ...

  3. URL百分号编码

    百分号编码是什么! 百分号编码(Percent-Encoding)也被称为 URL 编码,是一种编码机制.该机制主要应用于 URI 编码中,URI 包含 URL 和 URN,所以它们也同样适用.除此之 ...

  4. springboot集成log4j2 + logstash 异步输出日志

    一. spring boot 集成log4j2 1.maven引入jar包 <dependency> <groupId>org.springframework.boot< ...

  5. ABAP中时间戳的处理

    UTC(UTC, Universal Time Coordinated,通用协调时)时间戳,分为长时间戳和段时间戳,其中长时间戳餐开始的系统的数据元素TIMESTAMPL,类型为DEC(21,7):而 ...

  6. Charles抓取HTTPS数据包方法

    设置代理端口8888 ssl代理设置 允许所有地址连接 手机获取证书之前,先在电脑安装证书,需要信任.help-->ssl-proxying-->Install Charles Root ...

  7. 求和:fft,表达式化简

    $f(n)=\sum\limits_{i=0}^{n} \sum\limits_{j=0}^{i} S(i,j) \times 2^j \times j!$ 其中$S(i,j)$为第二类斯特林数,公式 ...

  8. 使用Typescript重构axios(十八)——请求取消功能:总体思路

    0. 系列文章 1.使用Typescript重构axios(一)--写在最前面 2.使用Typescript重构axios(二)--项目起手,跑通流程 3.使用Typescript重构axios(三) ...

  9. 百度艾尼ERNIE专场再入魔都,11月23日线下开讲!

    这个十一月,是属于深度学习开发者们的秋季盛宴.『WAVE Summit+』2019 深度学习开发者秋季峰会刚刚落下帷幕,基于ERNIE的语义理解工具套件也在此次峰会上全新发布,旨在为企业级开发者提供更 ...

  10. csp-s m 80 题解

    写在前面:(扯淡话) 这次考试是AB组分开考,但是觉得题目并不是很水,所以就来写一下题解,其实这次由于翘掉了午休,所以考试的前半部分还是比较困的(越做越清醒!)今天调完还是很有感触的! 正文: T1 ...