Connectionist Text Proposal Network

简介

CTPN是通过VGG16后在特征图上采用3*3窗口进行滑窗，采用与RPN类似的anchor机制，固定width而只预测anchor的y坐标和高度，达到比较精准的text proposal效果。同时，文章的亮点在于引入了RNN，使用BLSTM使得预测更加精准。CTPN在自然场景下文本提取的效果很不错，不同于传统的bottom-up方法，传统方法通过检测单个字符然后再去连接文本线，其准确性主要依赖于单个字符的识别，而且错误会累积，其使用的仅仅是low-level的feature；而本文采用的方法提取的是深度的特征，采用anchor机制做的精准预测，然后用循环神经网络对anchor识别的区域进行连接，精度要高很多。

结构：

Detecting Text in Fine-scale Proposals

detection过程很简单，直接在vgg-16后面用3*3的滑窗去滑feature map的最后一个卷积层，固定感受野大小为228pixels，total stride为16pixels，这样每个anchor对应在原图中的间隔就是16pixels。total stride和感受野的大小都是由网络结构决定的，也就是说，在网络结构确定的情况下，我们可以人为地去设置感受野的大小和total stride，由于total stride = s *2 *2 *2 *2，由于设置的total stride =16 ，所以可以确定3*3的stride是1，也就是后面每个anchor的水平距离在原图中对应的是16pixels。

之后，作者修改了原始的rpn，去预测长度固定为16pixels的区域，与rpn不同的是，本文只预测区域的y轴坐标和高度，此外，还输出anchor是或不是文字区域的二分类结果。由于上面确定了每次anchor移动的距离恰好是total stride，所以这里对应上了。然后对每个特征点设计了10种vertical anchor，这些anchor的宽度都为16pixels，高度从11 到 273pixels（每次除以0.7），让这10个anchor独立地预测中心点坐标(vc)和高度(vh)，定义如下：

对每个预测而言，水平坐标和k个anchor的位置是固定的，这些都是可以预先在图像进来之后计算出来的，而分类器输出的结果是text/non-text的得分和预测的k个anchor的y轴坐标(v)。而识别出来的text proposals 是从那些text/non-text的得分大于0.7，然后再经过MNS得到的。这样只预测纵坐标的做法比rpn的准确率提升了很多，因为其提供了更多的监督信息。

Recurrent Connectionist Text Proposals

本文的亮点就在于使用了循环神经网络来连接text proposals，为了提升定位的准确率，作者把文本线看成是一连串的text proposals，然后去单独预测，但是这样做发现很容易错将非文字区域识别为文字区域。由于RNN对处理上下文很好，而文字有着很强的上下文关联，所以作者顺理成章的引入RNN，将conv5层的feature的每个window扫描后的结果作为RNN的输入，然后循环更新这个隐状态定义如下：

作者使用的是双向LSTM作为RNN的结构，因此每个window都具有他之前的window的上下文信息，每个window的卷积特征作为256D的双向lstm的输入，然后将每个隐状态全连接到输出层，预测第t个proposal。

使用RNN后，明显减少了错误的识别，将很多之前没识别到的地方也识别到了，说明上下文信息对预测确实很有帮助。

Side-reﬁnement

由于预测的text proposal 可能与ground truth在最左和最右两边不一定重叠度高，所以可能被弃掉，因此提出了边框修正，来修正这一点，如果不修正，那么预测到的proposal的文字区域可能在两边有缺失。

结果如下

Outputs And Loss Functions

模型一共有三个输出，分别是text/non-text scores、竖直坐标v（包括anchor在原图中对应的竖直坐标和高度）以及修正系数o。对于每个特征点k个anchor，分别输出2k，2k，k个参数，而文章也是采用了多任务学习来进行优化模型参数，模型的loss functions定义如下：

分类误差用的是softmax计算的，回归误差用的是smooth L1函数计算的，两个λ是为了调整loss的权重。

论文原文

[论文理解] Connectionist Text Proposal Network的更多相关文章

论文阅读（Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network）
Weilin Huang——[ECCV2016]Detecting Text in Natural Image with Connectionist Text Proposal Network 目录 ...
论文阅读笔记四：CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016)
前面曾提到过CTPN,这里就学习一下,首先还是老套路,从论文学起吧.这里给出英文原文论文网址供大家阅读:https://arxiv.org/abs/1609.03605. CTPN,以前一直认为缩写一 ...
深度学习论文翻译解析（三）：Detecting Text in Natural Image with Connectionist Text Proposal Network
论文标题:Detecting Text in Natural Image with Connectionist Text Proposal Network 论文作者:Zhi Tian , Weilin ...
跟我读论文丨Multi-Model Text Recognition Network
摘要:语言模型往往被用于文字识别的后处理阶段,本文将语言模型的先验信息和文字的视觉特征进行交互和增强,从而进一步提升文字识别的性能. 本文分享自华为云社区<Multi-Model Text Re ...
论文阅读（Zhuoyao Zhong——【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural Images）
Zhuoyao Zhong--[aixiv2016]DeepText A Unified Framework for Text Proposal Generation and Text Detecti ...
[论文理解] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 简介 Faster R-CNN是很经典的t ...
Deep Learning 28：读论文“Multi Column Deep Neural Network for Traffic Sign Classification”-------MCDNN 简单理解
读这篇论文“ Multi Column Deep Neural Network for Traffic Sign Classification”是为了更加理解,论文“Multi-column Deep ...
论文《Piexel Recurrent Nerual Network》总结
论文<Piexel Recurrent Nerual Network>总结论文:<Pixel Recurrent Nerual Network> 时间:2016 作者:Aar ...
[论文理解] CornerNet: Detecting Objects as Paired Keypoints
[论文理解] CornerNet: Detecting Objects as Paired Keypoints 简介首先这是一篇anchor free的文章,看了之后觉得方法挺好的,预测左上角和右下 ...

随机推荐

基于unity3d游戏的android版本逆向初探
https://bbs.pediy.com/thread-212532.htm [文章标题]: 基于unity3d游戏的android版本逆向初探 [文章作者]: dreaman [作者邮箱]: [e ...
剑指Offer的学习笔记（C#篇）-- 对称的二叉树
题目描述请实现一个函数,用来判断一颗二叉树是不是对称的.注意,如果一个二叉树同此二叉树的镜像是同样的,定义其为对称的. 一 . 题目分析递归法. 一.空树判断,单独搞出来. 二.非空树. 递归:一 ...
FISCO BCOS WorkShop | 区块链开发特训营，开课啦！
FISCO BCOS是完全开源的联盟区块链底层技术平台,由金融区块链合作联盟(深圳)(简称金链盟)成立开源工作组通力打造.开源工作组成员包括博彦科技.华为.深证通.神州数码.四方精创.腾讯.微众银行. ...
php高并发之opcache
今天工作的时候接触到客户的一台服务器,业务逻辑比较简单 .估算pv在120w左右吧,用的是阿里云2c4g的服务器.一大早就开始卡顿了,登陆服务器后查看负载到了八九十. 之后就想办法调整一下吧.突然想起 ...
《机器学习实战》-k近邻算法
目录 K-近邻算法 k-近邻算法概述解析和导入数据使用 Python 导入数据实施 kNN 分类算法测试分类器使用 k-近邻算法改进约会网站的配对效果收集数据准备数据:使用 Python ...
C# string.Empty
在C#中,如果赋值一个字符串为空白字符串,我们一般会用“”的形式对字符串进行赋值操作,其实在C#的字符串类String类中,有个专门的常量string.Empty来代表空字符串,可直接在赋值的时候使用 ...
.net core实现的全程序跟踪
Ocelot中使用Butterfly实践 ocelot Ocelot + Consul实践 Ocelot中使用Butterfly实践 Ocelot监控 Ocelot统一权限验证 ...
Exploring refit, an automatic type-safe REST library for .NET Standard
自动类型安全的.NET标准REST库refit 在SCOTT HANSELMAN 博客上看到一个好东西<Exploring refit, an automatic type-safe RES ...
vue之store中属性更新用法
//1.首先定义store对象下的属性 state: { data:'测试数据' } // 2.定义更改data数据的方法 mutations: { updatedata(state, p) { st ...
SyntaxError: Use of const in strict mode.
具体报错console c:\Users\Administrator\WebstormProjects\blogtest\node_modules\connect-mongo\src\index.js ...

[论文理解] Connectionist Text Proposal Network