Weilin Huang——【TIP2015】Text-Attentional Convolutional Neural Network for Scene Text Detection）

方法概括
1. 使用改进版的MSER（CE-MSERs，contrast-enhancement）提取候选字符区域；
2. 使用新的CNN（text-CNN，结合了像素级信息，字符多类标签，字符二类标签的监督信息来训练text-attentional的CNN）来过滤非文字区域；
3. 将字符串成字符串再切成单词（参考文献1，文献2的方法，不是文章重点）
创新点和贡献
- idea的出发点：

如果不认识这些字，那么很难判断这到底是否真是'字'还是瞎写的笔画

- 创新点：
  - 提出了对比度增强版的MSER，提高召回率
  - 提出了基于多任务学习的text-CNN模型，并介绍了一种新的训练机制，将低级的像素级信息（分割问题），到高级的字符多类信息（62类字符识别问题），字符与非字符信息（2类字符分类问题）融合到一个text-CNN模型中，实现了具有更强的分辨性和鲁棒性的text detector.
方法细节
- text-CNN
  - 网络结构图

- - 3个任务

- - 3个任务的损失函数（从上到下分别是binary,label,region)

- - - ,,,

- - 总的损失函数：

- - 3个任务网络结构：
    - pixel-level segementation task: Conv1 → Conv2 → Deconv1 → Deconv2 → loss (5) 【两个卷积，两个去卷积】
    - character label task: Conv1 → Conv2 → Pool2 → Conv3 → Fc1 → Fc2 → loss (4) 【三个卷积，一个池化，两个全连接】
    - text/non-text task: Conv1 → Conv2 → Pool2 → Conv3 → Fc1 → Fc2 → loss (3) 【三个卷积，一个池化，两个全连接】
  - 池化层设计的原因
    - 池化层本身是不可逆转的，即在去卷积是无法找回原来的信息的，所以在去卷积前不能使用池化层，因此只能在第二层之后才接池化层
    - 第三层卷积后图像已经很小，故没必要再用池化层
    - 实验证明了使用池化层：性能没有降低，速度得到提高
  - 训练过程
    - pre-train：label task和region task分别按10:3（损失函数比，λ₁=1，λ₂=0.3）进行训练，采用的库为合成数据库charSynthetic，迭代次数为30k次
    - train：label task和main task分别按3:10（λ₁=0.3）进行训练，采用的库为真实库charTrain，迭代次数为70k
    - 之所以这样训练的原因：三种任务使用的特征不同（region task使用的特征是pixel-level，属于低级特征），收敛的速度也不同。如果region task训练次数和main task一样多，会导致过拟合。第一阶段训练两个任务之后，模型参数已经将像素级的信息记录下来了。下图为训练阶段三种任务的损失函数随迭代次数的变化情况。

- CE-MSERs
  - 算法步骤（主要：
    - Step1 : 利用对比度线索和空间线索聚类（文献3），生成对比度区域图map1
    - Step2 : 利用颜色空间平滑（文献4），生成对比度区域图map2
    - 在原图，map1，map2上分别使用MSER

实验结果
- 实验效果证明多任务效果(c)比传统的CNN(a)，只使用一个额外任务，字符识别任务(b)更好

- 实验证明采用本文的Text-CNN学到了能区分字符和非字符的关键特征

- ICDAR2015

- ICDAR2011 (CE-MSERs比MSERs好，用三种task训练的text-CNN比单任务，双任务的饿更好）

- ICDAR2013

- MSRA-TD500

问题讨论
- 使用池化层的优劣？
  - 优点：减少参数和模型的复杂性
  - 缺点：丢失了空间信息，且池化层是不可逆转的
- 为什么region task是回归问题？
- 为什么region task和label task在训练的时候用，测试的时候不用？
- CE-MSER的实现？
- 为什么label task是62类，而不是63类（包含噪声类）？
- 对于负样本，region task的groundTruth中的mask怎么做？label task中的负样本类别是多少？
作者和相关链接

作者信息
- tong he, 黄伟林，乔宇，姚剑

总结与收获点
- CE-MSER提供了一个思路，可以增强对比度来提高召回率，但实现方法不是很好。本身MSER就相对耗时，还需要在增强对比度的map上再做两次MSER，显然时间开销太大了。更好的方法应该是去改MSER的内部算法，修改“stable”的含义或者对每个component做一定对比度增强的处理再提取等等。
- 多任务学习的训练方法可以参考这篇文章的思路：不同任务共享某些层
- 把像素级信息，字符类别级信息融合到检测中做的想法很可取

参考文献

W. Huang, Y. Qiao, and X. Tang, “Robust scene text detection with convolution neural network induced MSER trees,” in Proc. 13th Eur. Conf. Comput. Vis. (ECCV), 2014, pp. 497–511.
C. Yao, X. Bai, W. Liu, Y. Ma, and Z. Tu, “Detecting texts of arbitrary orientations in natural images,” in Proc. IEEE Comput. Vis. Pattern Recognit. (CVPR), Jun. 2012, pp. 1083–1090.
H. Fu, X. Cao, and Z. Tu, “Cluster-based co-saliency detection,” IEEE Trans. Image Process., vol. 22, no. 10, pp. 3766–3778, Oct. 2013.
M. M. Cheng, G. X. Zhang, N. J. Mitra, X. Huang, and S. M. Hu, “Global contrast based salient region detection,”2011 in Proc. IEEE Comput. Vis. Pattern Recognit. (CVPR), Jun. 2011, pp. 409–416.

论文阅读（Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection）的更多相关文章

【论文阅读】ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
ShuffleNet: An Extremely Efficient Convolutional Neural Network for MobileDevices
论文翻译：2020_FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions
论文地址:FLGCNN:一种新颖的全卷积神经网络,用于基于话语的目标函数的端到端单耳语音增强论文代码:https://github.com/LXP-Never/FLGCCRN(非官方复现) 引用格式 ...
论文笔记：（CVPR2019）Relation-Shape Convolutional Neural Network for Point Cloud Analysis
目录摘要一.引言二.相关工作基于视图和体素的方法点云上的深度学习相关性学习三.形状意识表示学习 3.1关系-形状卷积建模经典CNN的局限性变换:从关系中学习通道提升映射 3.2性 ...
【论文阅读】Sequence to Sequence Learning with Neural Network
Sequence to Sequence Learning with NN <基于神经网络的序列到序列学习>原文google scholar下载. @author: Ilya Sutske ...
论文阅读-(CVPR 2017) Kernel Pooling for Convolutional Neural Networks
在这篇论文中,作者提出了一种更加通用的池化框架,以核函数的形式捕捉特征之间的高阶信息.同时也证明了使用无参数化的紧致清晰特征映射,以指定阶形式逼近核函数,例如高斯核函数.本文提出的核函数池化可以和CN ...
论文阅读笔记十四：Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation（CVPR2015）
论文链接:https://arxiv.org/abs/1506.04924 摘要该文提出了基于混合标签的半监督分割网络.与当前基于区域分类的单任务的分割方法不同,Decoupled 网络将分割与分类 ...
论文笔记《ImageNet Classification with Deep Convolutional Neural Network》
一.摘要了解CNN必读的一篇论文,有些东西还是可以了解的. 二.结构 1. Relu的好处: 1.在训练时间上,比tanh和sigmod快,而且BP的时候求导也很容易 2.因为是非饱和函数,所以基本 ...
《A Convolutional Neural Network Cascade for Face Detection》
文章链接: http://pan.baidu.com/s/1bQBJMQ 密码:4772 作者在这里提出了基于神经网络的Cascade方法,Cascade最早可追溯到Haar Feature提取 ...
论文笔记之《Event Extraction via Dynamic Multi-Pooling Convolutional Neural Network》
1. 文章内容概述本人精读了事件抽取领域的经典论文<Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networ ...

随机推荐

Java的序列化ID的作用
Java的序列化ID的作用简单来说,Java的序列化机制是通过在运行时判断类的serialVersionUID来验证版本一致性的.在进行反序列化时,JVM会把传来的字节流中的serialVersio ...
C#生成二维码的方法
本文实例讲述了C#生成二维码的方法.分享给大家供大家参考.具体实现方法如下: 首先引用ThoughtWorks.QRCode.dll 具体代码如下: 复制代码代码如下: using System; ...
从网易与淘宝的font-size思考前端设计稿与工作流
本文结合自己对网易与淘宝移动端首页html元素上的font-size这个属性的思考与学习,讨论html5设计稿尺寸以及前端与设计之间协作流程的问题,内容较多,但对你的技术和工作一定有价值,欢迎阅读和点 ...
Struts2二级菜单联动
http://www.cnblogs.com/wujixing/p/5194461.html ps: Java面试 http://blog.csdn.net/zhang070809/article/d ...
easyUI下拉列表三级联动
首先是先想好数据库的搭建,通过地区id,地区名称,上级地区id就可以实现,所有省市区的数据例如: DAO层 service层 Servlet 页面 <!DOCTYPE html> < ...
npm link 安装本地模块，将本地模块cli化
第三方学习地址 http://mp.weixin.qq.com/s?__biz=MzAxMTU0NTc4Nw==&mid=2661157390&idx=1&sn=6d96e54 ...
elasticsearch之节点重启
Elasticsearch节点重启时背后发生的故事有哪些,应该注意哪些配置内容,本篇文章做一个简单的探讨. 节点离开在elasticsearch集群中,假设NodeA因为种种原因退出集群,在Node ...
在eclipse中创建一个Maven项目
1. 首先判断eclipse有没有自带Maven Window –> Perferences 如果有Maven,那就是自带了maven插件,如果没有,需要自行安装. 2.配置maven 2.1. ...
解决Entity Framework中DateTime类型字段异常
从 datetime2 数据类型到 datetime 数据类型的转换产生一个超出范围的值具体的错误原因是:C#中的DateTime类型比SqlServer中的datetime范围大.SqlServe ...
读懂UI设计的心理学
好文转载,版权归原作者作为UI设计师,对待用户就像对待婴儿,知道如何通过界面设计诱导用户非常重要,这就需要了解心理学方面的知识了.今天分享一篇日本设计师的好文,结合心理学与设计,教你读懂心理学,提高 ...

论文阅读（Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection）

Weilin Huang——【TIP2015】Text-Attentional Convolutional Neural Network for Scene Text Detection）

目录

作者和相关链接

方法概括

创新点和贡献

方法细节

text-CNN

CE-MSERs

实验结果

问题讨论

作者和相关链接

总结与收获点

参考文献

论文阅读（Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection）的更多相关文章

随机推荐

热门专题