XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection

作者和代码

caffe代码

关键词

文字检测、多方向、SSD、$$xywh\theta$$、one-stage,开源

方法亮点

  • 核心思想认为,分类问题对于旋转不敏感,但回归问题对于旋转是敏感的,因此两个任务不应该用同样的特征。所以作者提出来基于旋转CNN的思路,先对特征做不同角度的旋转,该特征用于做框的回归,而对分类问题,采用沿oriented response pooling,所以对旋转不敏感。

    Text coordinates are sensitive to text orientation. Therefore, the regression of coordinate offsets should be performed on rotation-sensitive features.

    In contrast to regression, the classification of text presence should be rotation-invariant, i.e., text regions of arbitrary orientations should be classified as positive.

Figure 1: Visualization of feature maps and results of baseline and RRD. Red numbers are the classification scores. (b): the shared feature map for both regression and classification; (c): the result of shared feature; (d) and (e): the regression feature map and classification feature map of RRD; (f): the result of RRD.

  • 首次使用Oriented Response Convolution来做文字检测

方法概述

本文方法是SSD进行修改,除了修改输出预测4个点坐标偏移量来检测倾斜文本外,还利用了ORN来提取旋转敏感的文字特征,然后在分类分支增加最大池化来提取针对分类不敏感的特征。

方法细节

网络结构

该网络结构由SSD改造,不同的是原来的多层融合侧边连接是普通的卷积,但这里换成了RSR。每一个RSR分为两个部分,第一部分是把卷积改成多种不同方向的oriented convolution。第二部分是用来做predicition,包括regression和classification两个分支。classification分支的不同地方在于多了一个oriented response pooling。

Figure 2: Architecture of RRD. (a) The rotation-sensitive backbone follows the main architecture of SSD while changing its convolution into oriented response convolution. (b) The outputs of rotation-sensitive backbone are rotation-sensitive feature maps, followed by two branches: one for regression and another for classification based on oriented response pooling. Note that the inception block is optional.

ORN(Oriented response net-works)

目的:通过使用旋转滤波器(active rotating filters,ARF)来提起对旋转敏感(rotation-sensitive)的卷积特征

方法来源:Y. Zhou, Q. Ye, Q. Qiu, and J. Jiao. Oriented response networks. In CVPR, 2017.

github链接:https://github.com/ZhouYanzhao/ORN

主要思想:

Rotation-Invariant Classification

简单说,就是把所有方向的结果逐像素取个最大值。如果文字是某个方向的,那么对应的方向的response应该比较大,这样就能把该方向的特征抽取出来(因为原来的feature有多个方向的,但只给定feature是不知道具体是哪个方向的,不能把它单独拿出来,用Max就可以不管是哪个方向都能提取出来)。

The rotationsensitive feature maps are pooled along their depth axis.

Default Boxes

使用四个顶点的四边形来表示。最后prediction的是四个点坐标的offset。

训练
  • 作者argue第一个点的选择很重要,文中采用了textbox++提供的方法来确定第一个点

  • 计算IOU的时候为了简化直接用了最外接矩形bb的IOU

  • 损失函数 = 分类-2类softmax损失 + 回归-smooth_L1损失

实验结果

  • Ablation 实验

Baseline: architecture without inception block, using shared conventional feature maps for both regression and classification;

Baseline+inc: baseline architecture using inception blocks;

Baseline+inc+rs: architecture with inception block, using rotation-sensitive features for both regression and classification;

Baseline+inc+rs+rotInvar: the proposed RRD. Note that for word-based datasets, inception block is not applied and we also name it RRD.

  • 在RCTW-17、ICDAR2015、MSRA-TD500上的实验结果

  • 不同IOU实验结果

  • ICDAR2013实验结果

  • 在其他数据集(ship,HRSC2016)检测上结果

  • 当前文字检测结果中常见的歧义性

总结与收获

这篇文章的key idea和R-FCN有点像。检测对于平移、旋转具有敏感性,但分类不具有。所以这篇文章的方法是通过一个最大池化来去掉分类特征对旋转的敏感性。另外,这是第一篇把oriented response net-works引入ocr检测的文章。

【论文速读】XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection的更多相关文章

  1. 【论文速读】XiangBai_TIP2018_TextBoxes++_A Single-Shot Oriented Scene Text Detector

    XiangBai_TIP2018_TextBoxes++_A Single-Shot Oriented Scene Text Detector 作者和代码 Minghui Liao, Baoguang ...

  2. 论文阅读(Xiang Bai——【arXiv2016】Scene Text Detection via Holistic, Multi-Channel Prediction)

    Xiang Bai--[arXiv2016]Scene Text Detection via Holistic, Multi-Channel Prediction 目录 作者和相关链接 方法概括 创新 ...

  3. 【论文速读】ChengLin_Liu_ICCV2017_Deep_Direct_Regression_for_Multi-Oriented_Scene_Text_Detection

    ChengLin Liu_ICCV2017_Deep Direct Regression for Multi-Oriented Scene Text Detection 作者 关键词 文字检测.多方向 ...

  4. 论文速读(Chuhui Xue——【arxiv2019】MSR_Multi-Scale Shape Regression for Scene Text Detection)

    Chuhui Xue--[arxiv2019]MSR_Multi-Scale Shape Regression for Scene Text Detection 论文 Chuhui Xue--[arx ...

  5. 论文速读(Yongchao Xu——【2018】TextField_Learning A Deep Direction Field for Irregular Scene Text)

    Yongchao Xu--[2018]TextField_Learning A Deep Direction Field for Irregular Scene Text Detection 论文 Y ...

  6. 【论文速读】Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping

    Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrappi ...

  7. 论文阅读(Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection)

    Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录 作者 ...

  8. 【论文速读】Shitala Prasad_ECCV2018】Using Object Information for Spotting Text

    Shitala Prasad_ECCV2018]Using Object Information for Spotting Text 作者和代码 关键词 文字检测.水平文本.FasterRCNN.xy ...

  9. 【论文速读】Sheng Zhang_AAAI2018_Feature Enhancement Network_A Refined Scene Text Detector

    Sheng Zhang_AAAI2018_Feature Enhancement Network_A Refined Scene Text Detector 作者 关键词 文字检测.水平文字.Fast ...

随机推荐

  1. 【JavaScrpt】JS之数组去重

    var arr = [] var peoples = [ {id:1,name:'wang'}, {id:2,name:'zhang'}, {id:2,name:'zhang'}, ] for(let ...

  2. python 类和元类(metaclass)的理解和简单运用

    (一) python中的类 首先这里讨论的python类,都基于继承于object的新式类进行讨论. 首先在python中,所有东西都是对象.这句话非常重要要理解元类我要重新来理解一下python中的 ...

  3. 浅析uWSGI、uwsgi、wsgi

    WSGI协议 首先弄清下面几个概念: WSGI:全称是Web Server Gateway Interface,WSGI不是服务器,python模块,框架,API或者任何软件,只是一种规范,描述web ...

  4. 转UI么?不想

    最近一直在弄UI   对于UI实在是不想弄了    很痛苦...我一开始都比较热衷后台开发  但是前端UI 我只是有点兴趣而已,但是还一直要做...太累了    或许要学的东西还是有很多的!一直不知道 ...

  5. UIButton设置标题左对齐

    Button.contentHorizontalAlignment = UIControlContentHorizontalAlignmentLeft;//左对齐(UIControlContentHo ...

  6. vue2 里边使用 swiper2

    找过了很多轮播图插件,我都不会用,还是回到swiper2吧... npm install swiper@2.7.6 --save-dev 封装成一个组件 <template> <di ...

  7. disconf安装问题

    安装参考文档:https://blog.csdn.net/fengyao1995/article/details/66491226 主要说说遇到的几个问题 1.在步骤6构建的时候,用jdk1.8,进行 ...

  8. 2018-2019-2-20175303 实验一 《Java开发环境的熟悉》实验报告

    2018-2019-2-20175303 实验一 <Java开发环境的熟悉>实验报告 一.实验内容及步骤 实验1 1.用mkdir建立“20175303exp1”的目录 2.在“20175 ...

  9. ip通信第七周

    局域网的优点:1.具有较高的数据传输率 2.具有较低的误码率 3.具有较低的时延 4.能进行广播 网桥的基本特征:1.网桥在数据链录层上实现局域网互连 2.网桥能够互连两个采用不同数据链路层协议,不同 ...

  10. spring注解简单记录

    @Autowired 自动匹配,按类型 @qualifiter("beanname") 当有多个bean匹配时,可指定bean名称 @Resource byname优先匹配,然后b ...