Rotational region cnn

我们的目标是检测任意方向的场景文本,与RRPN类似,我们的网络也基于FasterR-CNN ,但我们采用不同的策略,而不是产生倾斜角度建议。

我们认为RPN有资格生成文本候选,并根据RPN提出的候选文本预测方向信息

检测步骤:

如图所示:a.原图片

     b.通过rpn得到的text regions

     c.预测轴对齐框和倾斜框

     d.对倾斜框进行非极大值抑制得到预测结果

整个检测网络的结构如图:

提取特征的步骤跟之前的RCNN系列一样,基础CNN网络提取出特征,

然后由RPN提取出文本区域(RPN生成包围任意方向文本的轴对齐边界框),这里已经生成轴对齐框,送入ROI POOLING层进行多个尺度的池化操作(7*7,3*11,11*3)原先的Faster rcnn只有7*7,这三种是专门用来检测常见的文本框。并将pooled特征串联;

通过两个全连接层之后,进行

1.文本/非文本的分类

2.轴对齐框包围的倾斜框的预测,倾斜框的预测(x1,y1,x2,y2,h)这里解释下,倾斜框的坐标表示,通过矩形框顺时针的前两个点的坐标来确定一条线,然后通过h来确定宽度。

3.倾斜框的非极大值抑制,得到结果

倾斜框的坐标表示如图:

对于RPN做出的改动:

更多的小场景检测。通过在RPN中利用较小的anchor比例来解决这一问题。

在Faster R-CNN中的原始anchor 缩放是(8,16,32)

我们研究了两种策略:

  a)将anchor比例缩放更改为较小的尺寸,并使用(4,8,16);

  b)增加一个新的anchor缩放并利用(4,8,16,32)
对roi pooling做出的改动:

加入11*3和3*11,使用不同的roi pooling大小获取更多特征, pooled 特征被连接在一起以便进一步检测;

R2CNN的loss函数:

分为两部分,Lcls是分类的loss,下面分别是轴对齐框的Loss和倾斜框的Loss

R2CNN论文思路记录的更多相关文章

  1. Scene Text Detection(场景文本检测)论文思路总结

    任意角度的场景文本检测论文思路总结共同点:重新添加分支的创新更突出场景文本检测基于分割的检测方法 spcnet(mask_rcnn+tcm+rescore) psenet(渐进扩展) mask tex ...

  2. SCI小论文投稿记录

    英文小论文投的是SCI 3区的一个刊物,收录在spring,ei等, 投稿的时候2019/2/3影响因子2.8左右 现在2019/8/13  影响因子3.844 先科普下论文的各个状态 1. Subm ...

  3. 【论文阅读记录】Real-Time Correlative Scan Matching

    这篇文章是谷歌的Cartograph中实现real_time_correlative_scan_matcher的论文 Real-Time Correlative Scan MatchingEdwin ...

  4. PTA-B 1039 到底买不买 解题思路记录

    #include <cstdio> #include <string> #include <iostream> using namespace std; int m ...

  5. PAT1065 单身狗 (25分) 思路记录——参考大神柳婼

    1065 单身狗 (25分)   “单身狗”是中文对于单身人士的一种爱称.本题请你从上万人的大型派对中找出落单的客人,以便给予特殊关爱. 输入格式: 输入第一行给出一个正整数 N(≤ 50 000), ...

  6. echarts学习思路及常用属性记录

         此篇博文分享自己对于入门学习echart的思路及对常见组件的用法记录,如serise.data和坐标轴对应关系,多个坐标轴,多个grid的对齐,tooltip的超出处理,坐标轴/toolti ...

  7. 【Semantic segmentation】Fully Convolutional Networks for Semantic Segmentation 论文解析

    目录 0. 论文链接 1. 概述 2. Adapting classifiers for dense prediction 3. upsampling 3.1 Shift-and-stitch 3.2 ...

  8. NLP论文阅读一:Paper阅读方法

    参考:https://pan.baidu.com/s/1MfcmXKopna3aLZHkD3iL3w 一.为什么要读论文? 基础技术:读论文中的related works可以帮助了解该领域的一些主要的 ...

  9. 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)

    白翔的CRNN论文阅读 1.  论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...

随机推荐

  1. boost asio scalability and multithreading

    A library such as Boost.Asio is typically used to achieve greater efficiency. With no need to wait f ...

  2. TypeError:NoneType object is not callable情况下的错误

    只用在该视图函数下面加上return ‘值’

  3. 03 spring security执行流程分析

    spring security主要是依赖一系列的Filter来实现权限验证的,责任链设计模式是跑不了的.下面简单记录一下spring操作这些Filter的过程. 1. WebSecurityConfi ...

  4. contentSize,contentOffset,contentInset整理

    参考:https://blog.csdn.net/yyyyccll/article/details/71173150

  5. 【HDOJ6609】Find the answer(线段树)

    题意:给定一个n个正整数的数列,第i项为w[i],对于每个i,你要从[1,i-1]中选择一些变成0,使得变化后[1,i]的总和小于m,每次询问最少要变几个 n<=2e5,m<=1e9,1& ...

  6. 【HDOJ6598】Harmonious Army(最小割)

    题意:有n个人,每个人可以从A,B两种职业中选择一种 有m对两人组,如果两个人都是A能获得p的收益,一个A一个B能获得q的收益,都是B能获得r的收益,其中q=p/4+r/3,保证p%4=0,r%3=0 ...

  7. delphi 加入超链接

    delphi 加入超链接//在uses中加入ShellAPI//通过该lpFile参数可以实现链接到主页或ftp站点 ShellExecute(handle,nil,pchar('http://www ...

  8. 环境变量(windows下tomcat问题);shh连接虚拟机网络配置

    环境变量(windows下tomcat问题) 有tomcat有jdk 再配置环境变量:参考 提示:若选择“用户变量”,则本次配置的变量只对该用户有效          若选择“系统变量”,则对所有用户 ...

  9. 神秘的java Https

    说起网络安全,最基本的策略就是走https.https仿佛一条神秘通道,有了它,万事无忧. 究竟什么是https?如何实现https? 本文将揭开https的神秘面纱. WTF https 万事皆有源 ...

  10. 2019-2020-1 20175223 《信息安全系统设计基础》MyOD

    目录 一.要求 二.设计流程 1. 需求分析 2. 概要设计 伪代码 3. 详细设计 main.c tans_0x.c tans_pr.c tansp.h 三.编写Makefile,并制作动.静态库 ...