Yuliang Liu_2017_Detecting Curve Text in the Wild_New Dataset and New Solution

作者和代码

caffe版代码

关键词

文字检测、曲文、直接回归、14个点、one-stage、开源

方法亮点

第一篇做曲文检测，还提出一个数据集CTW1500
使用14个点多边形来表示曲文
提出了一个结合CNN-RPN+RNN的检测方法专门做曲文检测

方法概述

本文方法基于RPN进行修改，除了学习text/non-text分类，多边形的bounding box回归（x1,y1,x2,y2），增加了14个点的回归，最后再进行后处理（去噪+nms）得到最终输出。

方法细节

用多边形比用四边形表示曲文更好

网络结构

分三个分支。

第一个text/non-text分支，普通的分类任务
第二个分支是整个曲文（多边形）的最外接正矩形bounding box的x1，y1，x2，y2回归任务
第三个分支是14个点的点坐标的回归任务。包括采用类似R-FCN方式进行画网格pooling、以及用RNN来增加上下文信息做平滑

regression输出

使用32个值 = 14*2=28个坐标偏移量 + 多边形的boundingbox的4个值（x1, y1, x2, y2）

Recurrent Transverse and Longitudinal Offset Connection (TLOC)

PSROIPooling： Position-sensitive ROI Pooling，类似于R-FCN，因为14个点分布的位置不同，故采用这种和位置相关的pooling
把x、y分开成两个branch
总的loss = 二类分类 + bounding box 回归 + 坐标点回归

使用RNN来平滑点（点坐标可以看做是序列问题，上下文相关性强，例如第4个点必须在第2个点的右边，有隐性约束条件，故可以用RNN来平滑）

Independently predicting each offset may lead to unsmooth text region, and somehow it may bring more false detection. Therefore, we assume the width/height of each point has associated context information, and using RNN to learn their latent characteristics. We name this method as recurrent transverse and longitudinal offset connection (TLOC).

是否使用TLOC的效果对比

CTW1500数据集

图像数1500，10751个bounding boxes，3530 curve bounding boxes，at least one curve text per image.
数据来源：google Open-Image 、自己手机收集样本
标记点采用14个点

标记不同框的效率对比

CTW样例图

长边插值

对于只有两个或四个点的annotation采用均匀差值到14个点

Figure 6. Visualization of the interpolation for 4 points bounding boxes. The 10 equal division points will be respectively interpolated in two Red sides of each bounding box. Green means straight line without interpolation.

后处理NMS

去掉无效的多边形（比如不能有相交的边）
进行多边形的NMS（计算多边形的交并比）

实验结果

CTW1500
TLOC和NMS结果

实验结果示例

总结与收获

CTD这篇华南理工的是第一个做曲文检测的。以前有人做过曲文的不过主要是识别，这是第一次做检测，而且还提出了一个专门做曲文的数据库CTW1500。这个方法的核心在于统一用14个点来表示曲线文字，然后因为相邻的点之间应该要有一定上下文的相关性（相邻点不能跑太远），所以作者用了RNN来做平滑。

【论文速读】Yuliang Liu_2017_Detecting Curve Text in the Wild_New Dataset and New Solution的更多相关文章

【论文速读】Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation[2018-CPVR]
方法概述该方法用一个端到端网络完成文字检测整个过程——除了基础卷积网络(backbone)外,包括两个并行分支和一个后处理.第一个分支是通过一个DSSD网络进行角点检测来提取候选文字区域,第二个分支 ...
论文速读（Chuhui Xue——【arxiv2019】MSR_Multi-Scale Shape Regression for Scene Text Detection）
Chuhui Xue--[arxiv2019]MSR_Multi-Scale Shape Regression for Scene Text Detection 论文 Chuhui Xue--[arx ...
论文速读（Jiaming Liu——【2019】Detecting Text in the Wild with Deep Character Embedding Network ）
Jiaming Liu--[2019]Detecting Text in the Wild with Deep Character Embedding Network 论文 Jiaming Liu-- ...
论文速读（Yongchao Xu——【2018】TextField_Learning A Deep Direction Field for Irregular Scene Text）
Yongchao Xu--[2018]TextField_Learning A Deep Direction Field for Irregular Scene Text Detection 论文 Y ...
【论文速读】XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection
XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection 作者和代码 caffe代码关键词 ...
【论文速读】XiangBai_TIP2018_TextBoxes++_A Single-Shot Oriented Scene Text Detector
XiangBai_TIP2018_TextBoxes++_A Single-Shot Oriented Scene Text Detector 作者和代码 Minghui Liao, Baoguang ...
【论文速读】Shitala Prasad_ECCV2018】Using Object Information for Spotting Text
Shitala Prasad_ECCV2018]Using Object Information for Spotting Text 作者和代码关键词文字检测.水平文本.FasterRCNN.xy ...
【论文速读】Sheng Zhang_AAAI2018_Feature Enhancement Network_A Refined Scene Text Detector
Sheng Zhang_AAAI2018_Feature Enhancement Network_A Refined Scene Text Detector 作者关键词文字检测.水平文字.Fast ...
【论文速读】Shangbang Long_ECCV2018_TextSnake_A Flexible Representation for Detecting Text of Arbitrary Shapes
Shangbang Long_ECCV2018_TextSnake_A Flexible Representation for Detecting Text of Arbitrary Shapes 作 ...

随机推荐

导入Maven 工程pom.xml首行报错解决方法
1.利用IDE导入一个Maven工程,但是pom.xml文件首行报错,发现是maven版本需要升级 2.在pom.xml文件增加配置 <properties> <maven-jar ...
centos下安装python3.7.0以上版本时报错ModuleNotFoundError: No module named '_ctypes'
centos下安装python3.7.0以上版本时报错ModuleNotFoundError: No module named '_ctypes'的解决办法 3.7版本需要一个新的包libffi-de ...
open
open服务指的是封装的订单流接口,给外部第三方提供使用.(当然也可以区别的名字,我司这么叫而已,并且是用Java写的,谁晓得为什么不选择PHP来写)通过open api合作方就可以通过调用接口直接下 ...
如何设计一个restful风格的API
1.API接口应该尽量兼容之前的版本,在URL上应保留版本号,并同时兼容多个版本 2.每一个URI代表一个资源 3.请求方式要与http请求方式一致,GET(获取),POST(新增),PUT(更新全部 ...
idea 自定义注释模板
一.类注释模板打开Preferences Editor -> File and Code Templates -> Files -> Class 效果图: 注释模板 /** * @ ...
ORACLE中通过SQL语句(alter table)来增加、删除、修改字段
1.添加字段: alter table 表名 add (字段字段类型) [ default '输入默认值'] [null/not null] ; 2.添加备注: comment on ...
小甲鱼零基础python课后题 P24 023递归：这帮小兔崽子
0.使用递归写一个十进制转换为二进制的函数(要求“取2取余”的方式,结果与调用bin()一样返回字符串式). 答: def Dec2Bin(dec): temp = [] result = '' wh ...
ASP.NET Core 问题排查：Request.EnableRewind 后第一次读取不到 Request.Body
实际应用场景是将用户上传的文件依次保存到阿里云 OSS 与腾讯云 COS ,实现方式是在启用 Request.EnableRewind() 的情况下通过 Request.Body 读取流,并依次通过 ...
vins-mono:雅可比矩阵的推导
imu残差公式我们计算雅可比采用加扰动形式以下是位置增量偏差对旋转qbk的雅可比推导对应的雅可比矩阵的代码 jacobian_pose_i.block<, >(O_P, O_R) = ...
windows创建定时任务执行python脚本
一.创建定时任务 \ [程序或脚本]文本框中填的是Python编译器的名称,一般就是python.exe, [起始于]文本框中填的是Python编译器的目录,上图中假设你的Python编译器的完整路径 ...

【论文速读】Yuliang Liu_2017_Detecting Curve Text in the Wild_New Dataset and New Solution