【论文阅读】TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

ECCV2018

北京大学、face++

思路：

预测文本区域与连接方向，串起来

Pipeline：

通过FCN+FPN网络
预测TR（文本域）、TCL（文本中心线）、角度、半径
过滤文本线，后处理

网络细节：

1.基础网络采用VGG16

2.输出大小和原图一样（耗内存，慢，但是和小栋工作类似）

输出细节：

1.过滤文本中心线（相交）

2.文本线生成（过滤后还是一整块状态）

(1) 取一点，作垂线定位中心

(2) 沿着预测的角度滑动一定距离（有给计算法则）

(3) 在新的点重复2步骤直到端点

滑动位置计算：

如果点不在区域内，就逐渐减小步长知道在里面或者该点当作端点（没具体解释，差不多了）

Label生成

文本线：

(1) 找出头尾（两条边：前后两条相邻边cos最小）

(2) 画出中心线上的点（在对应的边上打格子，取中点连起来）

(3) 缩短中心线（类似EAST），扩大中心线区域（缩短0.5r，扩大0.2r）

半径：到边的距离
角度：

损失函数：

系数均为1
TR分类用的是OHEM，TCL损失只考虑TR区域内的

实验数据集：

TotalText(弯曲)
CTW1500(弯曲)
ICDAR2015（多方向）
MSRA-TD500（水平）

实验细节：

数据增强，缩放比0.24-1.69，随机旋转，还有颜色模糊高斯噪声等增强
Tensorflow1.3
GPU Titan X*2
学习率0.0001每5000次衰减0.8
Batch size 32

实验结果：

0.SynthText预训练

1.Total-Text输入大小512*512，阈值（0.4，0.6），5k次训练

2.CTW1500输入大小512*512，阈值（0.4，0.5），5k次训练

3.ICDAR2015，30K次，（0.4，0.9），输入大小1280 × 768

4.30K次，（0.4，0.9），输入大小1280 × 768

4.迁移

总结：

学习任务拟人化
角度的预测有cos和sin
放大的map

思考：

增加标注信息，精确到字符
角度上更拟人一点，从左往右从上到下

【论文阅读】TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes的更多相关文章

【论文速读】Shangbang Long_ECCV2018_TextSnake_A Flexible Representation for Detecting Text of Arbitrary Shapes
Shangbang Long_ECCV2018_TextSnake_A Flexible Representation for Detecting Text of Arbitrary Shapes 作 ...
论文阅读笔记 Improved Word Representation Learning with Sememes
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...
[论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks
[论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks 本文结构解决问题主要贡献算法 ...
论文阅读（XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments）
XiangBai——[CVPR2017]Detecting Oriented Text in Natural Images by link Segments 目录作者和相关链接方法概括方法细节 ...
深度学习论文翻译解析（三）：Detecting Text in Natural Image with Connectionist Text Proposal Network
论文标题:Detecting Text in Natural Image with Connectionist Text Proposal Network 论文作者:Zhi Tian , Weilin ...
论文阅读笔记五十：CornerNet: Detecting Objects as Paired Keypoints(ECCV2018)
论文原址:https://arxiv.org/pdf/1808.01244.pdf github:https://github.com/princeton-vl/CornerNet 摘要本文提出了目 ...
论文阅读（XiangBai——【PAMI2018】ASTER_An Attentional Scene Text Recognizer with Flexible Rectification )
目录 XiangBai--[PAMI2018]ASTER_An Attentional Scene Text Recognizer with Flexible Rectification 作者和论文 ...
论文阅读笔记四：CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016)
前面曾提到过CTPN,这里就学习一下,首先还是老套路,从论文学起吧.这里给出英文原文论文网址供大家阅读:https://arxiv.org/abs/1609.03605. CTPN,以前一直认为缩写一 ...
论文阅读（Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network）
Weilin Huang——[ECCV2016]Detecting Text in Natural Image with Connectionist Text Proposal Network 目录 ...

随机推荐

SQL注入学习（一）
SQL注入(SQL Injection)是一种常见的Web安全漏洞,攻击者利用这个漏洞,可以访问或修改数据,或者利用潜在的数据库漏洞进行攻击. SQL注入基础漏洞原理针对SQL注入的攻击行为可描述 ...
Java IO_002.InputStream与OutputStream--字节流对数据的操作（读取与写入）
Java IO之FileInputStream与FileOutputStream对象常用操作涉及到文件(非文件夹)内容的操作,除了要用到File(见之前文章),另外就必须用到输入流或输出流. 输入流 ...
变量 + 数据类型(数字 + 字符串)(day03整理)
目录一.上节课回顾四编程语言分类 (一) 机器语言 (二)汇编语言 (三) 高级语言 (四) 网络瓶颈效应五.执行python程序两种方式 (一) 交互式(jupytre) (二) 命令行式( ...
UIAlert
转自:https://blog.csdn.net/deng0zhaotai/article/details/53887508 通过uialertcontroller实现三种简易弹框 (一)警告类 - ...
按钮组件.html
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
第一篇：版本控制git之仓库管理
---恢复内容开始--- 再开始这个话题之前,让我想起了一件很痛苦的事情,在我大学写毕业论文的时候,我当时的文件是这样保存的毕业论文_初稿.doc 毕业论文_修改1.doc 毕业论文_修改2.doc ...
Nginx 的请求处理流程，你了解吗？
之前我们已经讲解了 Nginx 的基础内容,接下来我们开始介绍 Nginx 的架构基础. 为什么我们要讨论 Nginx 的架构基础? 因为 Nginx 运行在企业内网的最外层也就是边缘节点,那么他处理 ...
我跟上家老板说过的最后一句话：转.NET Core吧
最近几天浩子终于刚刚脱离了令人发指工作,一者是年底了,一者是不要向生活低头,就在这时我选择了第二者. 上家是做物联网的,人数不多,七八名开发人员,感觉都还可以,都很年轻没有秃顶,糊里糊涂就选择了入职. ...
1、第一个TensorFlow程序
import tensorflow as tf import os os.environ[' #去掉警告,将警告级别提升 a = tf.constant(2) #定义一个常量 b = tf.const ...
梯度下降法及一元线性回归的python实现
梯度下降法及一元线性回归的python实现一.梯度下降法形象解释设想我们处在一座山的半山腰的位置,现在我们需要找到一条最快的下山路径,请问应该怎么走?根据生活经验,我们会用一种十分贪心的策略,即在 ...

【论文阅读】TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

【论文阅读】TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes的更多相关文章

随机推荐

热门专题