EAST 自然场景文本检测

自然场景文本检测是图像处理的核心模块，也是一直想要接触的一个方面。

刚好看到国内的旷视今年在CVPR2017的一篇文章：EAST: An Efficient and Accurate Scene Text Detector。而且有开放的代码，学习和测试了下。

题目说的是比较高效，它的高效主要体现在对一些过程的消除，其架构就是下图中对应的E部分，跟上面的比起来的确少了比较多的过程。这与去年经典的CTPN架构类似。不过CTPN只支持水平方向，而EAST在论文中指出是可以支持多方向文本的定位的。

对于长文本效果不好。

优势：

提供了方向信息，可以检测各个方向的文本

缺点：

对较长的文本检测效果不好，感受野不够长

整体网络结构分为3个部分

(1) 特征提取层：

使用的基础网络结构是PVANet，分别从stage1，stage2，stage3，stage4抽出特征，一种FPN(feature pyramid network)的思想。

(2) 特征融合层：

第一步抽出的特征层从后向前做上采样，然后concat

(3) 输出层：

输出一个score map和4个回归的框+1个角度信息，或者输出，一个scoremap和8个坐标信息。

由于程序实现使用的基础网络不是pvanet网络，而是resnet50-v1。

在caffe版本的resnet50实现中，只有第一个卷积后面的pooling和最后一层的gloabl pooling，详细结构见reference，网络通过卷积层的stride=2操作实现类似pooling的效果

而本程序使用的slim中带的resnet50包含了5个pooling。

Resnet50结构，最后一个featuremap本质上将输入图像缩小16倍(4个pooling)，最后一个gloabl pooling，类似于vgg中的全连接。gloabl pooling是googlenet和Resnet的专利。

本文网络结构主要取了pool2，pool3，pool4，pool5，的featuremap引出，分别进行uppooling，concat，conv操作，得到最终的featuremap，然后进行卷积，分别输出channel=1的F_score

，channel=4的geo_map，channel=1的angle_map。

标签生成过程：

(a) 中黄色的为人工标注的框，绿色为对黄色框进行0.3倍边长的缩放后的框，这样做可以进一步去除人工标注的误差，拿到更准确的label信息。

(b) 为根据(a)中绿色框生成的label信息

论文采用的架构如下：

后来，有大佬改进EAST针对长文本检测效果不好的缺陷，提出advancedEAST，结构如下：

开源源码：https://github.com/huoyijie/AdvancedEAST

转自： https://blog.csdn.net/sparkexpert/article/details/77987654

https://blog.csdn.net/qq_14845119/article/details/78986449

仅为学习记录，侵删，感谢作者。

EAST 自然场景文本检测的更多相关文章

【OCR技术系列之五】自然场景文本检测技术综述（CTPN, SegLink, EAST）
文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别.今天我们首先来谈一下当今流行的文字检测技术有哪些. 文本检测不是一件简 ...
Scene Text Detection(场景文本检测)论文思路总结
任意角度的场景文本检测论文思路总结共同点:重新添加分支的创新更突出场景文本检测基于分割的检测方法 spcnet(mask_rcnn+tcm+rescore) psenet(渐进扩展) mask tex ...
使用Keras基于AdvancedEAST的场景图像文本检测
Blog:https://blog.csdn.net/linchuhai/article/details/84677249 GitHub:https://github.com/huoyijie/Adv ...
OCR场景文本识别：文字检测+文字识别
一. 应用背景 OCR(Optical Character Recognition)文字识别技术的应用领域主要包括:证件识别.车牌识别.智慧医疗.pdf文档转换为Word.拍照识别.截图识别.网络图片 ...
Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network（利用像素聚合网络进行高效准确的任意形状文本检测）
PSENet V2昨日刚出,今天翻译学习一下. 场景文本检测是场景文本阅读系统的重要一步,随着卷积神经网络的快速发展,场景文字检测也取得了巨大的进步.尽管如此,仍存在两个主要挑战,它们阻碍文字检测部署 ...
CVPR2020论文解读：OCR场景文本识别
CVPR2020论文解读:OCR场景文本识别 ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network∗ 论文 ...
OpenCV_contrib里的Text(自然场景图像中的文本检测与识别)
平台:win10 x64 +VS 2015专业版 +opencv-3.x.+CMake 待解决!!!Issue说明:最近做一些字符识别的事情,想试一下opencv_contrib里的Text(自然场景 ...
应用笔画宽度变换（SWT）来检测自然场景中的文本
Introduction: 应用背景:是盲人辅助系统,城市环境中的机器导航等计算机视觉系统应用的重要一步.获取文本能够为许多视觉任务提供上下文的线索,并且,图像检索算法的性能很大部分都依赖于对应的文本 ...
使用Python基于VGG/CTPN/CRNN的自然场景文字方向检测/区域检测/不定长OCR识别
GitHub:https://github.com/pengcao/chinese_ocr https://github.com/xiaofengShi/CHINESE-OCR |-angle 基于V ...

随机推荐

hihoCoder - 1082 - 然而沼跃鱼早就看穿了一切（字符串处理！！）
#1082 : 然而沼跃鱼早就看穿了一切时间限制:1000ms 单点时限:1000ms 内存限制:256MB 描写叙述 fjxmlhx每天都在被沼跃鱼刷屏,因此他急切的找到了你希望你写一个程序屏蔽全 ...
WPF ClickOnce应用程序IIS部署发布攻略
WPF程序非常适合公司内网使用,唯一缺点就是客户端要安装.net框架4.0.优势也很明显,在客户端运行的是一个WinForm程序,自动下载,可以充分利用客户机的性能,而且是以当前的Windows用户权 ...
Semaphore控制同时访问的线程个数countdownlatch等待多个线程执行完本身线程再执行
Semaphore控制同时访问的线程个数countdownlatch等待多个线程执行完本身线程再执行 Semaphore控制同时访问的线程个数countdownlatch等待多个线程执行完本身线程再执 ...
.NET：C#的匿名委托和 Java的匿名局部内部类
背景这几天重温Java,发现Java在嵌套类型这里提供的特性比较多,结合自身对C#中匿名委托的理解,我大胆的做了一个假设:Java的字节码只支持静态嵌套类,内部类.局部内部类和匿名局部内部类都是编译 ...
OpenCV特征点检测
特征点检测目标在本教程中,我们将涉及: 使用 FeatureDetector 接口来发现感兴趣点.特别地: 使用 SurfFeatureDetector 以及它的函数 detect 来实现检测过程 ...
GLSL 在OpenGL中向shader传递信息【转】
http://blog.csdn.net/hgl868/article/details/7872219 引言一个OpenGL程序可以用多种方式和shader通信.注意这种通信是单向的,因为shade ...
python爬虫——利用BeautifulSoup4爬取糗事百科的段子
import requests from bs4 import BeautifulSoup as bs #获取单个页面的源代码网页 def gethtml(pagenum): url = 'http: ...
几个很实用的BOM属性对象方法
location对象 location.href-- 返回或设置当前文档的URLlocation.search -- 返回URL中的查询字符串部分.例如 http://www.dreamdu.com/ ...
vue项目中使用mockjs模拟接口返回数据
Mock.js 是一个模拟数据生成器,利用它,可以拦截ajax请求,直接模拟返回数据,这样前后端只要约定好数据格式,前端就不需要依赖后端的接口,可以直接使用模拟的数据了. 网上介绍mock的教程也较多 ...
Gerrit代码审核服务器搭建全过程
Gerrit代码审核服务器搭建全过程转载请标明出处:http://blog.csdn.net/ganshuyu/article/details/8978614 环境:Ubuntu12.xx 1.建立 ...

EAST 自然场景文本检测

EAST 自然场景文本检测的更多相关文章

随机推荐

热门专题