Lukas Neuman——【ICDAR2015】Efficient Scene Text Localization and Recognition with Local Character Refinement

算法介绍

Fig. 2. Overview of the method. Initial text hypotheses efficiently generated
by a MSER detector are further refined using a local text model, unique to
each text line

一、候选字符提取

1. MSER提取，二值化
2. 算出Distance Map
3. 求出所有SSP（以每个像素为中心的3*3窗口内，若中心点是最大值，则表示是SSP点）

4. 对每个连通分量，计算5维特征

5. 用4中学到的5维特征训练SVM分类器（三类，单字符，多字符，背景）

二、文本线形成
1. 每三个字符拟合一条直线（三个，拟合误差小）
2. 所有直线进行聚类
3. 对每类的文本线投票选出最终的文本线

三、字符调整
1. 算法目标：补全每个文本框里的字符

2. 算法初始值：Pf为MSER像素值，B为其他像素值，DF为空
3. 算法步骤：
（1）边界扩展：计算PF的外接矩形，并进行边界扩展（水平取字符平均宽度，高度取高度的1/3）
（2）更新DF：计算PF点中的SSP点，加入到DF中
（3）训练GMM：使用DF点作为前景，B点作为背景，学习GMM的参数
（4）构建图模型：加入源点（source）和汇点（sink），边权重如下：
　　　　1）第一类：源点与DF、PF相连，汇点与B相连。这些边的权重即为公式中的U，由算法步骤（3）中的GMM模型给出；
　　　　2）第二类：相邻像素点相连。边权重即为公式中的V，通过计算像素点在RGB空间的欧式距离得到；
（5）求最小割模型：利用GrabCut算法求最小割，割分成的两个集合一个为PF，一个为B。
（6）重新迭代（1）~（5），直到收敛（PF和B不再变化）
4. 算法输出：一个稳定的PF集合（属于字符的像素点）和B集合（属于背景的像素点）。

5. 算法的后处理：
（1）计算PF的连通分量，得到候选图；
（2）如果PF或B为空，则表示只有前景或背景点，说明是噪声块

6. 算法的示例图如下：

Fig. 1. The method pipeline. Source image (a). Initial MSER detection and classification (b) - character MSERs denoted green, multi-character MSERs blue and background MSERs denoted red. Text lines formation (c) - bottom line estimate in red. Local text refinement for the first text line - initialization (d), first iteration (e), second iteration (f), the last iteration (g), definitive foreground pixels in green, probable foreground pixels in blue, background pixels in red, ignored pixels in yellow. Final segmentation and text recognition (h)

有意思的问题

为什么原始的As计算方法不好，要换成带w权的？权w为什么是那样的？（提示：奇数可以，偶数double）
为什么要分成三类？（提示：单字符和多字符的5种特征差异性太大）
为什么要进行character refinement？（提示：第一，为字符识别提供更准确的字符区域，第二，优化检测得到的结果）

未解决的问题

用5维特征训练SVM，特征会不会太短，会不会过拟合？
文本线形成算法具体是怎么实现，细节怎样？
GrabCut算法的实现？
Distance Map的实现？

论文阅读（Lukas Neuman——【ICDAR2015】Efficient Scene Text Localization and Recognition with Local Character Refinement）的更多相关文章

论文阅读（Lukas Neumann——【ICCV2017】Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework）
Lukas Neumann——[ICCV2017]Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recogn ...
【论文速读】Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping
Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrappi ...
【CV论文阅读】+【搬运工】LocNet: Improving Localization Accuracy for Object Detection + A Theoretical analysis of feature pooling in Visual Recognition
论文的关注点在于如何提高bounding box的定位,使用的是概率的预测形式,模型的基础是region proposal.论文提出一个locNet的深度网络,不在依赖于回归方程.论文中提到locne ...
论文阅读笔记四：CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016)
前面曾提到过CTPN,这里就学习一下,首先还是老套路,从论文学起吧.这里给出英文原文论文网址供大家阅读:https://arxiv.org/abs/1609.03605. CTPN,以前一直认为缩写一 ...
【论文速读】Fangfang Wang_CVPR2018_Geometry-Aware Scene Text Detection With Instance Transformation Network
Han Hu--[ICCV2017]WordSup_Exploiting Word Annotations for Character based Text Detection 作者和代码 caffe ...
#论文阅读# Universial language model fine-tuing for text classification
论文链接:https://aclweb.org/anthology/P18-1031 对文章内容的总结文章研究了一些在general corous上pretrain LM,然后把得到的model t ...
论文阅读 | HotFlip: White-Box Adversarial Examples for Text Classification
[code] [pdf] 白盒 beam search 基于梯度字符级
论文阅读笔记“Attention-based Audio-Visual Fusion for Rubust Automatic Speech recognition”
关于论文的阅读笔记论文的题目是“Attention-based Audio-Visual Fusion for Rubust Automatic Speech recognition”,翻译成中文为 ...
[论文阅读] A Discriminative Feature Learning Approach for Deep Face Recognition (Center Loss)
原文: A Discriminative Feature Learning Approach for Deep Face Recognition 用于人脸识别的center loss. 1)同时学习每 ...

随机推荐

发布mvc报错：403.14-Forbidden Web 服务器被配置为不列出此目录的内容
有两个地方需要配置: 1.web.config中的节点: <system.webServer> <validation validateIntegratedModeConfigura ...
[转]基于Starling移动项目开发准备工作
最近自己趁业余时间做的flash小游戏已经开发得差不多了,准备再完善下ui及数值后,投放到国外flash游戏站.期间也萌生想法,想把游戏拓展到手机平台.这两天尝试了下,除去要接入ane接口的工作,小游 ...
SQLServer注入技巧
一.对于SA权限的用户执行命令,如何获取更快捷的获取结果? 有显示位无显示位其实这里的关键并不是有无显示位.exec master..xp_cmdshell 'systeminfo'生成的数据写进 ...
2016huasacm暑假集训训练三 F - Jungle Roads
题目链接:http://acm.hust.edu.cn/vjudge/contest/123674#problem/F 题意:在相通n个岛屿的所有桥都坏了,要重修,重修每一个桥所用的时间不同,求重修使 ...
函数Curry化
之前写过一个函数Curry化的小文章那会儿对Curry化的理解不够深,平时遇到的需要Curry化的例子也比较少,今天,重新整理这个问题函数Curry化,其实就是将一个参数非常多的函数,在大多数参数 ...
asp.net identity 2.2.0 在WebForm下的角色启用和基本使用（三）
角色管理功能: 界面部分: <%@ Page Title="" Language="C#" MasterPageFile="~/Site.mas ...
JAVA继承与覆写
实例:数组操作首先是开发一个整型数组父类,要求从外部控制数组长度,并实现保存数据以及输出.然后子类中实现排序和反转. 基础父类代码如下: class Array { private int data ...
js 函数返回函数
<script> var aa = function(fn, time, interval){ return function(){ if (typeof(fn) != 'function ...
（转）微信小程序破解IDE
1.IDE下载微信web开发者工具,本人是用的windows 10 x64系统,用到以下两个版本的IDE安装工具与一个破解工具包: wechat_web_devtools_0.7.0_x64.exe ...
Ext.js添加子组件
Ext框架提供了很多api,对于不熟悉的人来说,api的释义有时不够明了.最近碰到了添加子组件的需求,特记录下来. 1. 例如,有一个窗体组件: 现在要为其添加一个字段“学校分类”,变成如下所示: 示 ...

论文阅读（Lukas Neuman——【ICDAR2015】Efficient Scene Text Localization and Recognition with Local Character Refinement）

Lukas Neuman——【ICDAR2015】Efficient Scene Text Localization and Recognition with Local Character Refinement

算法介绍

有意思的问题

未解决的问题

论文阅读（Lukas Neuman——【ICDAR2015】Efficient Scene Text Localization and Recognition with Local Character Refinement）的更多相关文章

随机推荐

热门专题