Xiang Bai——【CVPR2015】Symmetry-Based Text Line Detection in Natural Scenes


目录

  • 作者和相关链接
  • 方法概括
  • 创新点和贡献
  • 方法细节
  • 实验结果
  • 问题讨论
  • 总结与收获点
  • 参考文献

  • 作者和相关链接

    • 作者

  • 方法概括

    • Step 1: 采用多尺度滑窗检测文本线的中心像素点,用对称特征和表观特征训练的随机森林得到候选的字符像素区域(两种特征是作者自己提的,文章亮点所在);
    • Step 2: 利用字符像素的角度和距离约束,将候选字符像素点聚合成字符串区域;
    • Step 3: 用两个CNN分类器,字符级和字符串级,过滤非字符串区域,并采用常规的方法将文本线切成单词(不是重点,很简略)

Figure 2. Schematic pipeline of our symmetry-based text-line detection algorithm. (a) Input image; (b) Response map of the symmetry detector; (c) Symmetrical point grouping; (d) Estimated
bounding boxes based on the detected symmetrical axes. (e) Detection result after false alarm removal.

  • 创新点和贡献

    • idea出发点:人眼看图像中是否有文字,不需要逐字确认,甚至只需一瞥就可以确定,这是因为文字区域本身具有和背景不同的对称性和自相似性。也就是说,想确定文字区域,可以从通过两个角度出发,第一,不检测单个文字,而是检测整个文字串,利用整个串的整体信息;第二,寻找文字串本身的特性,对称性(上下)和自相似性(内部相同,但是和背景不同)

Figure 1. Though the sizes of the characters within the yellow rectangles are small, human can easily discover and localize such text lines.

    • 创新点

      • 提出了针对文字串(character group)的对称性(symmetry)特征;
      • 和传统方法不同,不通过检测字符,笔画来确定文字区域,而是检测文字串
  • 方法细节

  1. Symmetry-based 文本线候选区域生成

    • feature extraction

      • Symmetry template

        • (x,y)表示大矩形(4s*4s)的中心点
        • 最小矩形大小为4s*s,包括RT,RMT,RMB,RB四个矩形
        • 中间矩形为红色区域,大小为4s*2s,包括RM(由RMT,RMB两个矩形合成)

Figure 3. Left: Template used to compute the features for symmetry axis detection, which consists of four rectangles with equal size. The height and the width of each rectangle are s and 4s, respectively. The scale of the template is determined by s. Right: The contents within the two middle rectangles are similar to each other but dissimilar to the contents of the top and bottom rectangles. Therefore, the symmetry response on the center line (the adjacent edge of the two middle rectangles) of the text region should be high.

      • Symmetry feature

        • 每个矩形的特征直方图定义如下,c表示某一种特征(直方图表示)

        • c的含义(共5中特征)

          • brightness-L*:LAB颜色空间中的L,32bin
          • color-a*         :LAB颜色空间中的a,32bin
          • color-b*         :LAB颜色空间中的b,32bin
          • texture-T*     :文献1中提取的纹理特征,?bin
          • gradient-G*   :梯度特征,16bin
        • 三种直方图的对称性特征
          • 文字区域的上半部和下半部的对称性:
          • 文字区域的上半部与背景的差异:
          • 文字区域的下半部与背景的差异:
        • 总的symmetry feature的特征维度
          • 5种cue*3种对称性= 15维
      • appearance feature: 采用文献2的LBP算法,取59个bin
      • total feature calculation : 15维symmetry feature + 59维的appearance feature = 74维特征(注意特征是对每个中心点的特征)
    • symmetry axis detection
      • 分类器:random forest-50
      • 样本:
        • 正样本:距离groundTruth小于2个pixels的像素点,共45万个
        • 负样本:距离groundTruth大于5个pixels的像素点,共45万个
      • 训练尺度:
        • 正样本:1种尺度,s等于groundTruth的bounding box的高度的一半
        • 负样本:24种尺度,s= [2,256]
      • 测试尺度:24种尺度,多种尺度进行非极大值抑制
    • proposals generation
      • group pixels into fragments

        • 像素距离小于3的合并成fragments
      • aggregate the fragments into text lines
          • 把fragments聚成文本线,采用图模型的方法,每个fragment看成一个节点,每两个fragment的相似性看成边,找出每个连通子图即为每个文本线
          • 两个fragment的相似性度量(A和B表示两个fragment,Φ表示每个fragment的角度)

        • angular diference constraint:

          • distance constraint

  2. 用CNN进行文本线噪声过滤

    • 先用字符级CNN过滤,再用单词级CNN过滤(文中没有提到有关CNN的相关细节)
    • 字符级样本:文献3的字符数据库
    • 单词级样本:ICDAR2011,SVT, IIIT5K-word,PASCAL-VOC, BSD500的样本
    • 文本线切分成单词的方法参考文献3

  3. 多尺度进行检测

Figure 4. Procedure of text line proposal generation. (a) Input image. (b) Feature extraction at multiple scales. (c) Symmetry probability maps. (d) Axes sought in the symmetry probability maps. (e) Bounding box estimation. (f) Proposals from different scales

  • 实验结果

    • 实验速度:平均30s每张图(Matlab, 2.0GHz 8-core CPU, 64G RAM and Windows 64-bit OS)
    • Symmetry和Appearance特征的实验效果

    • ICDAR2011

    • ICDAR2013

    • SVT

    • 其他语言的扩展

  • 问题讨论

    • 本方法的不足

      • 速度慢
      • 只能处理水平、近水平的文字
  • 总结与收获点

    • 现在的文字检测方法越来越偏向于利用文字上下文信息检测文本,都喜欢一开始就检测文本块,文本行,而不再像原来一样先检测单个字符,因为这种方法确实更鲁棒
    • 文字的对称性特征挺好的,从低级特征中提取,可以扩展到其他问题中,先mark
    • 文中举出了一些文字检测的难点的案例,非常有代表性
      • 对比度低:上图——(b), (i), 下图——(c)
      • 笔画断裂:上图——(c)
      • 光照影响:上图——(g), 下图——(a),(b)
      • 点矩阵字:上图——(a),(j)
      • 分辨率低:上图——(g)
      • 字符相连:上图——(h)
      • 单个字符:下图——(f)
      • 字符大小差异很大:下图——(d)


  • 参考文献

    1. D. R. Martin, C. Fowlkes, and J. Malik. Learning to detect natural image boundaries using local brightness, color, and texture cues. IEEE Trans. Pattern Anal. Mach. Intell., 26(5):530–549, 2004.
    2. T. Ojala, M. Pietik¨ainen, and T. M¨aenp¨a¨a. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Trans. Pattern Anal. Mach. Intell., 24(7):971–987, 2002.
    3. M. Jaderberg, A. Vedaldi, and A. Zisserman. Deep features for text spotting. In Proc. of ECCV, 2014.

论文阅读(Xiang Bai——【CVPR2015】Symmetry-Based Text Line Detection in Natural Scenes)的更多相关文章

  1. 论文阅读笔记四:CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016)

    前面曾提到过CTPN,这里就学习一下,首先还是老套路,从论文学起吧.这里给出英文原文论文网址供大家阅读:https://arxiv.org/abs/1609.03605. CTPN,以前一直认为缩写一 ...

  2. #论文阅读# Universial language model fine-tuing for text classification

    论文链接:https://aclweb.org/anthology/P18-1031 对文章内容的总结 文章研究了一些在general corous上pretrain LM,然后把得到的model t ...

  3. 论文阅读 | HotFlip: White-Box Adversarial Examples for Text Classification

    [code] [pdf] 白盒 beam search 基于梯度 字符级

  4. 论文阅读笔记三十五:R-FCN:Object Detection via Region-based Fully Convolutional Networks(CVPR2016)

    论文源址:https://arxiv.org/abs/1605.06409 开源代码:https://github.com/PureDiors/pytorch_RFCN 摘要 提出了基于区域的全卷积网 ...

  5. 论文阅读 | FPN:Feature Pyramid Networks for Object Detection

    论文地址:https://arxiv.org/pdf/1612.03144v2.pdf 代码地址:https://github.com/unsky/FPN 概述 FPN是FAIR发表在CVPR 201 ...

  6. 论文阅读笔记七:Structure Inference Network:Object Detection Using Scene-Level Context and Instance-Level Relationships(CVPR2018)

    结构推理网络:基于场景级与实例级目标检测 原文链接:https://arxiv.org/abs/1807.00119 代码链接:https://github.com/choasup/SIN Yong ...

  7. 论文阅读(Xiang Bai——【arXiv2016】Scene Text Detection via Holistic, Multi-Channel Prediction)

    Xiang Bai--[arXiv2016]Scene Text Detection via Holistic, Multi-Channel Prediction 目录 作者和相关链接 方法概括 创新 ...

  8. 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)

    白翔的CRNN论文阅读 1.  论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...

  9. 论文阅读(Xiang Bai——【TIP2014】A Unified Framework for Multi-Oriented Text Detection and Recognition)

    Xiang Bai--[TIP2014]A Unified Framework for Multi-Oriented Text Detection and Recognition 目录 作者和相关链接 ...

随机推荐

  1. IOS_ios逆向工程-静态分析

    返回博客列表 原 ios逆向工程-静态分析 余成海 发布时间: 2014/11/03 19:17 阅读: 11201 收藏: 17 点赞: 5 评论: 6 最近在学习IOS逆向工程,查看网络上的资料也 ...

  2. VS2013 配置pthread

    参考:http://blog.csdn.net/qianchenglenger/article/details/16907821 一.下载地址 ftp://sourceware.org/pub/pth ...

  3. 07@Pattern_Note_命令模式

    前言 20160109: 今天开始看命令模式,主要从概念和实现来深入理解该模式 概念理解[部分来自摘录] 概念 通常来说,"行为请求者"与"行为实现者"是紧耦合 ...

  4. arp欺骗技术

      ARP欺骗技术-获取内网目标IP访问图片!   简介: ARP(Address Resolution Protocol,地址解析协议)是一个位于TCP/IP协议栈中的网络层,负责将某个IP地址解析 ...

  5. FileOutputStream和FileInputStream的用法

    public static void show() { File f=new File("d:"+File.separator+"1.txt"); FileOu ...

  6. EMF学习,为了实现可扩展可自定义的模型验证 - 各种实现方法学习

    自: http://blog.csdn.net/javaman_chen/article/details/6057033 http://www.ibm.com/developerworks/cn/op ...

  7. Java Mybatis 框架入门教程

    一.Mybatis介绍 MyBatis是一款一流的支持自定义SQL.存储过程和高级映射的持久化框架.MyBatis几乎消除了所有的JDBC代码,也基本不需要手工去 设置参数和获取检索结果.MyBati ...

  8. 【转】jquery.cookie.js的使用

    Cookie是由服务器端生成,发送给User-Agent(一般是浏览器),浏览器会将Cookie的key/value保存到某个目录下的文本文件内,下次请求同一网站时就发送该Cookie给服务器(前提是 ...

  9. (。・・)ノ~个人java学习随笔记录

    基本认识 1.编程思维 根据这几天的java学习,编写程序最重要的就是要有一个清晰的思路.语法上的错误可以跟随着不断的联系与学习来弥补,清晰的思维却只有自己来前期模仿,后面慢慢摸索形成一套属于自己的思 ...

  10. iOS超全开源框架、项目和学习资料汇总(5)AppleWatch、经典博客、三方开源总结篇

    完整项目 v2ex – v2ex 的客户端,新闻.论坛.apps-ios-wikipedia – apps-ios-wikipedia 客户端.jetstream-ios – 一款 Uber 的 MV ...