TextBoxes 与 TextBoxes ++

静悟生慧 2024-10-25 19:32:08 原文

TextBoxes

论文关键idea

本文和SegLink一样，也是在SSD的基础上进行改进的．相比SSD做了以下的改进：

修改了default box的apect ratio，分别为[1 2 3 5 7 10]，目的是适应文本行长度比较长，宽度比较短的特性，也就是说现在的default box是长条形
提出了text-box层，修改classifier卷积核的大小为 $1\times5$ ，而SSD中卷积核的大小为 $3\times3$ ，这样做的目的是更适合文本行的检测，避免引入非文本噪声
提出了端到端的训练框架．在训练的时候，输入图像由单尺度变成了多尺度
增加文本识别来提高文本行检测的效果，印象当中，白翔老师好像在一个报告中说过，增加文本识别在可以提高文本行检测的准确率

知乎：https://zhuanlan.zhihu.com/p/43545190

TextBoxes ++

一、文本检测与传统目标检测的区别：

1.文本检测有比较大的长宽比

2.一般的convolutional filter 无法全部检测到

可能的解决方案：

1.长的卷积核

2.inception结构的卷积核

3.局部检测然后组合

二、textboxes 对SSD的改进

1.把ssd的defaultbox 的比例改成（1，2，3，5，7，10）的长矩形

2.看下面图你会发现黄色虚线与SSD的区别把原先的作为分类的卷积核3*3改成了1*5，更适合文字这样的对象

长卷积核与长的defaultbox

3.从多尺度变换成单尺度（这里就奠定了textboxes系列的算法对尺度的依赖的严重性，亲测对不同尺度图片，要调整相应的不同尺度，效果才最好）

textboxes网络结构SSD网络结构

三，我们来看看textbox++有哪些改进

https://arxiv.org/pdf/1801.02765.pdf 论文所在地

https://github.com/MhLiao/TextBoxes_plusplus 代码所在地

大家可以一起讨论，如下图片红线的是不是应该少了一个y4。另外 cpu有些问题，建议大家用gpu跑

问题图片textboxes++的多方向文本检测

那么有哪些改进呢？

首先就是对于文本框的表示方式发生了变化。论文中讨论了两种表示方式：分别是4个点坐标8个数字（x1,y1,x2,y2,x3,y3,x4,y4）和左上和右上两个点四个坐标外加四边形的高（x1,y1,x2,y2,h）。但论文推荐使用四个坐标的表示方式。

2.NMS采用了级联的方式提高效率，并且用了不同的计算overlap的方式。

通过1的改进提然提示我的有一个奇思妙想，就像人脸关键点识别一样。我给一行文字16点坐标或者32个点坐标是不是可以使用更多形状的文字呢？比如环形的比如波浪形的等等。

3.同时由于现在很多都是用IOU来评价当前的好坏。但是文字检测和物体检测的区别是看下图

abc具有用一样的iou那么这样的情况还是要通过crnn来一起判断当前的框是不是最好的！

知乎：https://zhuanlan.zhihu.com/p/34131821

https://zhuanlan.zhihu.com/p/33723456

感谢！仅为记录学习之用，侵删。

TextBoxes 与 TextBoxes ++的更多相关文章

Restricting Input in HTML Textboxes to Numeric Values
Ok, here’s a fairly basic one – how to force a textbox to accept only numeric input. Somebody asked ...
字符识别OCR原理及应用实现
字符识别OCR原理及应用实现文本是人类最重要的信息来源之一,自然场景中充满了形形色色的文字符号.光学字符识别(OCR)相信大家都不陌生,就是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过 ...
在Andoid开发中使用MVP模式来解耦，增加可测试性
by Jeff Angelini posted on 7/20/2011 2:35:00 PM 将应用程序UI的表现从Ui的逻辑中分离是一个好的想法.这种分离减少了代码耦合,代码更加干净, 甚至可以有 ...
[转]Design Pattern Interview Questions - Part 1
Factory, Abstract factory, prototype pattern (B) What are design patterns? (A) Can you explain facto ...
DataBinding examples
Databinding in Windows Forms demo (CSWinFormDataBinding) /************************************* Modu ...
XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network
XiangBai--[AAAI2017]TextBoxes:A Fast Text Detector with a Single Deep Neural Network 目录作者和相关链接方法概括 ...
(WPF) 基本题
What is WPF? WPF (Windows Presentation foundation) is a graphical subsystem for displaying user inte ...
Programming Entity Framework 翻译(1)-目录
1. Introducing the ADO.NET Entity Framework ado.net entity framework 介绍 1 The Entity Relationship Mo ...
Android项目结构以及体系结构
学习Android平台的人一般对Android的平台的应该有点认识其它的就不多讲了 Android项目一般由以下几个部分构成以上是一个简单的Android项目结构目录图 1. src 主要是源 ...

随机推荐

IOS实现多媒体音频之音乐播放器
随着智能手机市场越来越活跃,相应的app也变得五彩缤纷,各式各样,让你的app更吸引人多媒体技术不可避免.通过对音频和视频等控制让你的app更加丰富多彩,今天和大家一起研究下基本的音频使用.本文只提供 ...
Android实现圆形的图片边角
ImageView没有边角圆化的设置,但是可以通过代码设置实现.一个国外的码农写的方法. 效果: 地址:http://www.curious-creature.org/2012 代码: package ...
WordPress 无法使用the_content()方法输出内容
在使用WordPress里在一个页面里我使用the_content()方法来输出当前页面的内容,但却显示为空,而标题,url等都没有问题在网络上好像遇到这种情况的人很少只找到了一个说是可能是func ...
如何将xml转为python中的字典
如何将xml转为python中的字典 import cElementTree as ElementTree class XmlListConfig(list): def __init__(self, ...
转码：gcc在代码中禁止某些warning
http://www.itye.org/archives/3125 gcc 禁止warning 熟悉windows编程的人都知道,禁止编译器输出某个warning,在代码中可以这样 #pragma w ...
Cognos开发自定义排序规则的报表和自定义排名报表
场景:有一个简单的销售数据分析,可以按照日期,按照商品类型来分析订单笔数和订单金额. 目的:用户可以自定义查看按照不同指标排序的数据,用户可以查看按照不同指标排名的前N名数据一:功能及效果展示效果 ...
Discuz常见小问题-如何修改UCenter创始人密码
http://faq.comsenz.com/viewnews-925 参照上面这个帖子,把tools.php下载下来并放到uc_server目录下,打开文件,找到第10行设置一个初始工具箱密码 ht ...
简单通俗讲解DOM
在开始之前先说一点,DOM是非常容易理解的,但是大家说的太官方,让人很是难于理解,我们就用非常简单的语言翻译一遍.加深对DOM的理解,从而对它有一个全面的认识. 什么是DOM DOM的全称是Docum ...
CSDN日报20170310——《假如我是一行代码》
[程序人生]假如我是一行代码作者:henry-hacker 我们不止一次在生活中听到"假如我如何如何,我会如何如何"的句式.而这种句式说出来的一般意义无非就是让我们站在还有一个角 ...
WQL语言简介和WQL测试工具wbemtest.exe使用方法详细介绍
这篇文章主要介绍了WQL语言简介和WQL测试工具wbemtest.exe使用方法详细介绍,WQL是指Windows管理规范查询语言,需要的朋友可以参考下 WQL就是WMI中的查询语言,WQL的全称是W ...