ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍
阅读文章:《ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)》
这篇文章是对一项中文检测和识别比赛项目(RCTW)的介绍和总结,这是一项新的专注于中文识别的竞赛。这项竞赛的特点在于,包含12263张标注过的中文数据集,有两项任务,文本检测以及end-to-end文本识别。竞赛时间从2017年1月20日至3月31日,共收到19个team的23个有效的提交结果。下面从几个方面进行详细说明 。
-数据介绍
-任务及评价标准
-结果总结与分析
1. 数据介绍
数据集的名字叫做CTW-12k,由12263张包含中文的自然场景图片组成,其中大部分是直接由摄像头或手机拍摄,少部分为生成图像,并且每张图像至少包含一行中文。
数据的标注均通过标注工具手工标注完成,通过绘制四边形来标注一个文本行,而不是以单词为单位进行标注,每个文本行的内容以UTF-8字符串进行标注。在数据集中存在字体、布局和语言等多样性。
数据集划分为两部分,训练集和验证集包含8034张图片,这部分数据集的图像和标注均在比赛时发布。测试集包含4229张图片,并在截止日期前一个星期发布。
2. 任务及评价标准
任务分为两个:文本检测,end-to-end文本识别。与之前的比赛不同的是,没有设置cropped text recognition task,因为相比之下,进行end-to-end的识别设定效果更好。
1) Task 1 - Text Localization
文本定位是一项传统的竞赛任务,目标是确定图像中包含文本行的四边形位置,同时提供每个四边形的置信分数。
对于这项任务,主要采用的评价标准为mean Average Precision(mAP)。mAP是PR曲线以下的归一化面积值,即所有类别PR曲线下面积的平均值,由于本次竞赛中只有文本这一个类别,故mAP也就等同于AP。
原始的AP是定义在轴对齐的bounding box基础上的,而本次竞赛项目中的文本由四边形定位,所以在四边形上计算IoU而不是矩形,如下图所示,计算方法采用python的shapely package。检测结果满足以下两个条件认定为正确:(1)IoU大于0.5;(2)groundtruth没有匹配其他检测结果。当多个检测结果都匹配至同一groundtruth时,选择IoU最大的一个。
之前的竞赛普遍使用F-score作为评价标准,F-score是在P和R之间做出一些调整,但AP在调整中保持不变。本任务以AP作为主要的评价标准,并以此根据提交结果进行排行。为了与之前的竞赛对比,同时对每一个提交结果计算出最大F-meansure分数,两个分数均在结果表上列出。
(a) PR(precision-recall)曲线:以查全率R为横坐标,以查准率P为纵坐标的曲线。查准率关心的是”预测出正例的正确率”即从正反例子中挑选出正例的问题。查全率关心的是”预测出正例的保证性”即从正例中挑选出正例的问题。
(b) mAP:每个类别都可以绘制一条PR曲线,曲线下方与X轴之间的面积为AP值,对每个类的AP再求mean,就是mAP。
(c) ROC曲线:曲线的坐标分别为真正例率(TPR)和假正例率(FPR)
(d) F-score:综合考虑PR曲线中P和R两个指标
当β=1β=1时称为F1-score,即P和R的权重相同。
2)Task 2 - End-to-End Recognition
该任务的目标是同时进行文本定位和识别,参与队伍要求提交检测结果的同时提交识别结果,检测分数替换为识别的文本内容。
评价标准为计算识别结果与groundtruth之间的编辑距离,评价过程包括两步:首先,每一个检测结果匹配为一个groundtruth(对应最大的IoU)或”None”(没有与groundtruth的IoU大于0.5的检测结果),如果多个检测结果与同一groundtruth匹配,则选择IoU最大的一个作为检测结果,其他的均设为”None”;然后,计算所有匹配对的编辑距离,如果一个检测结果被标记为”None”,则计算检测结果的文本内容与空字符之间的距离,求最后的平均编辑距离average edit distance(AED)。这个方法同时考虑了检测和识别对结果的影响。
为了与其他比赛相比较,还计算了normalized edit distance(NED)。
3. 结果总结与分析
1)结果提交
Table 1 总结了Task 1的top10,并在结果列表中列出了AP和最大F-measure分数。
其中排在前3名的队伍:
(i)”Foo&Bar”:采用的是faster-rcnn算法,网络为resnet101及基于imagenet预训练的模型。
(ii)”NLPR_PAL”:采用Deep Direct Regression Network方法(我的上一篇论文笔记中提到的论文)。
(iii)”gmh“:CNN算法。
Table 2列举了Task 2的结果:
2)结果分析
Task 1:普遍的错误有两种,(1)由于text line过长导致的错误;(2)检测结果有冗余。
Task 2:主要错误有3种,(1)错误的检测结果导致识别错误;(2)视角问题导致的文字形变;(3)相似的文字结构导致的错误识别(如“园”和“国”)
---------------------
转自:https://blog.csdn.net/rabbithui/article/details/79107208?utm_source=copy
ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍的更多相关文章
- OpenCascade Chinese Text Rendering
OpenCascade Chinese Text Rendering eryar@163.com Abstract. OpenCascade uses advanced text rendering ...
- 论文阅读(Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences)
Weilin Huang--[AAAI2016]Reading Scene Text in Deep Convolutional Sequences 目录 作者和相关链接 方法概括 创新点和贡献 方法 ...
- 论文速读(Jiaming Liu——【2019】Detecting Text in the Wild with Deep Character Embedding Network )
Jiaming Liu--[2019]Detecting Text in the Wild with Deep Character Embedding Network 论文 Jiaming Liu-- ...
- Python第三方库SnowNLP(Simplified Chinese Text Processing)快速入门与进阶
简介 github地址:https://github.com/isnowfy/snownlp SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的 ...
- Assignment 1:Chinese Text Data Processing.
记录过程. Lucene分词:http://blog.csdn.net/cyxlzzs/article/details/7999212 Lucene自定义词典:http://lilongbao.blo ...
- FastReport"Text"对象中的HTML标签介绍以及使用
"Text"对象可以理解一些简单的HTML标签.标签可位于对象中的文本.在默认情况下,标签是禁用的,要启用这些HTML标签,可选择对象上下文菜单中的“Allow HTML tags ...
- sublime text 3 15个常用插件介绍
1.ColorPicker 功能:调色板(需要输入颜色时,可直接选取颜色) 使用:快捷键Windows: ctrl+shift+c 2.Emmet 功能:编码快捷键,前端必备 使用:在输入代码段后,按 ...
- ocr 资源
1. PIL 在图片上添加中文 https://blog.csdn.net/m0_37606112/article/details/78511381 2 .Chinese Text in the Wi ...
- 厉害了!阿里安全图灵实验室在ICDAR2017 MLT竞赛刷新世界最好成绩
近日,阿里安全图灵实验室(Alibaba Turing Lab)的ATL Cangjie OCR算法在ICDAR2017的MLT(Competition on Multi-lingual scene ...
随机推荐
- HTML-<td> 标签的 valign 属性
<html> <body> <table border="1" style="height:200px"> <tr&g ...
- Inner Classes with TypeScript
原文:https://blog.oio.de/2014/03/21/inner-classes-typescript/ b.ts class Foo { sex:string; say(){ new ...
- LINUX设备驱动程序笔记(五)中断处理
<一> 中断处理流程例如以下: 1.发生中断时,CPU运行异常向量vector_irq的代码. 2.在vector_irq里面.终于会调用中断处理的总入口函数asm_do_IRQ ...
- Inception in CNN
之前也写过GoogLeNet的笔记.但那个时候对Inception有些似懂非懂,这周又一次看了一遍,觉得有了新的体会,特地又一次写一篇博客与它再续前缘. 本文属于论文笔记性质.特此声明. Networ ...
- PHPCMS增加投票选项代码
<script src="jquery-1.10.1.js"></script> <tr> <th width="20%&quo ...
- shell综合
既可恶又不得不注意的地方: 1.if 与[ 之间必须有空格, 2.[ ]与判断条件之间也必须有空格, 3.]与; 之间不能有空格, 4.变量赋值的时候,等号两边不能有空格, 调试:sh -x xxx. ...
- 天气预报的Ajax效果
最近在网站上看了很多显示实时天气预报的,挺实用而且用户体验也不错.对用户的帮助也比较大,用户可以通过你的网站了解到实时的天气信息.感觉比较有意思,于是自己钻研了一下其中的实现方法.于是决定把代码分享给 ...
- 代理(Proxy)模式简介
一.代理(Proxy)模式简介 代理模式是结构型模式. 代理模式给某一个对象提供一个代理对象,并由代理对象控制对原对象的引用. 代理对象要继承于抽象主题,并控制原对象的引用 二.简单例子 抽象主题类 ...
- sql面试-查询选修课程的学生
首先: 1 . EXISTS 子查询找到的提交 NOT EXISTS 子查询中 找不到的提交 说明:不要去翻译为存在和不存在,把脑袋搞晕. 2 . 建立程序循环的概念,这是一个动态的查询过程.如 F ...
- Java获取登录用户IP地址
/** * 获取登录用户IP地址 * * @param request * @return */ public static String getIpAddr(HttpServletRequest r ...