TensorFlow代码 https://github.com/eragonruan/text-detection-ctpn

CTPN网络结构理解:

知乎链接:https://zhuanlan.zhihu.com/p/34757009

训练 main/train.py

1. utils/prepare/split_label.py

  • 缩放图片resize image(长宽 最大1200,最小600)
  • label处理  将大矩形框label划分一个个16*16的小矩形

2. 输入

  • input_image 原图像 [[1, H, W, 3]]
  • bbox(GT) [[x_min, y_min, x_max, y_max, 1], […], …]
  • im_info(GT) 图像的高,宽,通道(二维ndarray) [[h,w,c]]

3. 模型 model_train.py -> model()

  • 图像去均值: mean_image_subtraction(均值设为means=[123.68, 116.78, 103.94])
  • 目的:图像标准化,移除共同部分,凸显个体差异。
  • 输入到 VGG16, conv5 -> [N, H/16, W/16, 512]
  • conv2d -> [N, H/16, W/16, 512]
  • BLSTM -> [N, H/16, W/16, 512]
  • FC -> bbox_pred + cls_pred + cls_prob-> [N, H/16, W/16, 410] + [N, H/16, W/16, 2x10] + [N, H/16, W/16, 210]

4. 损失 model_train.py -> loss()

  • 生成anchor分类标签和bounding-box回归目标 anchor_target_layer()
  • 输入: cls_pred, bbox(GT), im_info(GT)
  • 返回: [rpn_labels, rpn_bbox_targets, rpn_bbox_inside_weights, rpn_bbox_outside_weights]
  • 方法:
  • 生成基本的anchor(10个),每个anchor对应的四个坐标 [x_min, y_min, x_max, y_max] -> heights = [11, 16, 23, 33, 48, 68, 97, 139, 198, 283] widths = [16]
  • 生成所有的anchor(H/16xW/16x10): 生成feature-map和真实image上anchor之间的偏移量
  • 仅保留那些还在图像内部的anchor,超出图像的都删掉
  • rpn_labels 生成标签(>0.7或者最大的为正标签,<0.3的为负标签),限制标签的数量(总共256个) (先给正的上标签还是先给负的上标签?)
  • rpn_bbox_targets 根据anchor和gtbox计算得真值(anchor和gtbox之间的偏差)
  • 把超出图像范围的anchor再加回来
  • 计算分类损失
  • rpn_cross_entropy_n = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=rpn_label, logits=rpn_cls_score)
    rpn_cross_entropy = tf.reduce_mean(rpn_cross_entropy_n)

  • 计算回归损失
  • rpn_loss_box_n = tf.reduce_sum(rpn_bbox_outside_weights * smooth_l1_dist(rpn_bbox_inside_weights * (rpn_bbox_pred - rpn_bbox_targets)), reduction_indices=[1])
    rpn_loss_box = tf.reduce_sum(rpn_loss_box_n) / (tf.reduce_sum(tf.cast(fg_keep, tf.float32)) + 1)

  • smooth_L1_Loss层理解
    • smooth_L1_Loss是Faster RCNN提出来的计算距离的loss
    • 输入四个bottom,分别是predict,target,inside_weight,outside_weight。与论文并不完全一致,代码中实现的是更加general的版本,公式为:
  • python实现:
    def smooth_l1_loss(bbox_pred, bbox_targets, bbox_inside_weights, bbox_outside_weights, sigma=1.0, dim=[1]):
    '''
    bbox_pred :预测框
    bbox_targets:标签框
    bbox_inside_weights:
    bbox_outside_weights:
    '''
    sigma_2 = sigma ** 2
    box_diff = bbox_pred - bbox_targets
    in_box_diff = bbox_inside_weights * box_diff
    abs_in_box_diff = tf.abs(in_box_diff)
    # tf.less 返回 True or False; a<b,返回True, 否则返回False。
    smoothL1_sign = tf.stop_gradient(tf.to_float(tf.less(abs_in_box_diff, 1. / sigma_2)))
    # 实现公式中的条件分支
    in_loss_box = tf.pow(in_box_diff, 2) * (sigma_2 / 2.) * smoothL1_sign + (abs_in_box_diff - (0.5 / sigma_2)) * (1. - smoothL1_sign)
    out_loss_box = bbox_outside_weights * in_loss_box
    loss_box = tf.reduce_mean(tf.reduce_sum(out_loss_box, axis=dim))
    return loss_box
  • Smooth L1 Loss相比于L2 Loss对于离群点(outliers)更不敏感(Fast R-CNN中的解释:L1 loss that is less sensitive to outliers than the L2 loss used in R-CNN and SPPnet)。更详细的解释是当预测值与目标值相差很大时,L2 Loss的梯度为(x-t),容易产生梯度爆炸,L1 Loss的梯度为常数,通过使用Smooth L1 Loss,在预测值与目标值相差较大时,由L2 Loss转为L1 Loss可以防止梯度爆炸。
  • 计算正则损失
  • regularization_losses = tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES)
  • 模型损失
  • model_loss = rpn_cross_entropy + rpn_loss_box
  • 总损失
  • total_loss = tf.add_n(regularization_losses) + model_loss

5. AdamOptimizer() 回归损失

预测 main/demo.py

1. 输入

  • input_image [1, H, W, 3]
  • input_im_info [[H, W, C]]

2. 缩放图片:600x1200

3. 使用训练好的模型得出 bbox_pred, cls_pred, cls_prob

4. proposal_layer() 生成propsal

  • 输入:cls_prob, bbox_pred, im_info
  • 返回:textsegs (1 x H x W x A, 5) e.g. [0, x1, y1, x2, y2]
  • 方法:
    生成基本的anchor
    生成整张图像所有的anchor
    根据anchor和bbox_pred,做逆变换,得到box在图像上的真实坐标
    将所有的proposal修建一下,超出图像范围的将会被修剪掉
    移除高度或宽度小于阈值的proposal
    根据分数排序所有的proposal, 进行nms
    输出所有proposal以及分数

5. TextDetector() 文本检测

  文本线构造算法

  • 输入: textsegs, score[:, np.newaxis], im_info[:2]
  • 输出: 文本行坐标
  • 方法:
  • 删除得分较低的proposal, 阈值0.7
  • 按得分排序
  • 对proposal做nms
  • 文本行的构建(两种方式:水平矩形框和有角度的矩形框)
  • textdetector = TextDetector(DETECT_MODE=‘O’) # DETECT_MODE可以是’O’或者’H’
  • 输出[xmin, ymin, xmax, ymin, xmax, ymax, xmin, ymax, score]

疑问以及代码问题:

2. rpn_bbox_outside_weights和rpn_bbox_inside_weights用来做什么的
CTPN中只需要回归proposal的y, h,而bbox_pred的输出为x, y, w, h,所以设置inside_weights=[0, 1, 0, 1]只计算y和h的损失; outside_weights来控制哪些样本参与计算回归损失
4. 代码中 config.py 中应该为 RPN_BBOX_INSIDE_WEIGHTS = (0.0, 1.0, 0.0, 1.0)

参考转载:https://blog.csdn.net/m0_38007695/article/details/88699219

CTPN-自然文本场景检测代码阅读笔记的更多相关文章

  1. Linux协议栈代码阅读笔记(二)网络接口的配置

    Linux协议栈代码阅读笔记(二)网络接口的配置 (基于linux-2.6.11) (一)用户态通过C库函数ioctl进行网络接口的配置 例如,知名的ifconfig程序,就是通过C库函数sys_io ...

  2. [置顶] Linux协议栈代码阅读笔记(一)

    Linux协议栈代码阅读笔记(一) (基于linux-2.6.21.7) (一)用户态通过诸如下面的C库函数访问协议栈服务 int socket(int domain, int type, int p ...

  3. [置顶] Linux协议栈代码阅读笔记(二)网络接口的配置

    Linux协议栈代码阅读笔记(二)网络接口的配置 (基于linux-2.6.11) (一)用户态通过C库函数ioctl进行网络接口的配置 例如,知名的ifconfig程序,就是通过C库函数sys_io ...

  4. Linux-3.0.8 input subsystem代码阅读笔记

    先乱序记录一下阅读Linux input subsystem代码的笔记. 在input device driver的入口代码部分,需要分配并初始化input device结构,内核提供的API是inp ...

  5. Typecho 代码阅读笔记(二) - 数据库访问

    转载请注明出处:http://blog.csdn.net/jh_zzz 这一块比较复杂,我还没有完全理解为什么要把 SQL 语句的组装搞这么复杂. 从一个普通皮肤页面开始 themes/default ...

  6. 第一行代码阅读笔记---AndroidMainfest.xml分析

    按照这本书的指引,我随作者一样创建了一个安卓应用,开始了安卓开发的启程. 找到AndroidMainfest.xml这个文件,打开后看到了我创建的Activity在这个文件里被成功注册,文件内容如下: ...

  7. <<梦断代码>>阅读笔记三

    看完了这最后三分之一的<梦断代码>,意味着这本软件行业的著作已经被我粗略地过了一遍. 在这最后三分之一的内容中,我深入了解了在大型软件项目的运作过程中存在的困难和艰辛.一个大型软件项目的成 ...

  8. <<梦断代码>>阅读笔记一

    没有想象中的枯燥,甚至有些有趣.这就是我对<梦断代码>这一本书的第一印象.而且,作为一本面向程序员的书籍,作者很有意义地从第0章开始,那我也从第0章开始说.这第一次读书笔记是针对0~2 章 ...

  9. <<梦断代码>>阅读笔记二

    这是第二篇读书笔记,这本书我已经读了有一大半了,感觉书中所描述的人都是疯子,一群有创造力,却又耐得住寂寞的疯子. 我从书中发现几点我比较感兴趣的内容. 第一个,乐高之梦.将程序用乐高积木一样拼接起来. ...

随机推荐

  1. POJ 1961 Period 还是next数组的含义、

    题意:求所给串的前缀(包括原串)中有多少循环串(子串长度至少要是周期的两倍) 思路:还是next数组的应用问题.如果不懂next数组的话 http://www.cnblogs.com/sasuke-/ ...

  2. H3C 帧中继与水平分割

  3. 谷歌浏览器中kindeditor编译器字体不能为微软雅黑的问题?

    https://segmentfault.com/q/1010000006204144 比如说用谷歌浏览器打开后台编译文章,在文章先选择字体为微软雅黑,再编辑其他,哪个字体就变成了&quot: ...

  4. java方法里的属性

    访问控制符:访问控制符限定方法的可见范围,或者说是方法被调用的范围.方法的访问控制符有四种,按可见范围从大到小依次是:public.protected,无访问控制符,private.其中无访问控制符不 ...

  5. 1、Python 日期时间格式化输出

    今天帮朋友写自动化脚本,又需要用格式化日期,又忘记怎么写了,还是写到自己博客里面,方便日后需要的时候看一眼吧.So,临时加一篇 Python 的文章. 1.Python的time模块 import t ...

  6. Spring Security 中的 Bcrypt

    最近在写用户管理相关的微服务,其中比较重要的问题是如何保存用户的密码,加盐哈希是一种常见的做法.知乎上有个问题大家可以先读一下: 加盐密码保存的最通用方法是? 对于每个用户的密码,都应该使用独一无二的 ...

  7. java 实现类似spring的可配置的AOP框架

    一.工厂类BeanFactory: 1.工厂类BeanFactory负责创建目标类或代理类的实例对象,并通过配置文件实现切换. 2.getBean方法根据参数字符串返回一个相应的实例对象,如果参数字符 ...

  8. 5款顶尖Windows文件传输工具

    5款顶尖Windows文件传输工具 英文原文: Drasko 日常工作中,公司里的系统管理员或其他岗位的员工都需要传递大量各种类型的文件和文档.其中一些可以通过 email 收发.但由于 email ...

  9. ASP.NET MVC 实现页落网资源分享网站+充值管理+后台管理(15)之前台网站页面

    源码下载地址:http://www.yealuo.com/Sccnn/Detail?KeyValue=c891ffae-7441-4afb-9a75-c5fe000e3d1c 本项目主要是一个素材的分 ...

  10. webpack打包前删除之前的所有文件

    安装插件: npm install --save-dev clean-webpack-plugin 在webpack.prod.conf.js 中引入:  const { CleanWebpackPl ...