本文为作者原创,未经允许不得转载;原文由作者发表在博客园: http://www.cnblogs.com/panxiaochun/p/5345412.html

HaarTraining步骤

1.正负样本处理

正样本处理需要对正样本进行归一化处理,一般情况下可以用Photoshop对图像进行尺寸统一处理,比如都是20*20或者24*24,其中其它尺寸比如240*15也可以做成样本的,不要求是正方形,或者20*20,24*24,。这是取决于你的目标的形状,不过正样本的分辨率不要太高,太高的话在训练时会内存分配不足引起crash

错误如下:  OpenCV Error :insufficient memory <failed to allocate 250343435bytes> in cv::\OutOfMemoryError

图1.1 正样本分辨率太大时引起的内存分配不足的crash

不预先用Photoshop对正样本进行处理时,还可以使用opencv_createSamples工具进行处理,其实就算用Photoshop对样本进行过处理,在这里还是会对样本进行一次处理,Photoshop预先处理的好处就是样本的位置都为0,0。那么对正样本描述文件处理时就比较简单,特别是正样本数量足够大时,可以减少正样本描述文件的出错率,提高分类器的检测率。

1.1正样本描述文件

正样本描述文件的创建如下:

一个.txt文件或者.dat文件里面包含正样本的信息,

结构:

包含正样本图片的相对路径或者全路径    正样本中包含的正样本数量    第一个正样本的位置x y   第一个正样本的宽和高w h  第二个正样本的位置x y   第二个正样本的宽和高w h  ……  第n个正样本的位置x y   第n个正样本的宽和高w h

img01.jpg 0 0 20 20

img\\img02.jpg 0 0 24 24

e://img/img03.jpg 3 4 240 15 248 29 160 20

….

在这里你就会明白为什么要在之前用Photoshop对图片进行处理,这样的话,所有图片都是只包含一个正样本的统一尺寸的图片,那么正样本描述文件就像下面那样:

img01.jpg 1 0 0 20 20

img02.jpg 1 0 0 20 20

img03.jpg 1 0 0 20 20

……

既然是是统一的话,就可以用批处理来完成:

在Windows下用命令: dir imgDir /b > imgDiscr.txt

(在linux下用: ls imgDir >imgDiscr.txt ,也可以保存为.sh文件,这样不用每次输入命令)

我是直接保存为.bat文件,这样每次不用打命令,而是点击就生成包含所有正样本图片名的文件imgDiscr.txt :

img01.jpg

img02.jpg

img03.jpg

….

然后用编辑器打开,把jpg替换成jpg 1 0 0 20 20

就可以快速生成正样本描述文件。

1.2负样本描述文件的生成

和正样本一样,不过不需要对负样本图片进行处理,只要负样本图片不比正样本图片的分辨率小就行,负样本描述文件只需要包含图片路径名:

non-img01.jpg

non-img02.jpg

non-img03.jpg

….

2.opencv_createsamples生成正样本.vec文件

分类器在训练时并不会直接处理正样本描述文件,而是包含正样本的.vec文件,这是一个用matlab函数生成的向量文件。

参数的设定如下:

opencv_createsamples.exe -info imgDiscr.txt -vec samples.vec  -num   -w -h 20

命令行参数:

  • [-vec <vec_file_name>]  输出文件,内含用于训练的正样本
  • [-img <image_file_name>] 输入图像文件名(例如一个公司的标志
  • [-bg <background_file_name>] 背景图像的描述文件,文件中包含一系列的图像文件名,这些图像将被随机选作物体的背景。
  • [-mun <number_of_samples>]生成的正样本的数目。
  • [-maxxangle <max_x_rotation_angle>]X轴最大旋转角度,必须以弧度为单位。
  • [-maxyangle <max_y_rotation_angle>]Y轴最大旋转角度,必须以弧度为单位。
  • [-maxzangle <max_z_rotation_angle>]Z轴最大旋转角度,必须以弧度为单位。
  • [-w <sample_width >] 输出样本的宽度(以像素为单位)
  • [-h <sample_height >]输出样本的高度(以像素为单位)。

其中-num的数值应该为总的正样本数,也就是正样本描述文件中第二列数字总和

-w -h是输出图像的宽和高,这里也会对正样本进行归一化处理,其中我们之前用Photoshop对图像进行过归一化处理,如果没有,那么在这里createsample工具也会对正样本进行归一化处理,所有的正样本大小都是一样的。而且,之前Photoshop归一化为20个像素后,在这里设置为24个像素,那么生成的.vec向量文件里面的图像是24个像素的。

3.haarTraining训练分类器

opencv_haarTraining训练器是一个被淘汰的训练器,在2.4.9里面还有,2.4.10后就没有了,不过用opencv_traincascade训练出来的分类器在示例程序中无法使用,而且3.10的opencv_traincascade在使用时出现问题,所以迫不得已找回了以前的haarTraining来使用。其中opencv_traincascade出现的错误如下:

Train dataset for temp stage can not be filled.  Branch training terminated

stackoverflow上的说是描述文件是在Windows下生成的,结尾是/r/n,而linux下的描述文件后面是/r没有/n,所有导致读取不到图像文件,但是在linux下训练时还是会出现问题,所以,我觉得问题不在描述文件上。训练分类器用以下命令:

opencv_haartraining.exe -data block_xml/ -vec samples.vec -bg non-imgDiscr.txt -nstages  -nsplits  -minhitrate 0.999 -maxfalsealarm 0.5 -npos  -nneg  -w  -h  -mem  -eqw  -mode ALL -bt GAB -minpos 

这里的正样本数量为200,负样本数量为20,样本的宽为240,高为15

正样本最小命中率为0.999,因为级联-nstages为20,所以0.999^20 = 0.98 负样本的最大错误率为0.5 经过20个级联后错误率为0.5^20 = 0.0000009536
基本参数:

" -data <dir_name>\n"
" -vec <vec_file_name>\n"
" -bg <background_file_name>\n"
" [-npos <number_of_positive_samples = %d>]\n"
" [-nneg <number_of_negative_samples = %d>]\n"
" [-nstages <number_of_stages = %d>]\n"
" [-nsplits <number_of_splits = %d>]\n"
" [-mem <memory_in_MB = %d>]\n"
" [-sym (default)] [-nonsym]\n"
" [-minhitrate <min_hit_rate = %f>]\n"
" [-maxfalsealarm <max_false_alarm_rate = %f>]\n"
" [-weighttrimming <weight_trimming = %f>]\n"
" [-eqw]\n"
" [-mode <BASIC (default) | CORE | ALL>]\n"
" [-w <sample_width = %d>]\n"
" [-h <sample_height = %d>]\n"
" [-bt <DAB | RAB | LB | GAB (default)>]\n"
" [-err <misclass (default) | gini | entropy>]\n"
" [-maxtreesplits <max_number_of_splits_in_tree_cascade = %d>]\n"
" [-minpos <min_number_of_positive_samples_per_cluster = %d>]\n",

要注意的是 –nneg 的参数 = 实际的负样本数 * maxfalsealarm

因为第一次训练完成后,第二个级联的负样本数其实并没有百分百留下,其中有误判的负样本没有加载,所以-nneg如果为实际的负样本数,那么程序很有可能进入死循环,如果样本数不大,但是几个小时后还没有动静,那么就是进入死循环了,像上面的200个正样本,20个负样本基本上前10个级联是一分钟内完成,后面的级联几分钟一个,如果超过十分钟没有动静,那么就是进入死循环了。在这里,参数设置不正确,那么就会训练不成功,还有一个进入死循环的可能就是虚警率一直不能下来,就是maxfalsealarm的值一直居高不下,所以训练器一直在跑,导致结果一直不能停,如果训练一段时间,还在训练,参数没有问题的话,那么就应该适当的设置级联的数量,来停止训练,得到分类器。

用opencv_traincascade来训练的话可以结合TBB来多核处理,在

编译opencv时加入TBB。

用opencv_haarTraining训练出来的分类器会保存在当前目录下用-data的参数命名的xml文件里。

训练的过程可以随时停止,重新训练时,训练器会读取之前的参数,从停止的地方开始。

训练结束:

opencv_haar分类器的训练的更多相关文章

  1. 【原】训练自己haar-like特征分类器并识别物体(2)

    在上一篇文章中,我介绍了<训练自己的haar-like特征分类器并识别物体>的前两个步骤: 1.准备训练样本图片,包括正例及反例样本 2.生成样本描述文件 3.训练样本 4.目标识别 == ...

  2. 【原/转】opencv的级联分类器训练与分类全程记录

    众所周知,opencv下有自带的供人脸识别以及行人检测的分类器,也就是说已经有现成的xml文件供你用.如果我们不做人脸识别或者行人检测,而是想做点其他的目标检测该怎么做呢?答案自然是自己训练一个特定的 ...

  3. 如何利用OpenCV自带的级联分类器训练程序训练分类器

    介绍 使用级联分类器工作包括两个阶段:训练和检测. 检测部分在OpenCVobjdetect 模块的文档中有介绍,在那个文档中给出了一些级联分类器的基本介绍.当前的指南描述了如何训练分类器:准备训练数 ...

  4. opencv人脸检测分类器训练小结

    这两天在初学目标检测的算法及步骤,其中人脸检测作为最经典的算法,于是进行了重点研究.该算法最重要的是建立人脸检测分类器,因此我用了一天的时间来学习分类器的训练.这方面的资料很多,但是能按照一个资料运行 ...

  5. opencv 训练自己的分类器汇总

    原地址:http://www.cnblogs.com/zengqs/archive/2009/02/12/1389208.html OpenCV训练分类器 OpenCV训练分类器 一.简介 目标检测方 ...

  6. 自己训练SVM分类器进行HOG行人检测

    正样本来源是INRIA数据集中的96*160大小的人体图片,使用时上下左右都去掉16个像素,截取中间的64*128大小的人体. 负样本是从不包含人体的图片中随机裁取的,大小同样是64*128(从完全不 ...

  7. [PyTorch入门之60分钟入门闪击战]之训练分类器

    训练分类器 目前为止,你已经知道如何定义神经网络.计算损失和更新网络的权重.现在你可能在想,那数据呢? What about data? 通常,当你需要处理图像.文本.音频或者视频数据时,你可以使用标 ...

  8. OpenCV开发笔记(七十一):红胖子8分钟带你深入级联分类器训练

    前言   红胖子,来也!  做图像处理,经常头痛的是明明分离出来了(非颜色的),分为几块区域,那怎么知道这几块区域到底哪一块是我们需要的,那么这部分就涉及到需要识别了.  识别可以自己写模板匹配.特征 ...

  9. 【原创】.NET平台机器学习组件-Infer.NET连载(二)贝叶斯分类器

                本博客所有文章分类的总目录:http://www.cnblogs.com/asxinyu/p/4288836.html 微软Infer.NET机器学习组件文章目录:http:/ ...

随机推荐

  1. JSON帮助类

    using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...

  2. webapi filter过滤器中获得请求的方法详情(方法名,Attributes)

    public class GlobalActionFilter : ActionFilterAttribute { private string _requestId; public override ...

  3. thinkphp怎么设置输入网址直接进入首页

    1.设置apache服务器的时候,文件的位置要写包含index.php的那个主文件夹. 2.apache和thinkphp默认index.html是作为网站的默认首页,所以在浏览器端可以直接输入网址进 ...

  4. php调用COM组件

    PHP 开启COM组件 1.先到PHP.INI中打开COM选项,com.allow_dcom = true 2.我这里的环境是PHP5.4.7,PHP 5.4.5后,com/dotnet 模块已经成了 ...

  5. python字符串连接的N种方式

    python中有很多字符串连接方式,今天在写代码,顺便总结一下: 最原始的字符串连接方式:str1 + str2 python 新字符串连接语法:str1, str2 奇怪的字符串方式:str1 st ...

  6. Eclipse如何发布web项目

    目录结构: // contents structure [-] 需要的环境 下载和配置JDK 下载和配置Tomcat 下载Eclipse Eclipse 4.4.0 发布Web步骤 创建server ...

  7. HTML5树叶飘落动画

    查看效果:http://keleyi.com/keleyi/phtml/css3/15.htm 请使用Chrome浏览器查看本效果. html源代码: <!DOCTYPE HTML> &l ...

  8. 使用hexo搭建属于自己的博客

    如果你喜欢拥有自己的博客域名,如果你喜欢折腾,可以先点击luckykun.com,看看效果,再选择要不要进来看看--- 之前一直都在博客园写博客,不过最近在逛园子的时候不小心看到了hexo,简直有种相 ...

  9. 认识DOM和一些方法

    认识DOM 文档对象模型DOM(Document Object Model)定义访问和处理HTML文档的标准方法.DOM 将HTML文档呈现为带有元素.属性和文本的树结构(节点树). 先来看看下面代码 ...

  10. Set up Github Pages with Hexo, migrating from Jekyll

    Set up Github Pages with Hexo, migrating from Jekyll. 本文介绍用Hexo建立github pages, 其中包含了从Jekyll迁移过来的过程. ...