一、数据集文件夹

新建一个文件夹，用来存放整个数据集，或者和voc2007一样的名字：VOC2007
然后像voc2007一样，在文件夹里面新建如下文件夹：

二、将训练图片放到JPEGImages

将所有的训练图片放到该文件夹里，然后将图片重命名为VOC2007的“000005.jpg”形式

图片重命名的代码（c++，python，matlab），参考：http://blog.csdn.net/u011574296/article/details/72956446

三、标注图片，标注文件保存到Annotations

使用labelIImg 标注自己的图片

1、在git上下载源码：https://github.com/tzutalin/labelImg

2、按照网页上的使用方法使用
（1）安装PyQt4和Lxml

（2）在labelImage 的目录下 shift+右键打开cmd 运行一下命令：

pyrcc4 -o resources.py resources.qrc
python labelImg.py

注：这个时候，就会出现labelimage的窗口

（3）labelimg窗口的使用方法：
• 修改默认的XML文件保存位置，可以用“Ctrl+R”，改为自定义位置，这里的路径不能包含中文，否则无法保存。

• 源码文件夹中使用notepad++打开data/predefined_classes.txt，可以修改默认类别，比如改成bus、car、building三个类别。

•“Open Dir”打开需要标注的样本图片文件夹，会自动打开第一张图片，开始进行标注

• 使用“Create RectBox”开始画框

• 完成一张图片后点击“Save”，此时XML文件已经保存到本地了。

• 点击“Next Image”转到下一张图片。

• 标注过程中可随时返回进行修改，后保存的文件会覆盖之前的。

• 完成标注后打开XML文件，发现确实和PASCAL VOC所用格式一样。

每个图片和标注得到的xml文件，JPEGImages文件夹里面的一个训练图片，对应Annotations里面的一个同名XML文件，一一对应，命名一致

标注自己的图片的时候，类别名称请用小写字母，比如汽车使用car，不要用Car
pascal.py中读取.xml文件的类别标签的代码：
cls = self._class_to_ind[obj.find('name').text.lower().strip()]
写的只识别小写字母，如果你的标签含有大写字母，可能会出现KeyError的错误。

四、ImageSets\Main里的四个txt文件

在ImageSets里再新建文件夹，命名为Main，在Main文件夹中生成四个txt文件，即：

test.txt是测试集
train.txt是训练集
val.txt是验证集
trainval.txt是训练和验证集

VOC2007中，trainval大概是整个数据集的50%，test也大概是整个数据集的50%；train大概是trainval的50%，val大概是trainval的50%。

txt文件中的内容为样本图片的名字（不带后缀），格式如下：

根据已生成的xml，制作VOC2007数据集中的trainval.txt ； train.txt ； test.txt ； val.txt
trainval占总数据集的50%，test占总数据集的50%；train占trainval的50%，val占trainval的50%；
上面所占百分比可根据自己的数据集修改，如果数据集比较少，test和val可少一些

代码如下：

%注意修改下面四个值

xmlfilepath='E:\Annotations';

txtsavepath='E:\ImageSets\Main\';

trainval_percent=0.5; #trainval占整个数据集的百分比，剩下部分就是test所占百分比

train_percent=0.5; #train占trainval的百分比，剩下部分就是val所占百分比  

xmlfile=dir(xmlfilepath);

numOfxml=length(xmlfile)-2;#减去.和..  总的数据集大小  

trainval=sort(randperm(numOfxml,floor(numOfxml*trainval_percent)));

test=sort(setdiff(1:numOfxml,trainval));  

trainvalsize=length(trainval); #trainval的大小

train=sort(trainval(randperm(trainvalsize,floor(trainvalsize*train_percent))));

val=sort(setdiff(trainval,train));  

ftrainval=fopen([txtsavepath 'trainval.txt'],'w');

ftest=fopen([txtsavepath 'test.txt'],'w');

ftrain=fopen([txtsavepath 'train.txt'],'w');

fval=fopen([txtsavepath 'val.txt'],'w');  

for i=1:numOfxml

    if ismember(i,trainval)

        fprintf(ftrainval,'%s\n',xmlfile(i+2).name(1:end-4));

        if ismember(i,train)

            fprintf(ftrain,'%s\n',xmlfile(i+2).name(1:end-4));

        else

            fprintf(fval,'%s\n',xmlfile(i+2).name(1:end-4));

        end

    else

        fprintf(ftest,'%s\n',xmlfile(i+2).name(1:end-4));

    end

end

fclose(ftrainval);

fclose(ftrain);

fclose(fval);

fclose(ftest);

python代码:

# -*- coding:utf-8 -*-
import os
import random
trainval_percent = 0.66
train_percent = 0.5
xmlfilepath = 'C:/Users/Administrator/Desktop/VOC2007-train/Annotations'
txtsavepath = 'C:/Users/Administrator/Desktop/VOC2007-train/ImageSets/Main'
total_xml = os.listdir(xmlfilepath)

num=len(total_xml)
list=range(num)
tv=int(num*trainval_percent)
tr=int(tv*train_percent)
trainval= random.sample(list,tv)
train=random.sample(trainval,tr)

ftrainval = open('C:/Users/Administrator/Desktop/VOC2007-train/ImageSets/Main/trainval.txt', 'w')
ftest = open('C:/Users/Administrator/Desktop/VOC2007-train/ImageSets/Main/test.txt', 'w')
ftrain = open('C:/Users/Administrator/Desktop/VOC2007-train/ImageSets/Main/train.txt', 'w')
fval = open('C:/Users/Administrator/Desktop/VOC2007-train/ImageSets/Main/val.txt', 'w')

for i  in list:
    name=total_xml[i][:-4]+'\n'
    if i in trainval:
        ftrainval.write(name)
        if i in train:
             ftrain.write(name)
        else:
             fval.write(name)
    else:
         ftest.write(name)

ftrainval.close()
ftrain.close()
fval.close()
ftest .close()

使用labelImg制作自己的数据集（VOC2007格式）用于Faster-RCNN训练的更多相关文章

faster rcnn训练自己的数据集
采用Pascal VOC数据集的组织结构,来构建自己的数据集,这种方法是faster rcnn最便捷的训练方式
将数据集做成VOC2007格式用于Faster-RCNN训练
1.命名文件夹名VOC2007.图片名六位数字.将数据集相应的替换掉VOC2007中的数据. (Updated development kit, annotated test data ) 2. ...
Faster Rcnn训练自己的数据集过程大白话记录
声明:每人都有自己的理解,动手实践才能对细节更加理解! 一.算法理解此处省略一万字.................. 二.训练及源码理解首先配置: 在./lib/utils文件下....运行 p ...
仿照CIFAR-10数据集格式，制作自己的数据集
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/50801226 前一篇博客:C/C++ ...
SSD-tensorflow-2 制作自己的数据集
VOC2007数据集格式: VOC2007详细介绍在这里,提供给大家有兴趣作了解.而制作自己的数据集只需用到前三个文件夹,所以请事先建好这三个文件夹放入同一文件夹内,同时ImageSets文件夹内包含 ...
Windows10+YOLOv3实现检测自己的数据集（1）——制作自己的数据集
本文将从以下三个方面介绍如何制作自己的数据集数据标注数据扩增将数据转化为COCO的json格式参考资料一.数据标注在深度学习的目标检测任务中,首先要使用训练集进行模型训练.训练的数据集好坏 ...
自动化工具制作PASCAL VOC 数据集
自动化工具制作PASCAL VOC 数据集 1. VOC的格式 VOC主要有三个重要的文件夹:Annotations.ImageSets和JPEGImages JPEGImages 文件夹该文件 ...
fcn+caffe+制作自己的数据集
参考博客: http://blog.csdn.net/jacke121/article/details/78160398 以视网膜血管分割的数据集为例: 训练样本: 训练标签: 标签图的制作依据voc ...
matlab遍历文件制作自己的数据集 .mat文件
原文作者:aircraft 原文地址:https://www.cnblogs.com/DOMLX/p/9115788.html 看到深度学习里面的教学动不动就是拿MNIST数据集,或者是IMGPACK ...

随机推荐

P1047 编程团体赛
转跳点:
WTL之VS2013环境搭建
新版博客已经搭建好了,有问题请访问 htt://www.crazydebug.com 从国外回来,在老家入职了新公司,做c++开发,刚到新公司要熟悉公司的项目代码,目前公司在做一个主播聚合平台,界面采 ...
使用Nginx搭建Tomcat9集群，Redis实现Session共享
使用Nginx搭建Tomcat9集群,Redis实现Session共享 1.tomcat准备首先准备两个tomcat9 ,修改配置文件server.xml 如果在多个服务器上分别启动tomcat 则 ...
17.swoole学习笔记--异步mysql操作
<?php //异步mysql操作 $db=new swoole_mysql(); $config=[ 'host'=>'192.168.10.31', 'user'=>'zouke ...
7.Python列表
.button, #logout { color: #333; background-color: #fff; border-color: #ccc; } span#login_widget > ...
五十一、SAP中使程序结构化，模块化
一.我们创建3个引用单元,这3个单元里面分别存放定义相关,执行相关和子程序相关的内容二.将程序中的各部分都拆分到INCLUDE文件中,DEF文件内容如下三.INC文件内容四.MAIN文件中写程序 ...
056-for循环中continue的使用
<?php ; $i <= ; $i++) { //for循环输出数值 == ) //判断变量是否为3的整数倍 { continue;//跳过本次循环剩余语句 } echo "$ ...
C# 借助CommandLine 写命令行工具在数据库中创建job
首先需要用到 CommandLine.dll 提供两个下载链接,云盘是我自己上传的,也就是我在用的 http://commandline.codeplex.com/ https://pan.baid ...
Ajax请求传递数组参数的方法
方法一:拼接字符串参数 var arr={params:['param','param2']}; $.ajax({url:请求地址, data:arr, type:"POST", ...
springboot - 映射 /error 到自定义且实现了ErrorController的Controller
1.总览 2.代码 1).pom.xml <dependencies> <dependency> <groupId>org.springframework.boot ...

使用labelImg制作自己的数据集（VOC2007格式）用于Faster-RCNN训练