机器学习框架ML.NET学习笔记【8】目标检测（采用YOLO2模型）

一、概述

本篇文章介绍通过YOLO模型进行目标识别的应用，原始代码来源于：https://github.com/dotnet/machinelearning-samples

实现的功能是输入一张图片，对图片中的目标进行识别，输出结果在图片中通过红色框线标记出来。如下：

YOLO简介

YOLO（You Only Look Once）是一种最先进的实时目标检测系统。官方网站：https://pjreddie.com/darknet/yolo/

本文采用的是TinyYolo2模型，可以识别的目标类型包括："aeroplane", "bicycle", "bird", "boat", "bottle","bus", "car", "cat", "chair", "cow","diningtable", "dog", "horse", "motorbike", "person","pottedplant", "sheep", "sofa", "train", "tvmonitor" 。

ONNX简介

ONNX 即Open Neural Network Exchange（开放神经网络交换格式），是一个用于表示深度学习模型的通用标准，可使模型在不同框架之间进行互相访问，其规范及代码主要由微软，亚马逊，Facebook 和 IBM 等公司共同制定与开发。有了ONNX标准，我们就可以在ML.NET代码中使用通过其他机器学习框架训练并保存的模型。

二、代码分析

1、Main方法

        static void Main(string[] args)

        {

            TrainAndSave();

            LoadAndPredict();

            Console.WriteLine("Press any key to exit!");

            Console.ReadKey();

        }

第一次运行时需要运行TrainAndSave方法，生成本地模型后，可以直接运行生产代码。

2、训练并保存模型

 　　　　static readonly string tagsTsv = Path.Combine(trainImagesFolder,  "tags.tsv");       
　　　　 private static void TrainAndSave()

        {

            var mlContext = new MLContext();

            var trainData = mlContext.Data.LoadFromTextFile<ImageNetData>(tagsTsv);

            var pipeline = mlContext.Transforms.LoadImages(outputColumnName: "image", imageFolder: trainImagesFolder, inputColumnName: nameof(ImageNetData.ImagePath))

                    .Append(mlContext.Transforms.ResizeImages(outputColumnName: "image", imageWidth: ImageNetSettings.imageWidth, imageHeight: ImageNetSettings.imageHeight, inputColumnName: "image"))

                    .Append(mlContext.Transforms.ExtractPixels(outputColumnName: "image"))

                    .Append(mlContext.Transforms.ApplyOnnxModel(modelFile: YOLO_ModelFilePath, outputColumnNames: new[] { TinyYoloModelSettings.ModelOutput }, inputColumnNames: new[] { TinyYoloModelSettings.ModelInput }));

            var model = pipeline.Fit(trainData);

            using (var file = File.OpenWrite(ObjectDetectionModelFilePath))

                mlContext.Model.Save(model, trainData.Schema, file);

            Console.WriteLine("Save Model success!");

        }

ImageNetData类定义如下：

    public class ImageNetData

    {

        [LoadColumn()]

        public string ImagePath;

        [LoadColumn()]

        public string Label;

    }

tags.tsv文件中仅包含一条样本数据，因为模型已经训练好，不存在再次训练的意义。这里只要放一张图片样本即可，通过Fit方法建立数据处理通道模型。

ApplyOnnxModel方法加载第三方ONNX模型，

    public struct TinyYoloModelSettings

    {

        // input tensor name

        public const string ModelInput = "image";

        // output tensor name

        public const string ModelOutput = "grid";

    }

其中，输入、输出的列名称是指定的。可以通过安装Netron这样的工具来查询ONNX文件的详细信息，可以看到输入输出的数据列名称。

3、应用

        private static void LoadAndPredict()

        {

            var mlContext = new MLContext();

            ITransformer trainedModel;

            using (var stream = File.OpenRead(ObjectDetectionModelFilePath))

            {

                trainedModel = mlContext.Model.Load(stream, out var modelInputSchema);

            }

            var predictionEngine = mlContext.Model.CreatePredictionEngine<ImageNetData, ImageNetPrediction>(trainedModel);

            DirectoryInfo testdir = new DirectoryInfo(testimagesFolder);

            foreach (var jpgfile in testdir.GetFiles("*.jpg"))

            {

                ImageNetData image = new ImageNetData

                {

                    ImagePath = jpgfile.FullName

                };               
                var Predicted = predictionEngine.Predict(image);

                PredictImage(image.ImagePath, Predicted);

            }

        }

代码遍历一个文件夹下面的JPG文件。对每一个文件进行转换，获得预测结果。

ImageNetPrediction类定义如下：

    public class ImageNetPrediction

    {

        [ColumnName(TinyYoloModelSettings.ModelOutput)]

        public float[] PredictedLabels;

    }

输出的“grid”列数据是一个float数组，不能直接理解其含义，所以需要通过代码将其数据转换为便于理解的格式。

     YoloWinMlParser _parser = new YoloWinMlParser();

     IList<YoloBoundingBox> boundingBoxes = _parser.ParseOutputs(Predicted.PredictedLabels, 0.4f);

YoloWinMlParser.ParseOutputs方法将float数组转为YoloBoundingBox对象的列表，第二个参数是可信度阙值，只输出大于该可信度的数据。

YoloBoundingBox类定义如下：

    class YoloBoundingBox

    {

        public string Label { get; set; }

        public float Confidence { get; set; }

        public float X { get; set; }

        public float Y { get; set; }

        public float Height { get; set; }

        public float Width { get; set; }

        public RectangleF Rect

        {

            get { return new RectangleF(X, Y, Width, Height); }

        }

    }

其中：Label为目标类型，Confidence为可行程度。

由于YOLO的特点导致对同一个目标会输出多个同样的检测结果，所以还需要对检测结果进行过滤，去掉那些高度重合的结果。

     YoloWinMlParser _parser = new YoloWinMlParser();

     IList<YoloBoundingBox> boundingBoxes = _parser.ParseOutputs(Predicted.PredictedLabels, 0.4f);

     var filteredBoxes = _parser.NonMaxSuppress(boundingBoxes, , 0.6F);

YoloWinMlParser.NonMaxSuppress第二个参数表示最多保留多少个结果，第三个参数表示重合率阙值，将去掉重合率大于该值的记录。

四、资源获取

源码下载地址：https://github.com/seabluescn/Study_ML.NET

工程名称：YOLO_ObjectDetection

资源获取：https://gitee.com/seabluescn/ML_Assets （ObjectDetection）

点击查看机器学习框架ML.NET学习笔记系列文章目录

机器学习框架ML.NET学习笔记【8】目标检测（采用YOLO2模型）的更多相关文章

机器学习框架ML.NET学习笔记【4】多元分类之手写数字识别
一.问题与解决方案通过多元分类算法进行手写数字识别,手写数字的图片分辨率为8*8的灰度图片.已经预先进行过处理,读取了各像素点的灰度值,并进行了标记. 其中第0列是序号(不参与运算).1-64列是像 ...
机器学习框架ML.NET学习笔记【2】入门之二元分类
一.准备样本接上一篇文章提到的问题:根据一个人的身高.体重来判断一个人的身材是否很好.但我手上没有样本数据,只能伪造一批数据了,伪造的数据比较标准,用来学习还是蛮合适的. 下面是我用来伪造数据的代码 ...
机器学习框架ML.NET学习笔记【1】基本概念与系列文章目录
一.序言微软的机器学习框架于2018年5月出了0.1版本,2019年5月发布1.0版本.期间各版本之间差异(包括命名空间.方法等)还是比较大的,随着1.0版发布,应该是趋于稳定了.之前在园子里也看到 ...
机器学习框架ML.NET学习笔记【3】文本特征分析
一.要解决的问题问题:常常一些单位或组织召开会议时需要录入会议记录,我们需要通过机器学习对用户输入的文本内容进行自动评判,合格或不合格.(同样的问题还类似垃圾短信检测.工作日志质量分析等.) 处理思 ...
机器学习框架ML.NET学习笔记【5】多元分类之手写数字识别（续）
一.概述上一篇文章我们利用ML.NET的多元分类算法实现了一个手写数字识别的例子,这个例子存在一个问题,就是输入的数据是预处理过的,很不直观,这次我们要直接通过图片来进行学习和判断.思路很简单,就是 ...
机器学习框架ML.NET学习笔记【6】TensorFlow图片分类
一.概述通过之前两篇文章的学习,我们应该已经了解了多元分类的工作原理,图片的分类其流程和之前完全一致,其中最核心的问题就是特征的提取,只要完成特征提取,分类算法就很好处理了,具体流程如下: 之前介绍 ...
机器学习框架ML.NET学习笔记【7】人物图片颜值判断
一.概述这次要解决的问题是输入一张照片,输出人物的颜值数据. 学习样本来源于华南理工大学发布的SCUT-FBP5500数据集,数据集包括 5500 人,每人按颜值魅力打分,分值在 1 到 5 分之间 ...
机器学习框架ML.NET学习笔记【9】自动学习
一.概述本篇我们首先通过回归算法实现一个葡萄酒品质预测的程序,然后通过AutoML的方法再重新实现,通过对比两种实现方式来学习AutoML的应用. 首先数据集来自于竞赛网站kaggle.com的UC ...
OpenCV 学习笔记 07 目标检测与识别
目标检测与识别是计算机视觉中最常见的挑战之一.属于高级主题. 本章节将扩展目标检测的概念,首先探讨人脸识别技术,然后将该技术应用到显示生活中的各种目标检测. 1 目标检测与识别技术为了与OpenCV ...

随机推荐

HTml js 生成图片
<script type="text/javascript"> function $(id) { return document.getElementById(id); ...
【Python】String 字符串
1. split() split()通过指定分隔符对字符串进行切片,如果参数num 有指定值,则仅分隔 num 个子字符串 split()方法语法:str.split(str="" ...
【C++基础】重载，覆盖，隐藏
函数签名的概念函数签名主要包括1.函数名:2.参数列表(参数的个数.数据类型和顺序):但是注意,C++官方定义中函数签名不包括返回值!! 1.重载函数重载是指在同一作用域内,可以有一组具有相同函数 ...
手工创建ASM Disk Groups、为 ASM Disk Groups 添加 disk
Groups 添加 disk 创建语法说明: 必选参数: (1) 指定disk group 的唯一名称 (不分区大小写) (2) 指定disk group 的冗余级别对于ASM 的镜像冗余,可以指定3 ...
重学JAVA基础(一):PATH和CLASSPATH
我想大多数Java初学者都会遇到的问题,那就是怎么配置环境,执行java -jar xxx.jar 都会报NoClassDefFindError,我在最开始学习的时候,也遇到了这些问题. 1.PAT ...
C 汉字处理
好像有个wchar_t类型的,这里不深究了,只研究char型(1个字符大小)的 1.定义直接使用char,但每个汉字占据2个字符,所以必须以字符串形式存在 char s[10]; 2.定义时直接赋值 ...
Spring Data JPA stackoverflow
1.禁止使用lombok 的@Data 注释使用@Data注释后,默认会重写父类的toString()方法,hashcode()等方法,在往map里存的时候,会根据equals和hashcode方法 ...
SqlServer2012——多表连接查询
1.基本连接 select A.姓名,A.性别,B.班级名,B.家庭住址 From 学生信息 A,班级信息 B where A.所属班级=B.班级编号 --把A表与B表连接起来 2.内连接 --内连接 ...
poj 3417 Network(tarjan lca)
poj 3417 Network(tarjan lca) 先给出一棵无根树,然后下面再给出m条边,把这m条边连上,然后每次你能毁掉两条边,规定一条是树边,一条是新边,问有多少种方案能使树断裂. 我们设 ...
Bzoj 3380: [Usaco2004 Open]Cave Cows 1 洞穴里的牛之一
3380: [Usaco2004 Open]Cave Cows 1 洞穴里的牛之一 Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 64 Solved ...

机器学习框架ML.NET学习笔记【8】目标检测（采用YOLO2模型）

机器学习框架ML.NET学习笔记【8】目标检测（采用YOLO2模型）的更多相关文章

随机推荐

热门专题