写在前面

准备近期将微软的machinelearning-samples翻译成中文，水平有限，如有错漏，请大家多多指正。

如果有朋友对此感兴趣，可以加入我：https://github.com/feiyun0112/machinelearning-samples.zh-cn

垃圾短信检测

ML.NET 版本	API 类型	状态	应用程序类型	数据类型	场景	机器学习任务	算法
v0.7	动态API	可能需要更新项目结构以匹配模板	控制台应用程序	.tsv 文件	垃圾信息检测	二元分类	SDCA（线性学习器），还展示了CustomMapping评估器，它可以将自定义代码添加到ML.NET管道

在这个示例中，您将看到如何使用ML.NET来预测短信是否是垃圾信息。在机器学习领域中，这种类型的预测被称为二元分类。

问题

我们的目标是预测一个短信是否是垃圾信息（一个不相关的/不想要的消息）。我们将使用UCI的SMS Spam Collection Data Set，其中包含近6000条被分类为“垃圾信息”或“ham”（不是垃圾信息）的消息。我们将使用这个数据集来训练一个模型，该模型可以接收新消息并预测它们是否是垃圾信息。

这是一个二元分类的示例，因为我们将短信分类为两个类别。

解决方案

要解决这个问题，首先我们将建立一个评估器来定义我们想要使用的机器学习管道。然后，我们将在现有数据上训练这个评估器，评估其有多好，最后我们将使用该模型来预测一些示例消息是否是垃圾信息。

1. 建立评估器

为了建立评估器，我们将：

定义如何读取从 https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection 下载的垃圾信息数据集。
应用多个数据转换：
- 将标签（“spam”或“ham”）转换为布尔值（“true”表示垃圾信息），这样我们就可以在二元分类器中使用它。
- 将短信转换为数字向量，以便机器学习训练器可以使用它
添加一个训练器（如StochasticDualCoordinateAscent）。

初始代码类似以下内容：

// Set up the MLContext, which is a catalog of components in ML.NET.

var mlContext = new MLContext();

// Create the reader and define which columns from the file should be read.

var reader = new TextLoader(mlContext, new TextLoader.Arguments()

{

    Separator = "tab",

    HasHeader = true,

    Column = new[]

        {

            new TextLoader.Column("Label", DataKind.Text, 0),

            new TextLoader.Column("Message", DataKind.Text, 1)

        }

});

var data = reader.Read(new MultiFileSource(TrainDataPath));

// Create the estimator which converts the text label to boolean, featurizes the text, and adds a linear trainer.

var estimator = mlContext.Transforms.CustomMapping<MyInput, MyOutput>(MyLambda.MyAction, "MyLambda")

    .Append(mlContext.Transforms.Text.FeaturizeText("Message", "Features"))

    .Append(mlContext.BinaryClassification.Trainers.StochasticDualCoordinateAscent());

2. 评估模型

对于这个数据集，我们将使用交叉验证来评估我们的模型。将数据集划分成5个不相交的子集，训练5个模型（每个模型使用其中4个子集），并在训练中没有使用的数据子集上测试模型。

var cvResults = mlContext.BinaryClassification.CrossValidate(data, estimator, numFolds: 5);

var aucs = cvResults.Select(r => r.metrics.Auc);

Console.WriteLine("The AUC is {0}", aucs.Average());

请注意，通常我们在训练后评估模型。但是，交叉验证包括模型训练部分，因此我们不需要先执行Fit()。但是，我们稍后将在完整数据集上训练模型以利用其他数据。

3. 训练模型

为了训练模型，我们将调用评估器的Fit()方法，同时提供完整的训练数据。

var model = estimator.Fit(data);

4. 使用模型

训练完模型后，您可以使用Predict()API来预测新文本是否垃圾信息。在这种情况下，我们更改模型的阈值以获得更好的预测。我们这样做是因为我们的数据有偏差，大多数消息都不是垃圾信息。

// The dataset we have is skewed, as there are many more non-spam messages than spam messages.

// While our model is relatively good at detecting the difference, this skewness leads it to always

// say the message is not spam. We deal with this by lowering the threshold of the predictor. In reality,

// it is useful to look at the precision-recall curve to identify the best possible threshold.

var inPipe = new TransformerChain<ITransformer>(model.Take(model.Count() - 1).ToArray());

var lastTransformer = new BinaryPredictionTransformer<IPredictorProducing<float>>(mlContext, model.LastTransformer.Model, inPipe.GetOutputSchema(data.Schema), model.LastTransformer.FeatureColumn, threshold: 0.15f, thresholdColumn: DefaultColumnNames.Probability);

ITransformer[] parts = model.ToArray();

parts[parts.Length - 1] = lastTransformer;

var newModel = new TransformerChain<ITransformer>(parts);

// Create a PredictionFunction from our model

var predictor = newModel.MakePredictionFunction<SpamInput, SpamPrediction>(mlContext);

var input = new SpamInput { Message = "free medicine winner! congratulations" };

Console.WriteLine("The message '{0}' is {1}", input.Message, predictor.Predict(input).isSpam ? "spam" : "not spam");

ML.NET 示例：二元分类之垃圾短信检测的更多相关文章

python数据挖掘第三篇-垃圾短信文本分类
数据挖掘第三篇-文本分类文本分类总体上包括8个步骤.数据探索分析->数据抽取->文本预处理->分词->去除停用词->文本向量化表示->分类器->模型评估.重 ...
新出台的治理iMessage垃圾短信的规则
工信部拟制定<通信短信息服务管理规定>,为治理垃圾短信提供执法根据.当中,对于苹果iMessage垃圾信息泛滥现象,工信部也将跟踪研究技术监測和防范手段.这意味着长期以来处于监管" ...
使用Python 2.7实现的垃圾短信识别器
最近参加比赛,写了一个垃圾短信识别器,在这里做一下记录. 官方提供的数据是csv文件,其中训练集有80万条数据,测试集有20万条数据,训练集的格式为:行号标记(0为普通短信,1为垃圾短信) 短信内容 ...
单线程与多线程的简单示例(以Windows服务发短信为示例)
单线程示例: public delegate void SM(); SM sm = new SM(() => { while (true) ...
XSS之偷梁换柱--盲打垃圾短信平台
https://www.t00ls.net/thread-49742-1-1.html
R 基于朴素贝叶斯模型实现手机垃圾短信过滤
# 读取数数据, 查看数据结构 df_raw <- read.csv("sms_spam.csv", stringsAsFactors=F) str(df_raw) leng ...
ML.NET 示例：目录
ML.NET 示例中文版:https://github.com/feiyun0112/machinelearning-samples.zh-cn 英文原版请访问:https://github.com/ ...
腾讯云短信 nodejs 接入, 通过验证码修改手机示例
腾讯云短信 nodejs 接入, 通过验证码修改手机示例参考:腾讯云短信文档国内短信快速入门qcloudsms Node.js SDK文档中心>短信>错误码 nodejs sdk 使用示 ...
atitit.短信验证码破解 v3 p34 识别绕过系统方案规划----业务相关方案手机验证码 .doc
atitit.短信验证码破解 v3 p34 识别绕过系统方案规划----业务相关方案手机验证码 .doc 1. 手机短信验证码 vs 图片验证码安全性(破解成本)确实要高一些1 1 ...

随机推荐

LazyMan深入解析和实现
一.题目介绍以下是我copy自网上的面试题原文: 实现一个LazyMan,可以按照以下方式调用: LazyMan("Hank")输出: Hi! This is Hank! ...
tkinter中Radiobutton单选框控件（七）
Radiobutton控件由于本次内容中好多知识都是之前重复解释过的,本次就不做解释了.不太清楚的内容请参考tkinter1-6节中的内容 import tkinter wuya = tkinter ...
pymongo的用法
先看一下官方给出的简单例子,涵盖了大部分内容: >>> import pymongo >>> client = pymongo.MongoClient(" ...
洗礼灵魂，修炼python（31）--面向对象编程（1）—面向对象，对象，类的了解
面向对象 1.什么是面向对象 (图片来自网络) 哈哈,当然不是图中的意思. 1).面向对象(Object Oriented,OO)是软件开发方法.利用各大搜索引擎得到的解释都太官方,完全看不懂啥意思对 ...
JavaScript高级特性-数组
1. JavaScript中的数组在C++.Java中,数组是一种高效的数据结构,随机访问性能特别好,但是局限性也特别明显,就是数组中存放的数据必须是同一类型的,而在JavaScript中,数组中的 ...
JavaScript高级特性-实现继承的七种方式
声明和约定: 在C++和Java中,我们可以通过关键字class来声明一个类,在JavaScript中没有这个关键字,但我们知道可以通过new一个function创建对象,这个function类似C+ ...
JavaScript高级特性-创建对象的九种方式
1. 对象字面量通过这种方式创建对象极为简单,将属性名用引号括起来,再将属性名和属性值之间以冒号分隔,各属性名值对之后用逗号隔开,最后一个属性不用逗号隔开,所有的属性名值对用大括号括起来,像这样: ...
Navicat连接Oracle 报 ORA-12737 set CHS16GBK错误
4,680 今天看到0day5上面更新了一个用友ERP的漏洞,确实可以下载任意文件:但是用友ERP基本上都是使用了oracle数据库,必须要有一个好的数据库连接工具才可以,Navi ...
win7 系统中的加密文件打不开了
网友提问:我原来安装的时候win7 32位旗舰版系统,因为想电脑达到最大运行速度,所以决定把系统重装为64位的win 7系统.[了解win 7 32位于64位的区别]因为重装前未解密bitlocke ...
彻底修改 Windows 系统用户名
在 Windows 安装的时候会输入一个用户名,电脑店装的一般都会给你设置成Admin之类的.这个时候你想要改成自己的,一般都是直接在控制面板 > 用户帐户和家庭安全 > 用户帐户 &g ...

ML.NET 示例：二元分类之垃圾短信检测

写在前面