教你用Python实现简单监督学习算法

教你用Python实现简单监督学习算法

监督学习作为运用最广泛的机器学习方法，一直以来都是从数据挖掘信息的重要手段。即便是在无监督学习兴起的近日，监督学习也依旧是入门机器学习的钥匙。

这篇监督学习教程适用于刚入门机器学习的小白。

当然了，如果你已经熟练掌握监督学习，也不妨快速浏览这篇教程，检验一下自己的理解程度~

什么是监督学习？

在监督学习中，我们首先导入包含有训练属性和目标属性的数据集。监督学习算法会从数据集中学习得出训练样本和其目标变量之间的关系，然后将学习到的关系对新样本（未被标记的样本）进行分类。

为了阐明监督学习的工作原理，我们用根据学生学习时间预测其考试成绩的例子来说明。

用数学表示，即Y = f(X) C，其中

f表示学生学习时间和考试成绩之间的关系

X表示输入（学习小时数）

Y表示输出（考试分数）

C表示随机误差

监督学习算法的终极目标是给出新的输入X，使得预测结果Y的准确率最大。有很多方法可以实现有监督学习，我们将探讨几种最常用的方法。

根据给定的数据集，机器学习可以分为两大类：分类（Classification）和回归（Regression）。如果给定的数据集的输出值是类别，那么待解决是分类问题。如果给定的数据集的输出值是连续的，那么该问题是回归问题。

举两个例子

分类：判断是猫还是狗。

回归：房子的售价是多少？

分类

考虑这样一个例子，医学研究员想要分析乳腺癌数据，用于预测患者使用三种治疗方案中的哪一种。该数据分析问题就属于分类问题，通过建立分类模型来预测类别标签，例如“治疗方案A”、“治疗方案B”或者“治疗方案C”。

分类是一个预测类别标签的预测问题，这些类别标签都是离散和无序的。分类包含两个步骤：学习步骤和分类步骤。

分类方法和选择最优方法

一些常见的分类算法：

K近邻

决策树

朴素贝叶斯

支持向量机

在学习步骤中，分类模型通过分析训练集数据建立一个分类器。在分类步骤中，分类器对给定的数据进行分类。用于分析的数据集（包含数据和其对应的标签）被划分为训练集和测试集。训练集从分析用的数据集中随机抽取。剩下的数据集构成测试集。测试集和训练集相互独立，即测试集中的数据不会被构建于分类器。

测试集用于评价分类器的预测精度。分类器的精度用测试集中预测正确的百分比表示。为了获得更高的精度，最好的方法是测试多个不同的算法，同时，对每个算法尝试不同的参数。可以通过交互检验选择最好的算法和参数。

对于给定问题，在选取算法时，算法的精度、训练时间、线性、参数数目以及特殊情况都要考虑在内。

在IRIS数据集上实现sklearn中的KNN，并对给定的输入进行花卉类型分类。

首先，要应用机器学习算法，我们需要了解给定数据集的组成。在这个例子中，我们使用内置在sklearn包中的IRIS数据集。现在让我们使用代码查看IRIS数据集。

请确保你的电脑上成功安装了Python。然后，通过PIP安装下面这些python库：

pip install pandaspip install matplotlibpip install
scikit-learn

在下面这段代码中，我们使用pandas中的一些方法查看IRIS数据集的一些属性。

from sklearn import datasetsimport pandas as pdimport
matplotlib.pyplot as plt# Loading IRIS dataset from scikit-learn
object into iris variable.iris = datasets.load_iris()# Prints the
type/type object of irisprint(type(iris))# # prints the dictionary
keys of iris dataprint(iris.keys())# prints the type/type object of
given attributesprint(type(iris.data), type(iris.target))# prints
the no of rows and columns in the datasetprint(iris.data.shape)#
prints the target set of the dataprint(iris.target_names)# Load
iris training datasetX = iris.data# Load iris target setY =
iris.target# Convert datasets' type into dataframedf =
pd.DataFrame(X, columns=iris.feature_names)# Print the first five
tuples of dataframe.print(df.head())

输出：

dict_keys([‘data’, ‘target’, ‘target_names’, ‘DESCR’,
‘feature_names’])] (150, 4)[‘setosa’ ‘versicolor’ ‘virginica’]sepal
length(cm) sepal width(cm) petal length(cm) petal width(cm)0 5.1
3.5 1.4 0.21 4.9 3.0 1.4 0.22 4.7 3.2 1.3 0.23 4.6 3.1 1.5 0.24 5.0
3.6 1.4 0.2

Sklearn中的K最近邻算法

如果一个算法仅存储训练集数据，并等待测试集数据的给出，那么这个算法便可认为是一个“懒惰学习法”。直到给定测试集数据，它才会根据它与存储的训练集样本的相似性来对新样本进行分类。

K近邻分类器就是一个懒惰学习法。

K近邻基于类比学习，比较一个测试样本和与之相似训练集数据。训练集有n个属性表征。每个样本由n维空间中的一个点表示。这样，训练集中的所有样本都储存在n维模式空间中。当给定一个未知的样本，K近邻分类器在模式空间中搜寻和未知样本最接近的k个训练样本。这k个训练样本就是未知样本的k个近邻。

“接近度”用距离来度量，例如欧几里得距离。较好的K值可以通过实验确定。

在下面这段代码中，我们导入KNN分类器，将之应用到我们的输入数据中，然后对花卉进行分类。

from sklearn import datasetsfrom sklearn.neighbors import
KNeighborsClassifier# Load iris dataset from sklearniris =
datasets.load_iris()# Declare an of the KNN classifier class with
the value with neighbors.knn = KNeighborsClassifier(n_neighbors=6)#
Fit the model with training data and target
valuesknn.fit(iris['data'], iris['target'])# Provide data whose
class labels are to be predictedX = [ [5.9, 1.0, 5.1, 1.8], [3.4,
2.0, 1.1, 4.8],]# Prints the data providedprint(X)# Store predicted
class labels of Xprediction = knn.predict(X)# Prints the predicted
class labels of Xprint(prediction)

输出：

[11]

其中，0，1，2分别代表不同的花。在该例子中，对于给定的输入，KNN分类器将它们都预测成为1这个类别的花。

KNN对IRIS数据集分类的直观可视化

回归

回归通常被定义为确定两个或多个变量之间的相关关系。例如，你要通过给定的数据X预测一个人的收入。这里，目标变量是指该变量是我们关心以及想要预测的未知变量，而连续是指Y的取值没有间隔。

预测收入是一个经典的回归问题。你的输入应当包含所有与收入相关的个人信息（比如特征），这些信息可以预测收入，例如工作时长、教育经历、职称以及他的曾住地等。

回归模型

一些常见的回归模型有

线性回归

逻辑回归

多项式回归

线性回归通过拟合一条直线（回归线）来建立因变量（Y）与一个或多个自变量（X）之间关系。

用数学公示表示，即h(xi) = βo β1 * xi e，其中

βo是截距

β1是斜率

e是误差项

用图表示，即

逻辑回归是一种预测类别的算法，用于找出特征和特定输出概率之间关系。

当然了，我们也可以把逻辑回归归类为分类算法，但就像我们刚才所说，逻辑回归的输出其实是目标对象属于某一类别的概率。既然概率是连续的，我们依旧把逻辑回归算作回归算法。

用数学公式表示：p(X) = βo β1 * X，其中p(x) = p(y = 1 | x)

图形表示为

多项式回归是一种将自变量x与因变量y的关系拟合为x的n阶多项式的回归算法。

解决线性回归问题

我们有数据集X，以及对应的目标值Y，我们使用普通最小二乘法通过最小化预测误差来拟合线性模型

给定的数据集同样划分为训练集和测试集。训练集由已知标签的样本组成，因此算法能够通过这些已知标签的样本来学习。测试集样本不包含标签，你并不知道你试图预测样本的标签值。

我们将选择一个需要训练的特征，应用线性回归方法拟合训练数据，然后预测测试集的输出。

用Sklearn实现线性回归

from sklearn import datasets, linear_modelimport matplotlib.pyplot
as pltimport numpy as np# Load the diabetes datasetdiabetes =
datasets.load_diabetes()# Use only one feature for
trainingdiabetes_X = diabetes.data[:, np.newaxis, 2]# Split the
data into training/testing setsdiabetes_X_train =
diabetes_X[:-20]diabetes_X_test = diabetes_X[-20:]# Split the
targets into training/testing setsdiabetes_y_train =
diabetes.target[:-20]diabetes_y_test = diabetes.target[-20:]#
Create linear regression objectregr =
linear_model.LinearRegression()# Train the model using the training
setsregr.fit(diabetes_X_train, diabetes_y_train)# Input
dataprint('Input Values')print(diabetes_X_test)# Make predictions
using the testing setdiabetes_y_pred =
regr.predict(diabetes_X_test)# Predicted Dataprint("Predicted
Output Values")print(diabetes_y_pred)# Plot
outputsplt.scatter(diabetes_X_test, diabetes_y_test,
color='black')plt.plot(diabetes_X_test, diabetes_y_pred,
color='red', linewidth=1)plt.show()

输入

输入值：

[ [ 0.07786339] [-0.03961813] [ 0.01103904] [-0.04069594]
[-0.03422907] [ 0.00564998] [ 0.08864151] [-0.03315126]
[-0.05686312] [-0.03099563] [ 0.05522933] [-0.06009656] [
0.00133873] [-0.02345095] [-0.07410811] [ 0.01966154] [-0.01590626]
[-0.01590626] [ 0.03906215] [-0.0730303 ] ]

预测的输出值：

[ 225.9732401115.74763374163.27610621114.73638965
120.80385422158.21988574236.08568105121.8150983299.56772822123.83758651204.7371141196.53399594154.17490936130.9162951783.3878227171.36605897137.99500384137.99500384189.5684526884.3990668
]

结语

提一下常用的监督学习的python库

Scikit-Learn

Tensorflow

Pytorch

教你用Python实现简单监督学习算法的更多相关文章

python实现简单排序算法
算法递归两个特点: 调用自身有穷调用计算规模越来越小,直至最后结束用装饰器修饰一个递归函数时会出现问题,这个问题产生的原因是递归的函数也不停的使用装饰器.解决方法是,只让装饰器调用一次即可,那 ...
10分钟手把手教你运用Python实现简单的人脸识别
欲直接下载代码文件,关注我们的公众号哦!查看历史消息即可! 前言:让我的电脑认识我我的电脑只有认识我,才配称之为我的电脑! 今天,我们用Python实现高大上的人脸识别技术! Python里,简单的 ...
简单的算法题， Find Minimum in Rotated Sorted Array 的Python实现。
简单的算法题, Find Minimum in Rotated Sorted Array 的Python实现. 题目: Suppose a sorted array is rotated at som ...
手把手教你吧Python应用到实际开发不再空谈悟法☝☝☝
手把手教你吧Python应用到实际开发不再空谈悟法☝☝☝ 想用python做机器学习吗,是不是在为从哪开始挠头?这里我假定你是新手,这篇文章里咱们一起用Python完成第一个机器学习项目.我会手把手 ...
12岁的少年教你用Python做小游戏
首页资讯文章频道资源小组相亲登录注册首页最新文章经典回顾开发设计 IT技术职场业界极客创业访谈在国外 - 导航条 - 首页最新文章经典回顾开发 ...
一步步教你轻松学奇异值分解SVD降维算法
一步步教你轻松学奇异值分解SVD降维算法 (白宁超 2018年10月24日09:04:56 ) 摘要:奇异值分解(singular value decomposition)是线性代数中一种重要的矩阵分 ...
脉冲神经网络及有监督学习算法Tempotron
接下来一段时间开启脉冲神经网络模型的探索之旅.脉冲神经网络有更强的生物学基础,尽可能地模拟生物神经元之间的连接和通信方式.其潜在能力较强,值得踏进一步探索. 构建脉冲神经网络模型,至少需要考虑三点:1 ...
<机器学习>无监督学习算法总结
本文仅对常见的无监督学习算法进行了简单讲述,其他的如自动编码器,受限玻尔兹曼机用于无监督学习,神经网络用于无监督学习等未包括.同时虽然整体上分为了聚类和降维两大类,但实际上这两类并非完全正交,很多地方 ...
python机器学习的常用算法
Python机器学习学习意味着通过学习或经验获得知识或技能.基于此,我们可以定义机器学习(ML)如下 - 它可以被定义为计算机科学领域,更具体地说是人工智能的应用,其为计算机系统提供了学习数据和从经 ...

随机推荐

自己对GIS的思考
这只是我自己的理解,谈不上对整个行业的理解,只能从自己的角度谈谈GIS,谈谈爱和恨. 现在在武汉的一所所谓的全国GIS数一数二的学校里面读硕士,从高中开始我就很喜欢地理学科,大学选择了地球信息科技这个 ...
微软推出全新的Windows终端应用程序
微软正推出一款名为Windows Terminal的新命令行应用程序.它被设计为访问PowerShell,cmd.exe和Windows子系统Linux(WSL)等环境的中心位置.微软正在为想要调整终 ...
centos7进入单用户模式修改root密码
1.开机按“e”,然后输入init=/bin/sh 2.根据提示按ctrl+x 得如下图: 3.输入mount -o remount,rw / 输入passwd设置新密码.如下图: 4.输 ...
VM错误解决：This Virtual Machine Appears To Be In Use
刚才准备做网站(数据备份都在VM里面),没想到启动不起来,咋一看,出现This Virtual Machine Appears To Be In Use字号,不过貌似我没有启动任何VM啊,何来in u ...
利用cmd运行java程序
在运行以下程序时,要确保正确配置java的环境变量!!! 此处仅仅使用“记事本”来写java程序!!! 1. 新建一个记事本文件,命名为HelloWorld.java 这里需要注意的是,要确保关闭了隐 ...
如何给自己的Python项目制作安装包
Packaging Python Projects¶ 本教程将指导您如何打包一个简单的Python项目.它将向您展示如何添加必要的文件和结构来创建包,如何构建包以及如何将其上载到Python包索引. ...
Java基本的程序结构设计控制流程
控制流程 java的控制流程和C和C++基本一致,只是不能使用goto语句,不过break语句可以带标签,实现从内层循环跳出的目的.标签可以放在for或者while前面.如下: package com ...
LB_GETCURSEL和LB_GETTEXT的使用
case IDC_LIST1: { switch (HIWORD(wParam)) { case LBN_DBLCLK: { HWND hwndList = GetDlgItem(hDlg, IDC_ ...
UEditor富文本编辑器简单使用
UEditor富文本编辑器简单使用一.下载地址:https://ueditor.baidu.com/website/ 官网中并没有 python 版本的 UEditor 富文本编辑器,本文简单介绍 ...
微信小程序-饮食日志_开发日志
针对假期作业为父母或者身边的人做一款“小软件”这个课题,由于对 android 开发不熟悉 ,所以决定做一款微信小程序. 项目名称:饮食管理日志目的:身边的人群对摄入食物热量及消耗不清楚,对健康需求 ...

教你用Python实现简单监督学习算法

教你用Python实现简单监督学习算法的更多相关文章

随机推荐

热门专题