k-近邻算法案例分析

本案例使用最著名的”鸢尾“数据集，该数据集曾经被Fisher用在经典论文中，目前作为教科书般的数据样本预存在Scikit-learn的工具包中。

读入Iris数据集细节资料

from sklearn.datasets import load_iris

# 使用加载器读取数据并且存入变量iris

iris = load_iris()

# 查验数据规模

iris.data.shape

# 查看数据说明（这是一个好习惯）

print iris.DESCR

通过上述代码对数据的查验以及数据本身的描述，我们了解到Iris数据集共有150朵鸢尾数据样本，并且均匀分布在3个不同的亚种；每个数据样本有总共4个不同的关于花瓣、花萼的形状特征所描述。由于没有制定的测试集合，因此按照惯例，我们需要对数据进行随即分割，25%的样本用于测试，其余75%的样本用于模型的训练。

由于不清楚数据集的排列是否随机，可能会有按照类别去进行依次排列，这样训练样本的不均衡的，所以我们需要分割数据，已经默认有随机采样的功能。

对Iris数据集进行分割

from sklearn.cross_validation import train_test_split

X_train,X_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.25,random_state=42)

对特征数据进行标准化

from sklearn.preprocessing import StandardScaler

ss = StandardScaler()

X_train = ss.fit_transform(X_train)

X_test = ss.fit_transform(X_test)

K近邻算法是非常直观的机器学习模型，我们可以发现K近邻算法没有参数训练过程，也就是说，我们没有通过任何学习算法分析训练数据，而只是根据测试样本训练数据的分布直接作出分类决策。因此，K近邻属于无参数模型中非常简单一种。

from sklearn.datasets import load_iris

from sklearn.cross_validation import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import classification_report

from sklearn.model_selection import GridSearchCV

def knniris():

    """

    鸢尾花分类

    :return: None

    """

    # 数据集获取和分割

    lr = load_iris()

    x_train, x_test, y_train, y_test = train_test_split(lr.data, lr.target, test_size=0.25)

    # 进行标准化

    std = StandardScaler()

    x_train = std.fit_transform(x_train)

    x_test = std.transform(x_test)

    # estimator流程

    knn = KNeighborsClassifier()

    # # 得出模型

    # knn.fit(x_train,y_train)

    #

    # # 进行预测或者得出精度

    # y_predict = knn.predict(x_test)

    #

    # # score = knn.score(x_test,y_test)

    # 通过网格搜索,n_neighbors为参数列表

    param = {"n_neighbors": [3, 5, 7]}

    gs = GridSearchCV(knn, param_grid=param, cv=10)

    # 建立模型

    gs.fit(x_train,y_train)

    # print(gs)

    # 预测数据

    print(gs.score(x_test,y_test))

    # 分类模型的精确率和召回率

    # print("每个类别的精确率与召回率：",classification_report(y_test, y_predict,target_names=lr.target_names))

    return None

if __name__ == "__main__":

    knniris()

3.2_k-近邻算法案例分析的更多相关文章

机器学习之利用KNN近邻算法预测数据
前半部分是简介, 后半部分是案例 KNN近邻算法: 简单说就是采用测量不同特征值之间的距离方法进行分类(k-Nearest Neighbor,KNN) 优点: 精度高.对异常值不敏感.无数据输入假定 ...
机器学习入门KNN近邻算法(一)
1 机器学习处理流程: 2 机器学习分类: 有监督学习主要用于决策支持,它利用有标识的历史数据进行训练,以实现对新数据的表示的预测 1 分类分类计数预测的数据对象是离散的.如短信是否为垃圾短信,用 ...
02机器学习实战之K近邻算法
第2章 k-近邻算法 KNN 概述 k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法. 一句话总结:近朱者赤近墨者黑! k ...
【MySQL】排序原理与案例分析
前言排序是数据库中的一个基本功能,MySQL也不例外.用户通过Order by语句即能达到将指定的结果集排序的目的,其实不仅仅是Order by语句,Group by语句,Distinct语句都会隐 ...
从K近邻算法谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/v_july_v/article/details/8203674 ,感谢july的辛勤劳动前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章 ...
WebLogic集群案例分析
WebLogic集群案例分析 2012年8月,某证券交易系统(采用Weblogic中间件),由于基金业务火爆,使系统压力太大,后台服务器频繁死机时,这时工程师们紧急调试系统及恢复操作,等完成这些操作花 ...
《大型网站技术架构：核心原理与案例分析》【PDF】下载
<大型网站技术架构:核心原理与案例分析>[PDF]下载链接: https://u253469.pipipan.com/fs/253469-230062557 内容简介本书通过梳理大型网站 ...
个人作业2：QQ音乐APP案例分析
APP案例分析 QQ音乐选择理由:毕竟作为QQ音乐九年的资深老用户以及音乐爱好者第一部分调研 1.第一次上手的体验我算是很早期的QQ音乐的用户,用QQ音乐七八年,除了体验各方面还不错之外 ...
《深入理解Java虚拟机》-----第5章 jvm调优案例分析与实战
案例分析高性能硬件上的程序部署策略例如 ,一个15万PV/天左右的在线文档类型网站最近更换了硬件系统,新的硬件为4个CPU.16GB物理内存,操作系统为64位CentOS 5.4 , Resin ...

随机推荐

轻松制作儿童趣味算术软件 - imsoft.cnblogs
轻松制作儿童趣味算术软件马震安电脑爱好者 2014-07-23 08:38技巧 0 条评论标签:软件兴趣是学习的动力,以动感的软件和自动判断得分的形式测试孩子的算术能力,总要比在白纸上出几 ...
任务三简单程序测试及 GitHub Issues 的使用
我提交的Issue 我被提出的Issue 在使用Issue的过程中我发现提出的Issue不能指派任务人和问题类型,被提出的Issue可以. 碰到最多的问题是测试程序的过程中, 比如用户未按指定格式输入 ...
CodeForces - 457C：Elections（三分）
You are running for a governor in a small city in Russia. You ran some polls and did some research, ...
All the Apache Streaming Projects: An Exploratory Guide
The speed at which data is generated, consumed, processed, and analyzed is increasing at an unbeliev ...
c++中的流
streambuf类为缓冲区提供内存,并提供了用于填充缓冲区,访问缓冲区,刷新新缓冲区和管理缓冲区内存的类方法. ios_base类表示流的一般特征,如是否可读,是二进制还是文本流等. ios类基于i ...
[Python] 中文路径和中文文本文件乱码问题
情景: Python首先读取名为log.txt的文本文件, 其中包含有文件名相对路径信息filename. 随后Python调用shutil.copy2(src, dst)对该filename文件进行 ...
jmeter—打开jmx报com.thoughtworks.xstream.converters.ConversionException
打开出错的jmx文件,查看出错行由于缺少PerfMon Metrics Collector插件,所以报这个错误下载地址(https://jmeter-plugins.org/downloads/a ...
理解REST和SOA
REST -- REpresentational State Transfer 直接翻译:表现层状态转移. 精辟理解:URL定位资源,用HTTP动词(GET,POST,DELETE,DETC)描述操作 ...
js 正则用空格分割字符串
var filename = "ASDFK*SADF+ALDLAS-LDKFADFa*seAc tion.java";var arr = filename.split(/\*|\- ...
vs2015 去除 git 源代码绑定，改成向tfs添加源码管理
除了下文的方法是将源码管理从git改成tfs之外,还要做以下几步即可向tfs添加源码打开源码管理(管理连接),双击打开你要向其中添加的tfs连接选中该解决方案,右键将解决方案添加到源码管理嵌 ...

3.2_k-近邻算法案例分析

k-近邻算法案例分析

3.2_k-近邻算法案例分析的更多相关文章

随机推荐

热门专题