Machine Learning in Action(1) K-近邻

机器学习分两大类，有监督学习(supervised learning)和无监督学习(unsupervised learning)。有监督学习又可分两类：分类（classification.）和回归（regression），分类的任务就是把一个样本划为某个已知类别，每个样本的类别信息在训练时需要给定，比如人脸识别、行为识别、目标检测等都属于分类。回归的任务则是预测一个数值，比如给定房屋市场的数据（面积，位置等样本信息）来预测房价走势。而无监督学习也可以成两类：聚类（clustering）和密度估计（density estimation）,聚类则是把一堆数据聚成弱干组，没有类别信息；密度估计则是估计一堆数据的统计参数信息来描述数据,比如深度学习的RBM。

根据机器学习实战讲解顺序，先学习K近邻法（K Nearest Neighbors-KNN）

K近邻法是有监督学习方法，原理很简单，假设我们有一堆分好类的样本数据，分好类表示每个样本都一个对应的已知类标签，当来一个测试样本要我们判断它的类别是，就分别计算到每个样本的距离，然后选取离测试样本最近的前K个样本的标签累计投票，得票数最多的那个标签就为测试样本的标签。

例子（电影分类）：

（图一）

（图一）中横坐标表示一部电影中的打斗统计个数，纵坐标表示接吻次数。我们要对（图一）中的问号这部电影进行分类，其他几部电影的统计数据和类别如（图二）所示：

（图二）

从（图二）中可以看出有三部电影的类别是Romance,有三部电影的类别是Action,那如何判断问号表示的这部电影的类别？根据KNN原理,我们需要在（图一）所示的坐标系中计算问号到所有其他电影之间的距离。计算出的欧式距离如（图三）所示：

（图三）

由于我们的标签只有两类，那假设我们选K=6/2=3,由于前三个距离最近的电影都是Romance,那么问号表示的电影被判定为Romance。

代码实战（Python版本）：

先来看看KNN的实现：

 from numpy import *

 import operator

 from os import listdir

 def classify0(inX, dataSet, labels, k):

     dataSetSize = dataSet.shape[0]    #获取一条样本大小

     diffMat = tile(inX, (dataSetSize,1)) - dataSet  #计算距离

     sqDiffMat = diffMat**2    #计算距离

     sqDistances = sqDiffMat.sum(axis=1)   #计算距离

     distances = sqDistances**0.5   #计算距离

     sortedDistIndicies = distances.argsort()  #距离排序

     classCount={}          

     for i in range(k):

         voteIlabel = labels[sortedDistIndicies[i]]    #前K个距离最近的投票统计

         classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1  #前K个距离最近的投票统计

     sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)  #对投票统计进行排序

     return sortedClassCount[0][0]   #返回最高投票的类别

下面取一些样本测试KNN：

 def file2matrix(filename):

     fr = open(filename)

     numberOfLines = len(fr.readlines())         #get the number of lines in the file

     returnMat = zeros((numberOfLines,3))        #prepare matrix to return

     classLabelVector = []                       #prepare labels return

     fr = open(filename)

     index = 0

     for line in fr.readlines():

         line = line.strip()

         listFromLine = line.split('\t')

         returnMat[index,:] = listFromLine[0:3]

         classLabelVector.append(int(listFromLine[-1]))

         index += 1

     return returnMat,classLabelVector

 def autoNorm(dataSet):

     minVals = dataSet.min(0)

     maxVals = dataSet.max(0)

     ranges = maxVals - minVals

     normDataSet = zeros(shape(dataSet))

     m = dataSet.shape[0]

     normDataSet = dataSet - tile(minVals, (m,1))

     normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide

     return normDataSet, ranges, minVals

 def datingClassTest():

     hoRatio = 0.50      #hold out 50%

     datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file

     normMat, ranges, minVals = autoNorm(datingDataMat)

     m = normMat.shape[0]

     numTestVecs = int(m*hoRatio)

     errorCount = 0.0

     for i in range(numTestVecs):

         classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)

         print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])

         if (classifierResult != datingLabels[i]): errorCount += 1.0

     print "the total error rate is: %f" % (errorCount/float(numTestVecs))

     print errorCount

上面的代码中第一个函数从文本文件中读取样本数据，第二个函数把样本归一化，归一化的好处就是降低样本不同特征之间数值量级对距离计算的显著性影响

datingClassTest则是对KNN测试，留了一半数据进行测试，文本文件中的每条数据都有标签，这样可以计算错误率，运行的错误率为：the total error rate is: 0.064000

总结：

优点：高精度，对离群点不敏感，对数据不需要假设模型

缺点：判定时计算量太大，需要大量的内存

工作方式：数值或者类别

下面挑选一步样本数据发出来：

以上内容来至群友博客:http://blog.csdn.net/marvin521

Ps:Knn算法作为最经典的分类算法，它也可以用来作回归预测。Knn是一个lazy且非参数的算法，这里的非参数跟参数算法(Non-parametric techniques and parametric techniques)，指的是算法对数据分布的假设是否含参数，而不是说算法本身是不是有参数，例如Knn算法的参数有K的值，但它是一个Non-parametric techniques，不过它隐含了聚类假设等，这里面的K的选择一般需要结合业务场景或者CV验证，K减小，算法的bias减小,variance增加，陷入过拟合状态，K增加,算法的bias增加,variance减小，陷入欠拟合状态。算法的复杂度还是蛮高的，需要各种计算，在特征低维度情况下可以尝试Kd-Tree，可以加快训练速度,代码实现可以谷歌FLANN C++开源包，Python工具包Scikit 里面的实现包含基于Kd-Tree，Ball-Tree的近邻搜寻算法

Machine Learning in Action(1) K-近邻的更多相关文章

K近邻 Python实现机器学习实战(Machine Learning in Action)
算法原理 K近邻是机器学习中常见的分类方法之间,也是相对最简单的一种分类方法,属于监督学习范畴.其实K近邻并没有显式的学习过程,它的学习过程就是测试过程.K近邻思想很简单:先给你一个训练数据集D,包括 ...
学习笔记之机器学习实战 (Machine Learning in Action)
机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中 ...
机器学习实战（Machine Learning in Action）学习笔记————09.利用PCA简化数据
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Ma ...
机器学习实战（Machine Learning in Action）学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
机器学习实战（Machine Learning in Action）学习笔记————07.使用Apriori算法进行关联分析
机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...
机器学习实战（Machine Learning in Action）学习笔记————06.k-均值聚类算法（kMeans）学习笔记
机器学习实战(Machine Learning in Action)学习笔记————06.k-均值聚类算法(kMeans)学习笔记关键字:k-均值.kMeans.聚类.非监督学习作者:米仓山下时间: ...
机器学习实战（Machine Learning in Action）学习笔记————05.Logistic回归
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...
机器学习实战（Machine Learning in Action）学习笔记————02.k-邻近算法（KNN）
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...
Machine Learning in Action(5) SVM算法
做机器学习的一定对支持向量机(support vector machine-SVM)颇为熟悉,因为在深度学习出现之前,SVM一直霸占着机器学习老大哥的位子.他的理论很优美,各种变种改进版本也很多,比如 ...
Machine Learning In Action 第二章学习笔记: kNN算法
本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测手写数 ...

随机推荐

DB2数据库 CASE WHEN的使用
THEN T1.INSURANCEMATURITYDATE ELSE T1.COMMERCIALENDDATE END as m, T1.INSURANCEMATURITYDATE ,T1.COMME ...
chartcontrol（统计坐标图形控件）
统计图形把控件拖放到界面会弹出下图图形共分八系列:Bar Series,Point and line Series,pie Series,Funnel Series,Area Series,Ra ...
进击JavaScript核心 --- （2）函数和预解析机制
一.函数每个函数都是 Function类型的实例,也具有属性和方法.由于函数也是一个对象,因此函数名实际上也是一个指向函数对象的指针,不会与某个函数绑定 1.函数的定义方式 (1).函数声明 fun ...
洛谷——P1078 文化之旅
P1078 文化之旅题目描述有一位使者要游历各国,他每到一个国家,都能学到一种文化,但他不愿意学习任何一种文化超过一次(即如果他学习了某种文化,则他就不能到达其他有这种文化的国家).不同的国家可能 ...
网络数据注入工具HexInject
网络数据注入工具HexInject 对于Kali Linux提供的工具HexInject来说,数据注入才是其最重要的功能.它可以直接向网络注入渗透人员构造的数据包,也可以篡改网络传输的数据.为了避 ...
Light oj 1085 - All Possible Increasing Subsequences (简单dp + 离散化 + BIT)
题目链接:http://www.lightoj.com/volume_showproblem.php?problem=1085 题意: 问你有多少个上升子序列. 思路: dp[i]表示以第i个数结尾的 ...
Extjs grid 单元格事件
celldblclick: function (view, td, cellIndex, record, tr, rowIndex, e, eOpts) { //extjs 4.2下,有时出现,多次不 ...
Android-Service基本用法、AIDL、Binder连接池详解
本文介绍Service与Activity之间的通信,文章包含以下内容: 一.Service基本用法二.通过AIDL实现Service与Activity跨进程通信三.Binder连接池四.使用Me ...
Maven转换成Eclipse/Idea/MyEclipse工程，以及配置Web工程
Eclipse/MyEclipse: //Jar mvn eclipse:eclipse mvn eclipse:myeclipse //Web mvn eclipse:eclipse -Dwtpve ...
使用viewPage实现图片轮播
概述图片循环播放这种效果,在许多的场合都能看到,只要一打开各大主流网站的首页几乎都有一个这样的组件,它可以很显目的提供给用户最近最火热的信息.因为它应用得如此之广泛,今天,我们就来写一下这个组件. ...

Machine Learning in Action(1) K-近邻

Machine Learning in Action(1) K-近邻的更多相关文章

随机推荐

热门专题