1、kNN 算法

算法说明：

set<X1,X2……Xn> 为已知类别数据集，预测点Xt 的类别：

（1）计算中的set中每一个点与Xt的距离

（2）按距离增序排列

（3）选择距离最小的前k个点

（4）确定前k个点所在的类别的出现频率

（5）返回频率最高的类别作为测试的结果

 from numpy import *

 import operator

 def createDataSet():

     group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

     labels = ['A','A','B','B']

     return group, labels

 #kNN

 def classify0(inX , dataSet ,labels,k):

     dataSetSize = dataSet.shape[0] #行数

     diffMat = tile(inX,(dataSetSize,1)) - dataSet # tile(inX,(dataSetSize,1)) 生成 dataSetSize 行 1 列的 元素为 inX的 数组

     sqDiffMat = diffMat ** 2 #  ** 为 ^

     sqDistances = sqDiffMat.sum(axis=1) # axis=0是按列求和 axis=1 是按行求和

     distance = sqDistances ** 0.5

     sortedDisInd = distance.argsort()# argsort，属于numpy中的函数 返回排序后元素在原对象中的下标

     classCount = {}

     for i in range(k):

         votelabel = labels[sortedDisInd[i]]

         classCount[votelabel] = classCount.get(votelabel,0) + 1 #dict.get(key, default=None) key：key在字典中查找。 default：在key不存在的情况下返回值None。

     sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse =True)

     '''

     要通过student的第三个域排序，可以这么写：

     sorted(students, key=operator.itemgetter(2))

     sorted函数也可以进行多级排序，例如要根据第二个域和第三个域进行排序，可以这么写：

     sorted(students, key=operator.itemgetter(1,2))

     即先跟句第二个域排序，再根据第三个域排序。

     '''

     return sortedClassCount[0][0]

2、加载数据

下载地址：http://pan.baidu.com/s/1c0NeKCg

数据格式：[fre flier miles earned per year]'\t'[per of time spent playing video games]'\t'[liters of ice cream consumed per year]'\t'[1,means do not at all/2,means small do/3,means large do]

 #加载数据

 def file2matrix(filename):

     fr = open(filename)

     arrayOLines = fr.readlines()  #注意需要加s

     numberOfLines = len(arrayOLines)

     returnMat = zeros((numberOfLines,3))

     classLabelVector = []

     index = 0

     for line in arrayOLines:

         line = line.strip()

         listFormLine = line.split('\t')

         for x in range(0,3):

             returnMat[index,x] = float(listFormLine[x])

         classLabelVector.append(int(listFormLine[-1])) # -1 为最后一个元素

         index += 1

     return returnMat,classLabelVector

3、散点图

 import matplotlib

 import matplotlib.pyplot as plt

 datingDataMat,datingLabels = kNN.file2matrix('datingTestSet.txt')

 fig = plt.figure() #figure创建一个绘图对象

 ax = fig.add_subplot(111)# 若参数为349，意思是：将画布分割成3行4列，图像画在从左到右从上到下的第9块，

 '''

 matplotlib.pyplot.scatter(x, y, s=20, c='b', marker='o', cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, hold=None,**kwargs)

 其中，xy是点的坐标，s点的大小

 maker是形状可以maker=（5，1）5表示形状是5边型，1表示是星型（0表示多边形，2放射型，3圆形）

 alpha表示透明度；facecolor=‘none’表示不填充。

 '''

 ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*array(datingLabels),marker=(5,1),alpha=0.5)

 plt.show()

4、归一化特征值

由于特征值的大小不同，所以就会对结果的影响程度不同。这就需要我们归一化特征值，把每个特征值的大小固定在[0,1]:

range = MaxVal - MinVal

normVal = rawVal / (MaxVal - MinVal)

 #归一化特征值

 def autoNorm(dataSet):

     minVals = dataSet.min(0)

     maxVals = dataSet.max(0)

     ranges = maxVals - minVals

     normDataSet = zeros(shape(dataSet))

     m = dataSet.shape[0]

     normDataSet = dataSet - tile(minVals,(m,1))

     normDataSet = normDataSet / tile(ranges,(m,1))

     return normDataSet,ranges,minVals

5.分类器测试

用10%的数据作为输入来测试，另外90%作为已知集合

 def datingClassTest():

     hoRatio = 0.10

     datingDataMat,datingLabels = file2matrix('datingTestSet.txt')

     normMat,ranges,minVals = autoNorm(datingDataMat)

     m = normMat.shape[0]

     numTestVecs = int(m * hoRatio)

     errorCount = 0.0

     for i in range(numTestVecs):

         classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)

         print "back %d ,real %d" % (classifierResult,datingLabels[i])

         if(classifierResult != datingLabels[i]):

              errorCount += 1.0

     print "range is %f" % (errorCount / float(numTestVecs))

6、约会网站测试

 #约会网站测试函数

 def classifyPerson():

     resultList = ['not at all','in small doses','in large dose']

     percentTats = float(raw_input("per of time spent playing video games?"))

     ffMiles = float(raw_input("fre flier miles earned per year?"))

     iceCream = float(raw_input("liters of ice cream consumed per year?"))

     datingDataMat,datingLabels = file2matrix('datingTestSet.txt')

     normMat,ranges,minVals = autoNorm(datingDataMat)

     inArr = array([ffMiles,percentTats,iceCream])

     classifierResult = classify0((inArr - minVals)/ranges,normMat,datingLabels,3)

     print "You will probably like this person :",

     print resultList[classifierResult-1]

机器学习实战——k-邻近算法：约会网站的更多相关文章

[机器学习实战] k邻近算法
1. k邻近算法原理: 存在一个样本数据集,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对 ...
吴裕雄--天生自然python机器学习实战：K-NN算法约会网站好友喜好预测以及手写数字预测分类实验
实验设备与软件环境硬件环境:内存ddr3 4G及以上的x86架构主机一部系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window ...
机器学习实战-k近邻算法
写在开头,打算耐心啃完机器学习实战这本书,所用版本为2013年6月第1版在P19页的实施kNN算法时,有很多地方不懂,遂仔细研究,记录如下: 字典按值进行排序首先仔细读完kNN算法之后,了解其是用 ...
《机器学习实战》学习笔记一K邻近算法
一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将 ...
<机器学习实战>读书笔记--k邻近算法KNN
k邻近算法的伪代码: 对未知类别属性的数据集中的每个点一次执行以下操作: (1)计算已知类别数据集中的点与当前点之间的距离: (2)按照距离递增次序排列 (3)选取与当前点距离最小的k个点 (4)确定 ...
机器学习算法及代码实现–K邻近算法
机器学习算法及代码实现–K邻近算法 1.K邻近算法将标注好类别的训练样本映射到X(选取的特征数)维的坐标系之中,同样将测试样本映射到X维的坐标系之中,选取距离该测试样本欧氏距离(两点间距离公式)最近 ...
监督学习——K邻近算法及数字识别实践
1. KNN 算法 K-近邻(k-Nearest Neighbor,KNN)是分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似( ...
Python实现kNN（k邻近算法）
Python实现kNN(k邻近算法) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>op ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...
k邻近算法(KNN)实例
一 k近邻算法原理 k近邻算法是一种基本分类和回归方法. 原理:K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实 ...

随机推荐

Communications link failure的解决办法
使用Connector/J连接MySQL数据库,程序运行较长时间后就会报以下错误: Communications link failure,The last packet successfully r ...
IE兼容性问题列表及解决办法
目录概述 2 第一章:HTML 3 第一节:IE7-IE8更新 31. 如果缺少结束标记的 P 元素后跟 TABLE.FORM.NOFRAMES 或 NOSCRIPT 元素,会自动添加结束标记. 3 ...
C#中XML与对象之间的序列化、反序列化
直接上代码: using System; using System.IO; using System.Text; using System.Xml; using System.Xml.Serializ ...
javascript跨域请求RESTful Web Service
跨域请求RESTful Web Service 当我们用js请求RESTful Web Service的时候,通常会出现跨域无法访问的问题,也就是无法正常得到我们要的值.jsonp是个解决问题的方法. ...
P2022 有趣的数
P2022 有趣的数题目描述让我们来考虑1到N的正整数集合.让我们把集合中的元素按照字典序排列,例如当N=11时,其顺序应该为:1,10,11,2,3,4,5,6,7,8,9. 定义K在N个数中的 ...
【转】IT管理人才必备的十大能力
作为IT技术人员,相信没有一个人愿意永远在底层编写程序或做简单的系统维护.经过一段时间的技术和经验的积累,很多人都向往更高层的职位,但如何能成为一个专业的IT管理人才,并不是每一个人都清晰.明了. & ...
asp.net EF model中的默认值设置
在做数据库规划时,通常会规划一些系统字段,也就是由数据库本身自行指定默认值到这个字段上,创建新的“创建时间(CreateDate)”字段就会常常这样设计. 如果希望能有默认值,且让.net 程序在新增 ...
SharePoint - 添加图片到Survey的某一问题之上
Survey是SharePoint常用功能之一,而曾经被用户多次问到的问题是能否在Survey的某一问题上添加图片,经过查看,SharePoint Survey不提供此方法,只得谷歌之,得一比较懒但又 ...
你如何理解HTML结构的语义化？
去掉或样式丢失的时候能让页面呈现清晰的结构: html本身是没有表现的,我们看到例如<h1>是粗体,字体大小2em,加粗:<strong>是加粗的,不要认为这是html的表现, ...
Table of Contents - MyBatis
Getting Started with MyBatis Hello World Integration with Spring Bootstrapping MyBatis Configuring M ...

机器学习实战——k-邻近算法：约会网站