Python学习之k-近邻实例

　　海伦收集约会数据巳经有了一段时间，她把这些数据存放在文本文件datingTestSet.txt中，每个样本数据占据一行，总共有 1000 行。海伦的样本主要包含以下 3 种特征：
　　1. 每年获得的飞行常客里程数
　　2. 玩视频游戏所耗时间百分比
　　3. 每周消费的冰淇淋公升数
　　在将上述特征数据输人到分类器之前，必须将待处理数据的格式改变为分类器可以接受的格式。在 kNN.py 中创建名为 file2matrix的函数，以此来处理输人格式问题。该函数的输人为文件名字符串输出为训练样本矩阵和类标签向量，整体程序如下：

1. 读取测试数据文件

 # 读取测试数据文件

 def read_file(filename):

     datafile = open(filename)

     lines = datafile.readlines();

     length = len(lines)

     marix = zeros((length,))

     classLabelVector = []

     index =

     for line in lines:

         line = line.rstrip()

         words = line.split("\t")

         marix[index,:]=words[:]

         classLabelVector.append(float(words[-]))

         index = index +

     return marix,classLabelVector

2. 测试数据归一化

　　在处理不同取值范围的特征值时，我们通常采用的方法是将数值归一化，如将取值范围处理为0到1或者-1到1之间，下面的公式可以将任意取值范围的特征值转化为0到1区间内的值：newValue = (oldValue-min)/(max-min)，具体程序如下：

 def autoNorm(dataSet):

     minVals = dataSet.min()

     maxVals = dataSet.max()

     range = maxVals - minVals

     normDataSet = zeros(shape(dataSet))

     m = dataSet.shape[]

     normDataSet = dataSet - tile(minVals,(m,))

     normDataSet = normDataSet/tile(range,(m,))

     return normDataSet,range,minVals

3. 分类器

　　主要是利用测试数据对前面创建的分类器进行验证，测试分类器的效果

 def classify(inX,dataSet,labels,k):

     dataSetSize = dataSet.shape[]

     diffMat = tile(inX,(dataSetSize,))-dataSet

     sqDiffMat = diffMat**

     sqDistances = sqDiffMat.sum(axis=)

     distances = sqDistances**0.5

     sortedDistIndices = distances.argsort()

     classCount={}

     for i in range(k):

         voteIlabel = labels[sortedDistIndices[i]]

         classCount[voteIlabel] = classCount.get(voteIlabel,)+

     sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(),reverse=True)

     return sortedClassCount[][]

4. 测试

 def datingClassTest():

     resultList = ['一点也不喜欢','有一点好感','特别喜欢']

     hoRatio = 0.1

     filename = 'E:\\datingTestSet2.txt';

     (marix,classLabel)=read_file(filename)

     normdataSet,ranges,minVals=autoNorm(marix)

     m = normdataSet.shape[]

     numTestVecs = int(m*hoRatio)

     errorCount = 0.0

     for i in range(numTestVecs):

         classResult = classify(normdataSet[i,:],normdataSet[numTestVecs:m,:],classLabel[numTestVecs:m],)

         print "你对这个人的感觉是：%s ，现实情况是：%s" %(resultList[int(classResult-)],resultList[int(classLabel[i]-)])

         if classResult != classLabel[i]:

             errorCount += 1.0

     print "错误率是: %f " %(errorCount/float(numTestVecs))

5. 测试结果

你对这个人的感觉是：一点也不喜欢 ，现实情况是：一点也不喜欢

你对这个人的感觉是：一点也不喜欢 ，现实情况是：一点也不喜欢

你对这个人的感觉是：一点也不喜欢 ，现实情况是：一点也不喜欢

你对这个人的感觉是：特别喜欢 ，现实情况是：特别喜欢

你对这个人的感觉是：特别喜欢 ，现实情况是：特别喜欢

你对这个人的感觉是：一点也不喜欢 ，现实情况是：一点也不喜欢

你对这个人的感觉是：特别喜欢 ，现实情况是：特别喜欢

你对这个人的感觉是：一点也不喜欢 ，现实情况是：一点也不喜欢

你对这个人的感觉是：一点也不喜欢 ，现实情况是：一点也不喜欢

...

　　所有程序均来自《机器学习实战》，非常好的书籍，推荐大家学习一下......

Python学习之k-近邻实例的更多相关文章

python学习_数据处理编程实例（二）
在上一节python学习_数据处理编程实例(二)的基础上数据发生了变化,文件中除了学生的成绩外,新增了学生姓名和出生年月的信息,因此将要成变成:分别根据姓名输出每个学生的无重复的前三个最好成绩和出生年 ...
Python学习：类和实例
Python学习:类和实例本文作者: 玄魂工作室--热热的蚂蚁类,在学习面向对象我们可以把类当成一种规范,这个思想就我个人的体会,感觉很重要,除了封装的功能外,类作为一种规范,我们自己可以定制的规 ...
用Python从零开始实现K近邻算法
KNN算法的定义: KNN通过测量不同样本的特征值之间的距离进行分类.它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.K通 ...
学习笔记——k近邻法
对新的输入实例,在训练数据集中找到与该实例最邻近的$k$个实例,这$k$个实例的多数属于某个类,就把该输入实例分给这个类. $k$ 近邻法($k$-nearest neighbor, ...
spark-机器学习实践-K近邻应用实践一
K近邻应用-异常检测应用原理: 根据数据样本进行KMeans机器学习模型的建立,获取簇心点,以簇为单位,离簇心最远的第五个点的距离为阈值,大于这个值的为异常点,即获得数据异常. 如图:
python学习笔记-练手实例
1.题目:输出 9*9 乘法口诀表. 程序分析:分行与列考虑,共9行9列,i控制行,j控制列代码: for i in range(1,10): print ('\r') for j ...
R语言学习笔记—K近邻算法
K近邻算法(KNN)是指一个样本如果在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性.即每个样本都可以用它最接近的k个邻居来代表.KNN算法适 ...
python学习_数据处理编程实例（一）
目的:用一个实例总结学习到的with语句,函数,列表推导,集合,排序,字符分割等内容要求:分别以james,julie,mikey,sarah四个学生的名字建立文本文件,分别存储各自的成绩,时间格式 ...
Python学习_11_类和实例
类和实例类是对象创建实例的模板,而实例则是对象的实体.类使用class关键字定义: class MyClass: pass python中创建实例直接使用工厂函数(类名加上一对括号),和其他的 ...
廖雪峰Python学习笔记——类和实例
Class MyList(list): __metaclass__ = ListMetaclass #它表示在创建MyList这个类时,必须通过 ListMetaclass这个元类的LIstMetac ...

随机推荐

MyBatis 网络资料
http://mybatis.github.io/mybatis-3/zh/index.html 官方文档例子 http://blog.csdn.net/rootsuper/article/detai ...
Jquery解析json数组字符串
最近在工作中用到了Jquery来解析json字符串,网上解析jquery解析json单个对象的实例不少,但是jquery解析json数组的实例却是不多,下面我举一个简单的例子来跟大家分享与一下,本人水 ...
Zookeeper客户端使用
参考链接: http://blog.csdn.net/jason5186/article/details/46314381 http://ifeve.com/zookeeper-path-cache/
[转]eclipse导入V7包出现错误解决办法
android下v4 v7 v21等包是android系统的扩展支持包,就想windows的系统补丁一个道理. android的扩展包主要是用来兼容低版本的,比如android3.0以后出现 ...
【Mac双系统设置系统默认启动系统】解决方式
解决方式1: 开机时长按option键,进入系统选择界面: 用左右方向键选择到你要设置为默认启动的盘, 然后同一时候按下ctrl+enter键.就可以将其设置为默认启动的系统. 解决方式2: 选择ma ...
StarRTC , AndroidThings , 树莓派小车，公网环境，视频遥控(一)准备工作
原文地址:http://blog.starrtc.com/?p=48 啥也不说,先来个视频看看效果视频播放器 00:00 00:54 概述为了体现StarRTC的实时音视频传输能 ...
《FPGA全程进阶----实战演练》第二章之系统搭建
1 系统方案对于设计一款硬件平台,首先要确定整体框架,确定各个模块所需要的芯片以及电压分配情况.图2.6是笔者曾经设计的硬件平台系统. 图2.6系统框图对于选定一个系统方案之后,接下来做的要先去查 ...
php连接mssql pdo
怀疑mssql的默认编码...应该不是utf8吧??? <?php $cnx = new PDO("odbc:Driver={SQL Server};Server=XEJMZWMDIX ...
中国餐馆过程(Chinese restaurant process)
也就是说假设空桌子有a0个人,然后顾客选择桌子的概率和桌子上人数成正比. 性质: 改变用户的排列方式,桌子的排列方式,概率不变换.
【转】WCF入门教程二[WCF应用的通信过程]
一.概述 WCF能够建立一个跨平台的安全.可信赖.事务性的解决方案,是一个WebService,.Net Remoting,Enterprise Service,WSE,MSMQ的并集,有一副很经典的 ...

Python学习之k-近邻实例

Python学习之k-近邻实例的更多相关文章

随机推荐

热门专题