机器学习实战 之 KNN算法
现在 机器学习 这么火,小编也忍不住想学习一把。注意,小编是零基础哦。
所以,第一步,推荐买一本机器学习的书,我选的是Peter harrigton 的《机器学习实战》。这本书是基于python 2.7的,但是我安装的是python 3.6.2.
所以很关键的是,你必须得有一定的python基础。这里我推荐runoob的py3教程,通俗易懂。http://www.runoob.com/python3/python3-tutorial.html
注意:python2和python3是不兼容的
python是面向对象的,面向对象是python的精髓。
————————————————————严肃的分割线......——————————————————————————————
言归正传,首先,我们要安装一些包,比如numpy和matplotlib。小编推荐用anaconda,这是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。下载地址https://www.anaconda.com/download/。这就免去安装各种包的烦恼。
界面如下:里面有一个spyder,这是一款很好用的IDE
左边是文本编辑区,右下角是命令行。右上角是变量区,很方便啊,有木有!
下面就是KNN算法的讲解了。
————————————————————————分割线————————————————————————————————————————————————————
00000000000001111000000000000000
00000000000011111110000000000000
00000000001111111111000000000000
00000001111111111111100000000000
00000001111111011111100000000000
00000011111110000011110000000000
00000011111110000000111000000000
00000011111110000000111100000000
00000011111110000000011100000000
00000011111110000000011100000000
00000011111100000000011110000000
00000011111100000000001110000000
00000011111100000000001110000000
00000001111110000000000111000000
00000001111110000000000111000000
00000001111110000000000111000000
00000001111110000000000111000000
00000011111110000000001111000000
00000011110110000000001111000000
00000011110000000000011110000000
00000001111000000000001111000000
00000001111000000000011111000000
00000001111000000000111110000000
00000001111000000001111100000000
00000000111000000111111000000000
00000000111100011111110000000000
00000000111111111111110000000000
00000000011111111111110000000000
00000000011111111111100000000000
00000000001111111110000000000000
00000000000111110000000000000000
这就是经过数字图像处理的手写字体了,格式是32x32。
#inX:用于分类的输入向量。即将对其进行分类。
#dataSet:训练样本集
#labels:标签向量
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]#得到训练样本集的行数,即有几个训练数据
diffMat = tile(inX, (dataSetSize,1)) - dataSet #tile:numpy中的函数。tile将原来的一个数组,扩充成了dataSetSize个一样的数组。diffMat得到了目标与训练数值之间的差值。
sqDiffMat = diffMat**2#差值的平方
sqDistances = sqDiffMat.sum(axis=1)#对应列相乘,即距离和
distances = sqDistances**0.5 #开根号 即距离
sortedDistIndicies = distances.argsort()#升序排列
classCount={} #创建一个字典classCount 选择距离最小的k个点,
for i in range(k): #k次遍历
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True) #原书是iteritems() py3改为items()
return sortedClassCount[0][0]
#计算完所有点后,数据按从小到大排序,然后确定前k个距离最小元素所在的主要分类,输入k总是正整数,最后,将classCount字典分解为元组列表,然后此处的排序为逆序,
返回发生频率最高的元素标签。
我们要知道的是在python中。classfiy0就是一个函数,而inX, dataSet, labels, k是输入参数,其中k就是KNN算法的K。
shape是numpy库中的函数。.shape用于计算array各维度的长度,在python中都是从0开始的。
tile 也是 numpy中的函数,它可以在行和列上重复一个矩阵。
aaarticlea/png;base64," alt="" width="803" height="312" />
那 tile(inX, (dataSetSize,1))的意思就是,让inX矩阵,在列重复1次。在行方向上重复dataSetSize次了。diffMat得到了目标与训练数值之间的差值。
而 sum(axis=1) 为什么这样写呢,因为python和c不一样。 小编开始也不懂然后 在命令行输入help(sum) 出来很多有用的帮助。自己亲手敲了几行就懂了。
axis=None, will sum all of the elements of the input array. If
axis is negative it counts from the last to the first axis.
写到这想必大家也懂了。如果想搞机器学习,还需要了解很多python数学函数啊。
下面是get() 它是dictionary(字典)的一个函数。
所以classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 的意思就是查找classcount字典中和voteIlabel相同的元素,默认返回0,因为是从0开始的,所以要加1
'''
Created on Sep 16, 2010
kNN: k Nearest Neighbors Input: inX: vector to compare to existing dataset (1xN)
dataSet: size m data set of known vectors (NxM)
labels: data set labels (1xM vector)
k: number of neighbors to use for comparison (should be an odd number) Output: the most popular class label
@author: pbharrin
'''
from numpy import *
import operator #运算符模块
from os import listdir #inX:用于分类的输入向量。即将对其进行分类。
#dataSet:训练样本集
#labels:标签向量
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]#得到数组的行数,即有几个训练数据
diffMat = tile(inX, (dataSetSize,1)) - dataSet #tile:numpy中的函数。tile将原来的一个数组,扩充成了4个一样的数组。diffMat得到了目标与训练数值之间的差值。
sqDiffMat = diffMat**2#差值的平方
sqDistances = sqDiffMat.sum(axis=1)#对应列相乘,即距离和
distances = sqDistances**0.5 #开根号
sortedDistIndicies = distances.argsort()#升序排列
classCount={} #选择距离最小的k个点
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0] def createDataSet():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']
return group, labels def file2matrix(filename):
fr = open(filename)
numberOfLines = len(fr.readlines()) #get the number of lines in the file
returnMat = zeros((numberOfLines,3)) #prepare matrix to return
classLabelVector = [] #prepare labels return
fr = open(filename)
index = 0
for line in fr.readlines():
line = line.strip() #Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)。
listFromLine = line.split('\t') #将line按'\t'进行分割
returnMat[index,:] = listFromLine[0:3]
classLabelVector.append(int(listFromLine[-1])) #倒数第一个元素
index += 1
return returnMat,classLabelVector
#归一化特征值
#使得所有参量在0到1之间
def autoNorm(dataSet):
minVals = dataSet.min(0)
maxVals = dataSet.max(0)
ranges = maxVals - minVals
normDataSet = zeros(shape(dataSet))
m = dataSet.shape[0] #返回矩阵第二维长度(列数)
normDataSet = dataSet - tile(minVals, (m,1))
normDataSet = normDataSet/tile(ranges, (m,1)) #element wise divide
return normDataSet, ranges, minVals def datingClassTest():
hoRatio = 0.50 #hold out 10%
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') #load data setfrom file
normMat, ranges, minVals = autoNorm(datingDataMat)
m = normMat.shape[0] #m:目录中有多少文件#shape函数是numpy.core.fromnumeric中的函数,它的功能是查看矩阵或者数组的维数。
numTestVecs = int(m*hoRatio)
errorCount = 0.0
for i in range(numTestVecs):
classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
#inX:用于分类的输入向量。即将对其进行分类。normMat[i,:],
#dataSet:训练样本集.normMat[numTestVecs:m,:]
#labels:标签向量.datingLabels[numTestVecs:m]
#k:3
print ("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))
if (classifierResult != datingLabels[i]): errorCount += 1.0
print ( "the total error rate is: %f" % (errorCount/float(numTestVecs)))
print (errorCount)
'''
我们将一个32x32二进制图像矩阵转换为1x1024的向量
'''
def img2vector(filename): #图片转化为向量
returnVect = zeros((1,1024))
fr = open(filename)
for i in range(32):
lineStr = fr.readline()
for j in range(32):
returnVect[0,32*i+j] = int(lineStr[j])
return returnVect
#安照先训练再测试的模式
def handwritingClassTest():
hwLabels = []
trainingFileList = listdir('trainingDigits') #load the training set listdir法用于返回指定的文件夹包含的文件或文件夹的名字的列表
m = len(trainingFileList) #获取文件长度
trainingMat = zeros((m,1024))
for i in range(m):
fileNameStr = trainingFileList[i] #从文件名解析分类数字
fileStr = fileNameStr.split('.')[0] #take off .txt
classNumStr = int(fileStr.split('_')[0])
hwLabels.append(classNumStr)
trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr) #将文件名
testFileList = listdir('testDigits') #iterate through the test set
errorCount = 0.0
mTest = len(testFileList)
for i in range(mTest):
fileNameStr = testFileList[i]
fileStr = fileNameStr.split('.')[0] #take off .txt
classNumStr = int(fileStr.split('_')[0])
vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 4)
print ("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
if (classifierResult != classNumStr): errorCount += 1.0
print ("\nthe total number of errors is: %d" % errorCount)
print ("\nthe total error rate is: %f" % (errorCount/float(mTest)))
# main part
handwritingClassTest();
k临近算法手写识别,错误率为1.2%,改变k的值,修改函数handwriting - classTest 随机选取的训练样本,改变训练样本的个数,都会对k临近算法错误率产生影响。
代码下载地址 http://www.ituring.com.cn/book/download/0019ab9d-0fda-4c17-941b-afe639fcccac
机器学习实战 之 KNN算法的更多相关文章
- 算法代码[置顶] 机器学习实战之KNN算法详解
改章节笔者在深圳喝咖啡的时候突然想到的...之前就有想写几篇关于算法代码的文章,所以回家到以后就奋笔疾书的写出来发表了 前一段时间介绍了Kmeans聚类,而KNN这个算法刚好是聚类以后经常使用的匹配技 ...
- 机器学习实战之kNN算法
机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python版本 (2)numpy 1.1 ...
- 《机器学习实战》KNN算法实现
本系列都是参考<机器学习实战>这本书,只对学习过程一个记录,不做详细的描述! 注释:看了一段时间Ng的机器学习视频,感觉不能光看不练,现在一边练习再一边去学习理论! KNN很早就之前就看过 ...
- 吴裕雄--天生自然python机器学习实战:K-NN算法约会网站好友喜好预测以及手写数字预测分类实验
实验设备与软件环境 硬件环境:内存ddr3 4G及以上的x86架构主机一部 系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window ...
- 《机器学习实战》kNN算法及约会网站代码详解
使用kNN算法进行分类的原理是:从训练集中选出离待分类点最近的kkk个点,在这kkk个点中所占比重最大的分类即为该点所在的分类.通常kkk不超过202020 kNN算法步骤: 计算数据集中的点与待分类 ...
- 机器学习之路--KNN算法
机器学习实战之kNN算法 机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python ...
- 机器学习实战1-1 KNN电影分类遇到的问题
为什么电脑排版效果和手机排版效果不一样~ 目前只学习了python的基础语法,有些东西理解的不透彻,希望能一边看<机器学习实战>,一边加深对python的理解,所以写的内容很浅显,也许还会 ...
- 机器学习实战-k近邻算法
写在开头,打算耐心啃完机器学习实战这本书,所用版本为2013年6月第1版 在P19页的实施kNN算法时,有很多地方不懂,遂仔细研究,记录如下: 字典按值进行排序 首先仔细读完kNN算法之后,了解其是用 ...
- 基于Python的机器学习实战:KNN
1.KNN原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应 ...
随机推荐
- socket编程--相关函数--sendto();read();
{1} 头文件:#include <sys/types.h> #include <sys/socket.h>定义函数:int sendto(int s, const voi ...
- (2-1)SpringCloue-Eureka实现高可用注册中心
高可用注册中心 在微服务架构这样的分布式环境中,我们需要充分考虑发生故障的情况,所以在生产环境中必须对各个组件进行高可用部署.在eureka-server中的application.yml中我们还记得 ...
- CentOs下安装PHP扩展curl
服务器运行一段时间后,可能突然会需求添加某个扩展,如curl.pdo.xmlrpc等,这就需要在不重新编译Linux PHP的情况下独立添加扩展. 1.安装crul wget http://curl. ...
- _2_head_中标签
创:20_3_2017修:5_4_2017 什么是title标签? --title 页面名(双) -- 整个html的页面名字,相当于一本书的书名 <title>北门吹雪</ti ...
- windows 下安装和运行 hadoop
windows下安装hadoop,直接去官网采用简单暴力的方法: 1.下载hadoop的安装包:http://hadoop.apache.org/->左边点Releases->点mirro ...
- Python---socket库
为方便以后查询和学习,特从常用库函数和示例来总结socket库 1. 术语 family:AF_INET socktype:SOCK_STREAM或SOCK_DGRAM protocol:IPPROT ...
- maven多模块搭建
此时你会发现父模块含有如下内容 这是因为创建的maven项目都带有样例,比如上图的这张图片 各种artifact都是做什么的呢,@参考文章中给出了答案 怎么创建不带这些呢? 那就创建simple pr ...
- java ecplise配置
运行java项目首先配置java运行时环境:Window->Preferences->Java->Installed JREs 修改为jdk:C:\Program Files\Jav ...
- JSP内置对象值out对象及其它的一些常见方法
out对象: out对象是jspWriter类的实例,是向客户端输出内容常用的对象. 常用方法如下: void println() 向客户端打印字符串 void clear() 清除缓冲区的内容,如果 ...
- Selenium+java+idea的安装与配置
当前操作系统:Windows10pro x64 一.安装JDK 1.到jdk官网下载一个对应当前系统的安装包(Selenium仅支持JDK1.8及以上版本) 网址:http://www.oracle. ...