今天开始学习机器学习,第一章是K-近邻算法,有不对的地方请指正

大概总结一下近邻算法写分类器步骤:

1. 计算测试数据与已知数据的特征值的距离,离得越近越相似

2. 取距离最近的K个已知数据的所属分类

3. 最后统计K个值的分类分别出现的概率,返回最多的一个属性,即为测试数据的所属分类

4. 至于怎么把文本转换成numpy的类型,需要学习numpy模块的相关知识,附上

numpy学习连接 http://old.sebug.net/paper/books/scipydoc/numpy_intro.html

#-*- coding:utf-8 *-*-

from numpy import *
import operator #计算模块
import matplotlib
import matplotlib.pyplot as plt
import time
import random
from mpl_toolkits.mplot3d import Axes3D
from os import listdir
import time def createDataSet():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']
return group,labels #A,B分类
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]
diffMat = tile(inX,(dataSetSize,1)) - dataSet #tile函数把inx复制datasetsize行1列
sqDiffMat = diffMat**2
#print "sqDiffMat : ",sqDiffMat
sqDistance = sqDiffMat.sum(axis = 1)
distance = sqDistance**0.5
#print "distance : ",distance
sortedDistIndicies = distance.argsort() #返回从小到大的元素的下标,比如[1 3 2 4].argsort()返回[0 2 1 3]
#print "****",sortedDistIndicies
classCount = {}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]] #统计各个现有值所属的特征向量
#print sortedDistIndicies[i],voteIlabel
classCount[voteIlabel] = classCount.get(voteIlabel,0)+1 #统计各个特征向量出现的次数
sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse = True)
#operator.itemgetter()从小到大排序
#print "sortedClassCount : ",sortedClassCount
return sortedClassCount[0][0] group,labels = createDataSet() #print classify0([0,0], group, labels, 3) # # a = [('b',2),('a',1),('c',0)]
# a=[('b',2),('a',2),('a',1),('c',0)]
# b = sorted(a,key = operator.itemgetter(0)) #优先根据第一个元素排序
# print b
# b = sorted(a,key = operator.itemgetter(1)) #优先根据第二个元素排序
# print b
# b = sorted(a,key = operator.itemgetter(1,0)) #优先根据第二个元素排序,当第二个元素相等的情况下根据第一个元素排序
# print b #解析数据
def file2matrix(filename):
with open(filename) as f:
lines = f.readlines()
matrixNumber = len(lines)
print 'the all lines is :',matrixNumber
#matrix = zeros((matrixNumber,3),dtype = 'int') #生成空的n行3列的矩阵
matrix = zeros((matrixNumber,2))
vector = []
index = 0 #矩阵索引
for line in lines:
line = line.strip()
data = line.split("\t")
matrix[index:] = data[0:2] #把提取出来的复制到矩阵里面
vector.append(int((data[-1]))) #最后一个特征值作为特征向量
index+=1
return matrix,vector #生成文本数据
def createdata(filename):
with open(filename,'w') as f:
for i in range(1000):
r1 = int(random.random()*1000)
r2 = 0
if(0<=r1<=200):
r2 = 1
if(200<r1<=400):
r2 = 2
if(400<r1<=600):
r2 = 3
if(600<r1<=800):
r2 = 4
if(800<r1<=1000):
r2 = 5
r1 = str(r1)
r2 = str(r2)
#r2 = str(int(random.random()*10))
r3 = str(int(random.random()*10))
f.writelines(r3+'\t'+r1+'\t'+r2+'\n') #createdata(r'D:\test_packages\knntest.txt') '''
datat,labels = file2matrix(r'D:\test_packages\knntest.txt')
print datat
# print datat[:,1] #纵向的第二列
# print datat[:][1] #横向的第二列
print labels
fig = plt.figure() #生成容器
plt.title('favorite table data')
ax = fig.add_subplot(1,1,1,projection='3d') #3D模型
ax.scatter(datat[:,0],datat[:,1],datat[:,2],array(labels),array(labels),array(labels)) #使用datat的第二列和第三列作为X轴和Y轴的值
ax.legend()
plt.show() fig = plt.figure()
ax = fig.add_subplot(1,1,1) #把容器划分为1行1列,图像画在第一格,背景颜色为axisbg = ‘’
ax.scatter(datat[:,1],datat[:,2],array(labels),array(labels)) #使用datat的第二列和第三列作为X轴和Y轴的值
#ax.grid(True) #是否显示网格
# plt.show()
plt.show()
''' #归一化,(old-min)/(max-min)
def autoNormal(dataSet):
maxVals = dataSet.max(0) #纵向找到每一个样本的最大特征值
minVals = dataSet.min(0)
ranges = maxVals - minVals #计算差值
normalValue = zeros(shape(dataSet))
m = dataSet.shape[0]
normalValue = dataSet - tile(minVals,(m,1)) #计算(old-min)
normalValue = normalValue/tile(ranges,(m,1))
return normalValue,ranges,minVals #归一化特征值之后
datat,labels = file2matrix(r'D:\test_packages\knntest.txt')
normalValue,ranges,minVals = autoNormal(datat)
print normalValue
fig = plt.figure()
ax = fig.add_subplot(1,1,1) #把容器划分为1行1列,图像画在第一格,背景颜色为axisbg = ‘’
ax.scatter(normalValue[:,0],normalValue[:,1],array(labels),array(labels)) #使用datat的第二列和第三列作为X轴和Y轴的值
#ax.grid(True) #是否显示网格
# plt.show()
plt.show() #约会网站测试函数
def datinggTest():
datat,labels = file2matrix(r'D:\test_packages\knntest.txt')
normal,ranges,minvals = autoNormal(datat)
testData = 0.5 #10%用来测试,90%用来训练
testNumber = normal.shape[0] #总行数
numberTestValues = int(testNumber*testData) #测试行数
error = 0.0
for i in range(numberTestValues):
labelValue = classify0(normal[i,:], normal[numberTestValues:testNumber,:], labels[numberTestValues:testNumber], 3)
if (labelValue != labels[i]):
error+=1.0
print "this time is error the error is %s, the right is %s"%(labelValue,labels[i])
else:
print "all right ,the number is %s, the right is %s"%(labelValue,labels[i])
error_result = ((error/float(numberTestValues)))
print "your error_result is %s"%(error_result)
print 'error is :',error
datinggTest() #把二进制文件转化为np.array
def img2Vector(filename):
with open(filename) as f:
vector = zeros((1,1024))
for i in range(32):
line = f.readline()
for j in range(32):
vector[0,32*i+j] = line[j]
return vector
vector = img2Vector(r'D:\test_packages\trainingDigits\0_0.txt')
print vector[0,11:17] #手写数字识别系统测试代码
def handwritingClassTest():
startTime = time.ctime()
handLabels = []
trainFile = listdir(r'D:\test_packages\trainingDigits')
m = len(trainFile)
trainMat = zeros((m,1024))
for i in range(m):
fileName = trainFile[i]
file = fileName.split('.')[0]
classNumber = file.split('_')[0]
handLabels.append(classNumber)
trainMat[i,:] = img2Vector(r'D:\test_packages\trainingDigits\%s'%fileName)
testFiles = listdir(r'D:\test_packages\testDigits')
nTest = len(testFiles)
error = 0.0
for i in range(nTest):
fileName = testFiles[i]
file = fileName.split('.')[0]
classNumber = file.split('_')[0]
testMat = img2Vector(r'D:\test_packages\testDigits\%s'%fileName)
testLabels = classify0(testMat, trainMat, handLabels, 3)
if (testLabels != classNumber):
error+=1.0
print 'error , error number is %s, the right number is %s'%(testLabels,classNumber)
else:
print 'right'
error = error/float(nTest)
stopTime = time.ctime()
print 'all right ,the error_result is %s'%(error)
print 'the process start at %s'%(startTime)
print 'the process stop at %s'%(stopTime) handwritingClassTest()

机器学习实战K-近邻算法的更多相关文章

  1. 机器学习实战-k近邻算法

    写在开头,打算耐心啃完机器学习实战这本书,所用版本为2013年6月第1版 在P19页的实施kNN算法时,有很多地方不懂,遂仔细研究,记录如下: 字典按值进行排序 首先仔细读完kNN算法之后,了解其是用 ...

  2. 机器学习之K近邻算法(KNN)

    机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习 苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...

  3. 【机器学习】k近邻算法(kNN)

    一.写在前面 本系列是对之前机器学习笔记的一个总结,这里只针对最基础的经典机器学习算法,对其本身的要点进行笔记总结,具体到算法的详细过程可以参见其他参考资料和书籍,这里顺便推荐一下Machine Le ...

  4. 第四十六篇 入门机器学习——kNN - k近邻算法(k-Nearest Neighbors)

    No.1. k-近邻算法的特点 No.2. 准备工作,导入类库,准备测试数据 No.3. 构建训练集 No.4. 简单查看一下训练数据集大概是什么样子,借助散点图 No.5. kNN算法的目的是,假如 ...

  5. 机器学习之K近邻算法

    K 近邻 (K-nearest neighbor, KNN) 算法直接作用于带标记的样本,属于有监督的算法.它的核心思想基本上就是 近朱者赤,近墨者黑. 它与其他分类算法最大的不同是,它是一种&quo ...

  6. [机器学习实战] k邻近算法

    1. k邻近算法原理: 存在一个样本数据集,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对 ...

  7. 【机器学习】K近邻算法——多分类问题

    给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该类输入实例分为这个类. KNN是通过测量不同特征值之间的距离进行分类.它的的思路是:如 ...

  8. 机器学习2—K近邻算法学习笔记

    Python3.6.3下修改代码中def classify0(inX,dataSet,labels,k)函数的classCount.iteritems()为classCount.items(),另外p ...

  9. 机器学习03:K近邻算法

    本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...

  10. 机器学习实战 - python3 学习笔记(一) - k近邻算法

    一. 使用k近邻算法改进约会网站的配对效果 k-近邻算法的一般流程: 收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据.一般来讲,数据放在txt文本文件中,按照一定的格式进 ...

随机推荐

  1. java内存区域分析及java对象的创建

    java虚拟机在执行java程序的过程中会将它管理的内存区域加分为若干个的不同的数据区域. 主要包括以下几个运行时数据区域,这里就只介绍经常会用到的 1:java虚拟机栈:我们常说的堆栈,栈就是指的j ...

  2. Spring详解(五)------AspectJ 实现AOP

    上一篇博客我们引出了 AOP 的概念,以及 AOP 的具体实现方式.但是为什么要这样实现?以及提出的切入点表达式到底该怎么理解? 这篇博客我们通过对 AspectJ 框架的介绍来详细了解. 1.什么是 ...

  3. iBatis的一个问题

    写了一段查询语句,条件中有一条alarmtype<>'1004'这样的条件,原来是这样写的 <![CATA[ and alarmtype<>'1004']]> 然后 ...

  4. Java线程:线程栈模型

    要理解线程调度的原理,以及线程执行过程,必须理解线程栈模型. 线程栈是指某时刻时内存中线程调度的栈信息,当前调用的方法总是位于栈顶.线程栈的内容是随着程序的运行动态变化的,因此研究线程栈必须选择一个运 ...

  5. C# 文件的操作

    C#对文件的操作相当方便,主要涉及到四个类:File.FileInfo.Directory.DirectoryInfo,前两个提供了针对文件的操作,后两个提供了针对目录的操作,类图关系如上图所示; 下 ...

  6. 标题:a++和++a的区别

    以前我也是老搞不懂a++和++a的区别, 后来看了很多资料, 终于总结出来一条规律, 小白专用! 看完这个例子就懂了: 例1:$a = 8, 求 ++a + a++ - --a + a-- + ++a ...

  7. 团队作业4--第一次项目冲刺(Alpha版本) 4

    一.Daily Scrum Meeting照片 二.燃尽图 三.项目进展 完成对查重结果的写出与保存,将查重结果写出并导出保存为Excel形式 四.困难与问题 对查重结果的保存,当有多份文档进行比较的 ...

  8. 201521123019 《Java程序设计》第7周学习总结

    1. 本章学习总结 2. 书面作业 Q1.ArrayList代码分析 1.1解释ArrayList的contains源代码 源代码如下: public boolean contains(Object ...

  9. 201521123010 《Java程序设计》第6周学习总结

    1. 本周学习总结 1.1 面向对象学习暂告一段落,请使用思维导图,以封装.继承.多态为核心概念画一张思维导图,对面向对象思想进行一个总结. 注1:关键词与内容不求多,但概念之间的联系要清晰,内容覆盖 ...

  10. 201521123077 《Java程序设计》第12周学习总结

    1. 本周学习总结 1.1 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容 总的来说主要有三种类 InputStream/OutputStream(字节流操作类的父类) 提供对字节 ...