机器学习实战K-近邻算法

今天开始学习机器学习，第一章是K-近邻算法，有不对的地方请指正

大概总结一下近邻算法写分类器步骤：

1. 计算测试数据与已知数据的特征值的距离，离得越近越相似

2. 取距离最近的K个已知数据的所属分类

3. 最后统计K个值的分类分别出现的概率，返回最多的一个属性，即为测试数据的所属分类

4. 至于怎么把文本转换成numpy的类型，需要学习numpy模块的相关知识，附上

numpy学习连接 http://old.sebug.net/paper/books/scipydoc/numpy_intro.html

#-*- coding:utf-8 *-*-

from numpy import *

import operator   #计算模块

import matplotlib

import matplotlib.pyplot as plt

import time

import random

from mpl_toolkits.mplot3d import Axes3D

from os import listdir

import time

def createDataSet():

    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

    labels = ['A','A','B','B']

    return group,labels

#A,B分类

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = tile(inX,(dataSetSize,1)) - dataSet #tile函数把inx复制datasetsize行1列

    sqDiffMat = diffMat**2

    #print "sqDiffMat : ",sqDiffMat

    sqDistance = sqDiffMat.sum(axis = 1)

    distance = sqDistance**0.5

    #print "distance : ",distance

    sortedDistIndicies = distance.argsort()  #返回从小到大的元素的下标，比如[1 3 2 4].argsort()返回[0 2 1 3]

    #print "****",sortedDistIndicies

    classCount = {}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]   #统计各个现有值所属的特征向量

        #print sortedDistIndicies[i],voteIlabel

        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1  #统计各个特征向量出现的次数

    sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse = True)

    #operator.itemgetter()从小到大排序

    #print "sortedClassCount : ",sortedClassCount

    return sortedClassCount[0][0]

group,labels =  createDataSet()

#print classify0([0,0], group, labels, 3)

# # a = [('b',2),('a',1),('c',0)]

# a=[('b',2),('a',2),('a',1),('c',0)]

# b = sorted(a,key =  operator.itemgetter(0)) #优先根据第一个元素排序

# print b

# b = sorted(a,key =  operator.itemgetter(1)) #优先根据第二个元素排序

# print b

# b = sorted(a,key =  operator.itemgetter(1,0)) #优先根据第二个元素排序，当第二个元素相等的情况下根据第一个元素排序

# print b

#解析数据

def file2matrix(filename):

    with open(filename) as f:

        lines = f.readlines()

        matrixNumber = len(lines)

        print 'the all lines is :',matrixNumber

        #matrix = zeros((matrixNumber,3),dtype = 'int') #生成空的n行3列的矩阵

        matrix = zeros((matrixNumber,2))

        vector = []

        index = 0     #矩阵索引

        for line in lines:

            line = line.strip()

            data = line.split("\t")

            matrix[index:] = data[0:2]   #把提取出来的复制到矩阵里面

            vector.append(int((data[-1])))  #最后一个特征值作为特征向量

            index+=1

        return matrix,vector

#生成文本数据

def createdata(filename):

    with open(filename,'w') as f:

        for i in range(1000):

            r1 = int(random.random()*1000)

            r2 = 0

            if(0<=r1<=200):

                r2 = 1

            if(200<r1<=400):

                r2 = 2

            if(400<r1<=600):

                r2 = 3

            if(600<r1<=800):

                r2 = 4

            if(800<r1<=1000):

                r2 = 5

            r1 = str(r1)

            r2 = str(r2)

            #r2 = str(int(random.random()*10))

            r3 = str(int(random.random()*10))

            f.writelines(r3+'\t'+r1+'\t'+r2+'\n')

#createdata(r'D:\test_packages\knntest.txt')

'''

datat,labels = file2matrix(r'D:\test_packages\knntest.txt')

print datat

# print datat[:,1] #纵向的第二列

# print datat[:][1] #横向的第二列

print labels

fig = plt.figure()  #生成容器

plt.title('favorite table data')

ax = fig.add_subplot(1,1,1,projection='3d') #3D模型

ax.scatter(datat[:,0],datat[:,1],datat[:,2],array(labels),array(labels),array(labels))  #使用datat的第二列和第三列作为X轴和Y轴的值

ax.legend()

plt.show()

fig = plt.figure()

ax = fig.add_subplot(1,1,1) #把容器划分为1行1列，图像画在第一格,背景颜色为axisbg = ‘’

ax.scatter(datat[:,1],datat[:,2],array(labels),array(labels))  #使用datat的第二列和第三列作为X轴和Y轴的值

#ax.grid(True) #是否显示网格

# plt.show()

plt.show()

'''

#归一化，(old-min)/(max-min)

def autoNormal(dataSet):

    maxVals = dataSet.max(0)  #纵向找到每一个样本的最大特征值

    minVals = dataSet.min(0)

    ranges = maxVals - minVals #计算差值

    normalValue = zeros(shape(dataSet))

    m = dataSet.shape[0]

    normalValue = dataSet - tile(minVals,(m,1))   #计算(old-min)

    normalValue = normalValue/tile(ranges,(m,1))

    return normalValue,ranges,minVals

#归一化特征值之后

datat,labels = file2matrix(r'D:\test_packages\knntest.txt')

normalValue,ranges,minVals = autoNormal(datat)

print normalValue

fig = plt.figure()

ax = fig.add_subplot(1,1,1) #把容器划分为1行1列，图像画在第一格,背景颜色为axisbg = ‘’

ax.scatter(normalValue[:,0],normalValue[:,1],array(labels),array(labels))  #使用datat的第二列和第三列作为X轴和Y轴的值

#ax.grid(True) #是否显示网格

# plt.show()

plt.show()

#约会网站测试函数

def datinggTest():

    datat,labels = file2matrix(r'D:\test_packages\knntest.txt')

    normal,ranges,minvals = autoNormal(datat)

    testData = 0.5  #10%用来测试，90%用来训练

    testNumber = normal.shape[0]  #总行数

    numberTestValues = int(testNumber*testData)  #测试行数

    error = 0.0

    for i in range(numberTestValues):

        labelValue = classify0(normal[i,:], normal[numberTestValues:testNumber,:], labels[numberTestValues:testNumber], 3)

        if (labelValue != labels[i]):

            error+=1.0

            print "this time is error the error is %s, the right is %s"%(labelValue,labels[i])

        else:

            print "all right ,the number is %s, the right is %s"%(labelValue,labels[i])

    error_result = ((error/float(numberTestValues)))

    print "your error_result is %s"%(error_result)

    print 'error is :',error

datinggTest()

#把二进制文件转化为np.array

def img2Vector(filename):

    with open(filename) as f:

        vector = zeros((1,1024))

        for i in range(32):

            line = f.readline()

            for j in range(32):

                vector[0,32*i+j] = line[j]

    return vector

vector = img2Vector(r'D:\test_packages\trainingDigits\0_0.txt')

print vector[0,11:17]

#手写数字识别系统测试代码

def handwritingClassTest():

    startTime = time.ctime()

    handLabels = []

    trainFile = listdir(r'D:\test_packages\trainingDigits')

    m = len(trainFile)

    trainMat = zeros((m,1024))

    for i in range(m):

        fileName = trainFile[i]

        file = fileName.split('.')[0]

        classNumber = file.split('_')[0]

        handLabels.append(classNumber)

        trainMat[i,:] = img2Vector(r'D:\test_packages\trainingDigits\%s'%fileName)

    testFiles = listdir(r'D:\test_packages\testDigits')

    nTest = len(testFiles)

    error = 0.0

    for i in range(nTest):

        fileName = testFiles[i]

        file = fileName.split('.')[0]

        classNumber = file.split('_')[0]

        testMat = img2Vector(r'D:\test_packages\testDigits\%s'%fileName)

        testLabels = classify0(testMat, trainMat, handLabels, 3)

        if (testLabels != classNumber):

            error+=1.0

            print 'error , error number is %s, the right number is %s'%(testLabels,classNumber)

        else:

            print 'right'

    error = error/float(nTest)

    stopTime = time.ctime()

    print 'all right ,the error_result is %s'%(error)

    print 'the process start at %s'%(startTime)

    print 'the process stop at %s'%(stopTime)

handwritingClassTest()

机器学习实战K-近邻算法的更多相关文章

机器学习实战-k近邻算法
写在开头,打算耐心啃完机器学习实战这本书,所用版本为2013年6月第1版在P19页的实施kNN算法时,有很多地方不懂,遂仔细研究,记录如下: 字典按值进行排序首先仔细读完kNN算法之后,了解其是用 ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...
【机器学习】k近邻算法（kNN）
一.写在前面本系列是对之前机器学习笔记的一个总结,这里只针对最基础的经典机器学习算法,对其本身的要点进行笔记总结,具体到算法的详细过程可以参见其他参考资料和书籍,这里顺便推荐一下Machine Le ...
第四十六篇入门机器学习——kNN - k近邻算法（k-Nearest Neighbors）
No.1. k-近邻算法的特点 No.2. 准备工作,导入类库,准备测试数据 No.3. 构建训练集 No.4. 简单查看一下训练数据集大概是什么样子,借助散点图 No.5. kNN算法的目的是,假如 ...
机器学习之K近邻算法
K 近邻 (K-nearest neighbor, KNN) 算法直接作用于带标记的样本,属于有监督的算法.它的核心思想基本上就是近朱者赤,近墨者黑. 它与其他分类算法最大的不同是,它是一种&quo ...
[机器学习实战] k邻近算法
1. k邻近算法原理: 存在一个样本数据集,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对 ...
【机器学习】K近邻算法——多分类问题
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该类输入实例分为这个类. KNN是通过测量不同特征值之间的距离进行分类.它的的思路是:如 ...
机器学习2—K近邻算法学习笔记
Python3.6.3下修改代码中def classify0(inX,dataSet,labels,k)函数的classCount.iteritems()为classCount.items(),另外p ...
机器学习03：K近邻算法
本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...
机器学习实战 - python3 学习笔记（一） - k近邻算法
一. 使用k近邻算法改进约会网站的配对效果 k-近邻算法的一般流程: 收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据.一般来讲,数据放在txt文本文件中,按照一定的格式进 ...

随机推荐

js事件汇总
常用事件: 1.鼠标事件:onClick,onDblClick,onMouseDown,onMouseUp,onMouseOut,onMouseOver ·onClick:单击页面元素时发生,onDb ...
【搬运工】之YSlow安装教程
YSlow安装教程(我只是搬运工,推荐好用的地址) 地址: https://devework.com/yslow.html YSlow (解析为 why slow)是雅虎基于网站优化规则推出的工具,帮 ...
MongoDB副本集模式安装
设备: 三个1G.20G.1核的虚拟机,系统是SentOS7 min 设置目录: Server1: mkdir -p /home/mongoshard/data/shard11 /home/mongo ...
SVN 通过IIS设置反向代理访问
原因一个字,穷,没办法,只有一台机器要当测试服务器还要做源码管理. 解决办法通过IIS配置反向代理访问SVN,给SVN访问的HTTPS绑定上域名,就可以正常访问了. 1.修改SVN配置把SVN ...
Android事件传递机制详解及最新源码分析——Activity篇
版权声明:本文出自汪磊的博客,转载请务必注明出处. 在前两篇我们共同探讨了事件传递机制<View篇>与<ViewGroup篇>,我们知道View触摸事件是ViewGroup传递 ...
JS中的函数和BOM
文档注释:开头两个*.写在函数上方,在调用函数时, 可以看到文档中的描述信息:function aaa(){ } [函数的声明及调用] 1.函数的声明格式: function 函数名(参数1,参数2, ...
汇编指令-str存储指令(4)
str -(Store Register)存储指令格式:str{条件} 源寄存器,<存储器地址>将源寄存器中数据存到存储器地址中. 实例1: str r1,[r2] ...
javascript中用setAttribute给元素添加colspan属性无效
先附上代码 var tr=document.createElement('TR'); var td=document.createElement('TD'); td.setAttribute('col ...
Android 日夜间切换Demo
这是其中一种实现模式,也是比较麻烦的一种,首先写布局,不多说上代码 activity_main.xml <?xml version="1.0" encoding=" ...
HTML的基本标签及语法
一.HTML基本标签head部分 HTML文档的基本结构 <!DOCTYPE html> <html> <head> <meta charset=" ...

机器学习实战K-近邻算法

机器学习实战K-近邻算法的更多相关文章

随机推荐

热门专题