吴裕雄 python 机器学习-KNN算法（1）

import numpy as np

import operator as op

from os import listdir

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet

    sqDiffMat = diffMat**2

    sqDistances = sqDiffMat.sum(axis=1)

    distances = sqDistances**0.5

    sortedDistIndicies = distances.argsort()

    classCount={}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

    sortedClassCount = sorted(classCount.items(), key=op.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def createDataSet():

    group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

    labels = ['A','A','B','B']

    return group, labels

data,labels = createDataSet()

print(data)

print(labels)

test = np.array([[0,0.5]])

result = classify0(test,data,labels,3)

print(result)

import numpy as np

import operator as op

from os import listdir

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet

    sqDiffMat = diffMat**2

    sqDistances = sqDiffMat.sum(axis=1)

    distances = sqDistances**0.5

    sortedDistIndicies = distances.argsort()

    classCount={}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

    sortedClassCount = sorted(classCount.items(), key=op.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def file2matrix(filename):

    fr = open(filename)

    returnMat = []

    classLabelVector = []                       #prepare labels return

    for line in fr.readlines():

        line = line.strip()

        listFromLine = line.split('\t')

        returnMat.append([float(listFromLine[0]),float(listFromLine[1]),float(listFromLine[2])])

        classLabelVector.append(int(listFromLine[-1]))

    return np.array(returnMat),np.array(classLabelVector)

trainData,trainLabel = file2matrix("D:\\LearningResource\\machinelearninginaction\\Ch02\\datingTestSet2.txt")

print(trainData[0:4])

print(trainLabel[0:4])

def autoNorm(dataSet):

    minVals = dataSet.min(0)

    maxVals = dataSet.max(0)

    ranges = maxVals - minVals

    normDataSet = np.zeros(np.shape(dataSet))

    m = dataSet.shape[0]

    normDataSet = dataSet - np.tile(minVals, (m,1))

    normDataSet = normDataSet/np.tile(ranges, (m,1))   #element wise divide

    return normDataSet, ranges, minVals

normDataSet, ranges, minVals = autoNorm(trainData)

print(ranges)

print(minVals)

print(normDataSet[0:4])

print(trainLabel[0:4])

testData = np.array([[0.5,0.3,0.5]])

result = classify0(testData, normDataSet, trainLabel, 5)

print(result)

import numpy as np

import operator as op

from os import listdir

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet

    sqDiffMat = diffMat**2

    sqDistances = sqDiffMat.sum(axis=1)

    distances = sqDistances**0.5

    sortedDistIndicies = distances.argsort()

    classCount={}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

    sortedClassCount = sorted(classCount.items(), key=op.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def file2matrix(filename):

    fr = open(filename)

    returnMat = []

    classLabelVector = []                       #prepare labels return

    for line in fr.readlines():

        line = line.strip()

        listFromLine = line.split('\t')

        returnMat.append([float(listFromLine[0]),float(listFromLine[1]),float(listFromLine[2])])

        classLabelVector.append(listFromLine[-1])

    return np.array(returnMat),np.array(classLabelVector)

def autoNorm(dataSet):

    minVals = dataSet.min(0)

    maxVals = dataSet.max(0)

    ranges = maxVals - minVals

    normDataSet = np.zeros(np.shape(dataSet))

    m = dataSet.shape[0]

    normDataSet = dataSet - np.tile(minVals, (m,1))

    normDataSet = normDataSet/np.tile(ranges, (m,1))   #element wise divide

    return normDataSet, ranges, minVals

normDataSet, ranges, minVals = autoNorm(trainData)

def datingClassTest():

    hoRatio = 0.10      #hold out 10%

    datingDataMat,datingLabels = file2matrix("D:\\LearningResource\\machinelearninginaction\\Ch02\\datingTestSet.txt")

    normMat, ranges, minVals = autoNorm(datingDataMat)

    m = normMat.shape[0]

    numTestVecs = int(m*hoRatio)

    errorCount = 0.0

    for i in range(numTestVecs):

        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)

        print(('the classifier came back with: %s, the real answer is: %s') % (classifierResult, datingLabels[i]))

        if (classifierResult != datingLabels[i]):

            errorCount += 1.0

    print(('the total error rate is: %f') % (errorCount/float(numTestVecs)))

    print(errorCount)

datingClassTest()

import numpy as np

import operator as op

from os import listdir

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet

    sqDiffMat = diffMat**2

    sqDistances = sqDiffMat.sum(axis=1)

    distances = sqDistances**0.5

    sortedDistIndicies = distances.argsort()

    classCount={}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

    sortedClassCount = sorted(classCount.items(), key=op.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def file2matrix(filename):

    fr = open(filename)

    returnMat = []

    classLabelVector = []                       #prepare labels return

    for line in fr.readlines():

        line = line.strip()

        listFromLine = line.split('\t')

        returnMat.append([float(listFromLine[0]),float(listFromLine[1]),float(listFromLine[2])])

        classLabelVector.append(listFromLine[-1])

    return np.array(returnMat),np.array(classLabelVector)

def autoNorm(dataSet):

    minVals = dataSet.min(0)

    maxVals = dataSet.max(0)

    ranges = maxVals - minVals

    normDataSet = np.zeros(np.shape(dataSet))

    m = dataSet.shape[0]

    normDataSet = dataSet - np.tile(minVals, (m,1))

    normDataSet = normDataSet/np.tile(ranges, (m,1))   #element wise divide

    return normDataSet, ranges, minVals

normDataSet, ranges, minVals = autoNorm(trainData)

def datingClassTest():

    hoRatio = 0.10      #hold out 10%

    datingDataMat,datingLabels = file2matrix("D:\\LearningResource\\machinelearninginaction\\Ch02\\datingTestSet.txt")

    normMat, ranges, minVals = autoNorm(datingDataMat)

    m = normMat.shape[0]

    numTestVecs = int(m*hoRatio)

    errorCount = 0.0

    for i in range(numTestVecs):

        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)

        print(('the classifier came back with: %s, the real answer is: %s') % (classifierResult, datingLabels[i]))

        if (classifierResult != datingLabels[i]):

            errorCount += 1.0

    print(('the total error rate is: %f') % (errorCount/float(numTestVecs)))

    print(errorCount)

datingClassTest()

................................................

import numpy as np

import operator as op

from os import listdir

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet

    sqDiffMat = diffMat**2

    sqDistances = sqDiffMat.sum(axis=1)

    distances = sqDistances**0.5

    sortedDistIndicies = distances.argsort()

    classCount={}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

    sortedClassCount = sorted(classCount.items(), key=op.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def file2matrix(filename):

    fr = open(filename)

    returnMat = []

    classLabelVector = []                       #prepare labels return

    for line in fr.readlines():

        line = line.strip()

        listFromLine = line.split('\t')

        returnMat.append([float(listFromLine[0]),float(listFromLine[1]),float(listFromLine[2])])

        classLabelVector.append(int(listFromLine[-1]))

    return np.array(returnMat),np.array(classLabelVector)

def autoNorm(dataSet):

    minVals = dataSet.min(0)

    maxVals = dataSet.max(0)

    ranges = maxVals - minVals

    normDataSet = np.zeros(np.shape(dataSet))

    m = dataSet.shape[0]

    normDataSet = dataSet - np.tile(minVals, (m,1))

    normDataSet = normDataSet/np.tile(ranges, (m,1))   #element wise divide

    return normDataSet, ranges, minVals

def classifyPerson():

    resultList = ["not at all", "in samll doses", "in large doses"]

    percentTats = float(input("percentage of time spent playing video game?"))

    ffMiles = float(input("frequent flier miles earned per year?"))

    iceCream = float(input("liters of ice cream consumed per year?"))

    testData = np.array([percentTats,ffMiles,iceCream])

    trainData,trainLabel = file2matrix("D:\\LearningResource\\machinelearninginaction\\Ch02\\datingTestSet2.txt")

    normDataSet, ranges, minVals = autoNorm(trainData)

    result = classify0((testData-minVals)/ranges, normDataSet, trainLabel, 3)

    print("You will probably like this person: ",resultList[result-1])

classifyPerson()

import numpy as np

import operator as op

from os import listdir

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet

    sqDiffMat = diffMat**2

    sqDistances = sqDiffMat.sum(axis=1)

    distances = sqDistances**0.5

    sortedDistIndicies = distances.argsort()

    classCount={}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

    sortedClassCount = sorted(classCount.items(), key=op.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def file2matrix(filename):

    fr = open(filename)

    returnMat = []

    classLabelVector = []                       #prepare labels return

    for line in fr.readlines():

        line = line.strip()

        listFromLine = line.split('\t')

        returnMat.append([float(listFromLine[0]),float(listFromLine[1]),float(listFromLine[2])])

        classLabelVector.append(int(listFromLine[-1]))

    return np.array(returnMat),np.array(classLabelVector)

def autoNorm(dataSet):

    minVals = dataSet.min(0)

    maxVals = dataSet.max(0)

    ranges = maxVals - minVals

    normDataSet = np.zeros(np.shape(dataSet))

    m = dataSet.shape[0]

    normDataSet = dataSet - np.tile(minVals, (m,1))

    normDataSet = normDataSet/np.tile(ranges, (m,1))   #element wise divide

    return normDataSet, ranges, minVals

def classifyPerson():

    resultList = ["not at all", "in samll doses", "in large doses"]

    percentTats = float(input("percentage of time spent playing video game?"))

    ffMiles = float(input("frequent flier miles earned per year?"))

    iceCream = float(input("liters of ice cream consumed per year?"))

    testData = np.array([percentTats,ffMiles,iceCream])

    trainData,trainLabel = file2matrix("D:\\LearningResource\\machinelearninginaction\\Ch02\\datingTestSet2.txt")

    normDataSet, ranges, minVals = autoNorm(trainData)

    result = classify0((testData-minVals)/ranges, normDataSet, trainLabel, 3)

    print("You will probably like this person: ",resultList[result-1])

classifyPerson()

import numpy as np

import operator as op

from os import listdir

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet

    sqDiffMat = diffMat**2

    sqDistances = sqDiffMat.sum(axis=1)

    distances = sqDistances**0.5

    sortedDistIndicies = distances.argsort()

    classCount={}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

    sortedClassCount = sorted(classCount.items(), key=op.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def img2vector(filename):

    returnVect = []

    fr = open(filename)

    for i in range(32):

        lineStr = fr.readline()

        for j in range(32):

            returnVect.append(int(lineStr[j]))

    return np.array([returnVect])

def handwritingClassTest():

    hwLabels = []

    trainingFileList = listdir('D:\\LearningResource\\machinelearninginaction\\Ch02\\trainingDigits')           #load the training set

    m = len(trainingFileList)

    trainingMat = np.zeros((m,1024))

    for i in range(m):

        fileNameStr = trainingFileList[i]

        fileStr = fileNameStr.split('.')[0]     #take off .txt

        classNumStr = int(fileStr.split('_')[0])

        hwLabels.append(classNumStr)

        trainingMat[i,:] = img2vector('D:\\LearningResource\\machinelearninginaction\\Ch02\\trainingDigits\\%s' % fileNameStr)

    testFileList = listdir('D:\\LearningResource\\machinelearninginaction\\Ch02\\testDigits')        #iterate through the test set

    mTest = len(testFileList)

    errorCount = 0.0

    for i in range(mTest):

        fileNameStr = testFileList[i]

        fileStr = fileNameStr.split('.')[0]     #take off .txt

        classNumStr = int(fileStr.split('_')[0])

        vectorUnderTest = img2vector('D:\\LearningResource\\machinelearninginaction\\Ch02\\testDigits\\%s' % fileNameStr)

        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)

        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))

        if (classifierResult != classNumStr):

            errorCount += 1.0

    print("\nthe total number of errors is: %d" % errorCount)

    print("\nthe total error rate is: %f" % (errorCount/float(mTest)))

handwritingClassTest()

.......................................

吴裕雄 python 机器学习-KNN算法（1）的更多相关文章

吴裕雄 python 机器学习——KNN回归KNeighborsRegressor模型
import numpy as np import matplotlib.pyplot as plt from sklearn import neighbors, datasets from skle ...
吴裕雄 python 机器学习——KNN分类KNeighborsClassifier模型
import numpy as np import matplotlib.pyplot as plt from sklearn import neighbors, datasets from skle ...
吴裕雄 python 机器学习-KNN（2）
import matplotlib import numpy as np import matplotlib.pyplot as plt from matplotlib.patches import ...
吴裕雄 python 机器学习——半监督学习标准迭代式标记传播算法LabelPropagation模型
import numpy as np import matplotlib.pyplot as plt from sklearn import metrics from sklearn import d ...
吴裕雄 python 机器学习——集成学习AdaBoost算法回归模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——集成学习AdaBoost算法分类模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——人工神经网络感知机学习算法的应用
import numpy as np from matplotlib import pyplot as plt from sklearn import neighbors, datasets from ...
吴裕雄 python 机器学习——半监督学习LabelSpreading模型
import numpy as np import matplotlib.pyplot as plt from sklearn import metrics from sklearn import d ...
吴裕雄 python 机器学习——人工神经网络与原始感知机模型
import numpy as np from matplotlib import pyplot as plt from mpl_toolkits.mplot3d import Axes3D from ...

随机推荐

通过Xshell来访问和连接Linux
Xshell初使用:Xshell资源下载刚刚接触Xshell是在javamail中的telnet收发邮件,然而这个我们并不常用,用的最多的是Xshell进行访问和连接远程主机. 通过Xshell来访 ...
TextView右上角显示小红点，小红点根据TextView的长度移动，小红点被TextView挤出去不显示的问题；
大概就是图片这个样,这个功能很常见,本来我以为很简单,谁知道真的很简单: 遇到点小问题,记录一下,哈哈: 小红点的Drawable: <?xml version="1.0" ...
Linux netstat命令查看并发连接数
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 解释: 返回结果示例: LAST_ACK 5 (正在等待处理的 ...
es6(13)--Promise
//Promise { //原始方法 let ajax=function(callback){ console.log('执行') setTimeout(function(){ callback&am ...
安全测试6_Web安全工具第二节（代理抓包分析工具）
上节课讲了浏览器及扩展,这节课继续来学习下抓包分析. 首先看下下图,了解下代理工具的原理:代理就相当于收费站一样,任何要通过的车辆必须经过它. 浏览器的代理我们可以通过设置进行手动设置代理,或者通过P ...
Java并发编程:Java Thread 的 sleep() 和 wait() 的区别
1. start 和 run 方法解释: 1) start: 用start方法来启动线程,真正实现了多线程运行,这时无需等待run方法体代码执行完毕而直接继续执行下面的代码.通过调用Thread类 ...
uiautomator2.0的配置的两种方法
方法一(使用在线下载的方式导入依赖): 1.首先创建项目工程,创建的项目的android_api版本要与测试的android_api版本一致(24就是24 ,不能26或者17去兼容) 2.然后就是将本 ...
20165205 2017-2018-2 《Java程序设计》第七周学习总结
20165205 2017-2018-2 <Java程序设计>第七周学习总结教材学习内容总结下载XAMPP并完成配置完成XAMPP与数据库的连接学会创建一个数据库学会用java语 ...
ORA-01461的解决过程~~
转自:http://blog.itpub.net/7607759/viewspace-521189 近日生产库中的一个过程报出了ora-1461的错误,虽然错误实际处理起来非常简单,但解决过程中与ya ...
redis下操作Set和Zset
redis操作set 无序集合元素为string类型元素具有唯一性,不重复命令设置添加元素 SADD key member [member ...] 获取返回key集合所有的元素 SME ...

吴裕雄 python 机器学习-KNN算法（1）

吴裕雄 python 机器学习-KNN算法（1）的更多相关文章

随机推荐

热门专题