K-近邻算法入门

　　K-近邻算法的直观理解就是：给定一个训练集合，对于新的实例，在训练集合中找到k个与该实例最近的邻居，然后根据“少数服从多数”原则判断该实例归属于哪一类，又称“随大流”

K-近邻算法的三大要素：K值得选取，邻居距离度量，分类决策的制定。

（1）K值选取：通常采用交叉验证选取最优的K值（自己了解）

（2）邻居距离度量：根据不同的应用场景选取相应的距离度量。常见的距离度量有欧几里得距离、曼哈顿距离、马氏距离。同时要注意的是归一化机制。

（3）分类决策制定：一般分为平等投票表决原则和加权投票原则。

import operator

import csv

import math

import random

def loadDataSet(filename,split,trainingSet=[],testSet=[]):

    #读取本地数据#

    with open(filename,'r') as csvfile:

        lines=csv.reader(csvfile)

        dataset=list(lines)

        for x in range(len(dataset)-1):

            for y in range (4):

                dataset[x][y]=float(dataset[x][y])

            if random.random()<split:

                trainingSet.append(dataset[x])

            else:

                testSet.append(dataset[x])

def EuclidDist(instance1,instance2,len):

    #求欧几里得距离#

    distance=0.0

    for x in range(len):

        distance+=pow((instance1[x]-instance2[x]),2)

    return math.sqrt(distance)

def getNeighbors(trainSet,testInstance,k):

    #获取最近邻居#

    distance=[]

    length=len(testInstance)-1

    for x in range(len(trainSet)):

        dist=EuclidDist(testInstance,trainSet[x],length)

        distance.append((trainSet[x],dist))

    distance.sort(key=operator.itemgetter(1))

    #列表的sort（key）方法用来根据关键字排序

    neighbors=[]

    for x in range(k):

        neighbors.append(distance[x][0])

    return neighbors

def getClass(neighbors):

    #分类与评估函数#

     classVotes={}

     for x in range(len(neighbors)):

         instance_class=neighbors[x][-1]

         if instance_class in classVotes:

             classVotes[instance_class]+=1

         else:

             classVotes[instance_class]=1

         sortedVotes=sorted(classVotes.items(),key=operator.itemgetter(1),reverse=True)

     return sortedVotes[0][0]

def getAccuracy(testSet,predictions):

    #预测正确率计算#

    correct=0

    for x in range(len(testSet)):

        if testSet[x][-1]==predictions[x]:

            correct+=1

    return (correct/float(len(testSet)))*100.0

def main():

    trainingSet=[]

    testSet=[]

    split=0.7

    loadDataSet('iris.data.csv',split,trainingSet,testSet)

    print('训练集合：'+repr(len(trainingSet)))

    print('测试集合：'+repr(len(testSet)))

    predictions=[]

    k=3

    for x in range(len(testSet)):

        neighbors=getNeighbors(trainingSet,testSet[x],k)

        result=getClass(neighbors)

        predictions.append(result)

        print('>预测='+repr(result)+',实际='+repr(testSet[x][-1]))

    accuracy=getAccuracy(testSet,predictions)

    print('精确度为：'+repr(accuracy)+'%')

main()

针对此代码中的数据来源为UCI机器学习库中的鸢尾花卉数据集，可以直接获取（https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data），也可以下载我转换好的CSV文件（链接：https://pan.baidu.com/s/1YSLhrPMn3RflGE8VDGGbHQ 提取码：42se ）

本次范例属于“自己动手丰衣足食”，每个函数都自己实现，可以在入门阶段对K-近邻算法流程有个初步认识，在有了一定基础之后，我们就没有必要重造轮子，可以使用常见的机器学习算法，毕竟其专业性远远目前超过我们自己的程序。例如scikit-learn模块。

K-近邻算法入门的更多相关文章

数据挖掘入门系列教程（三）之scikit-learn框架基本使用（以K近邻算法为例）
数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例) 简介 scikit-learn 估计器加载数据集进行fit训练设置参数预处理流水线结尾数据挖掘入门系 ...
Python3入门机器学习 - k近邻算法
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一.所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代 ...
算法入门系列2：k近邻算法
用官方的话来说,所谓K近邻算法(k-Nearest Neighbor,KNN),即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个 ...
第四十六篇入门机器学习——kNN - k近邻算法（k-Nearest Neighbors）
No.1. k-近邻算法的特点 No.2. 准备工作,导入类库,准备测试数据 No.3. 构建训练集 No.4. 简单查看一下训练数据集大概是什么样子,借助散点图 No.5. kNN算法的目的是,假如 ...
基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
K近邻算法：机器学习萌新必学算法
摘要:K近邻(k-NearestNeighbor,K-NN)算法是一个有监督的机器学习算法,也被称为K-NN算法,由Cover和Hart于1968年提出,可以用于解决分类问题和回归问题. 1. 为什么 ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...
k近邻算法的Java实现
k近邻算法是机器学习算法中最简单的算法之一,工作原理是:存在一个样本数据集合,即训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据和所属分类的对应关系.输入没有标签的新数据之后, ...
从K近邻算法谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/v_july_v/article/details/8203674 ,感谢july的辛勤劳动前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章 ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...

随机推荐

Oracle 实例管理
理解初始化参数文件实例由内存中构建它的参数来定义.许多参数(但不是全部)可以在启动后更改.有些参数在启动时就固定了,只能在关闭实例并再次启动时更改. 静态和动态参数文件参数文件由两类:静态参数文件(也 ...
《Python高性能编程》——列表、元组、集合、字典特性及创建过程
这里的内容仅仅是本人阅读<Python高性能编程>后总结的一些知识,用于自己更好的了解Python机制.本人现在并不从事计算密集型工作:人工智能.数据分析等.仅仅只是出于好奇而去阅读这本书 ...
转：介绍几个著名的实用的Java反编译工具,提供下载
from :http://www.glorze.com/219.html 反编译众所周知,我们将源代码进行编译,生成可执行的程序或者容器发布包,这个将代码转换的过程就是编译的过程,而反编译就是将这些 ...
VS2015调试,签名时出错: 未在路径 C:\Program Files (x86)\Microsoft SDKs\Windows\v7.0A\bin\signtool.exe 找到 SignTool.exe
1.发布项目是出现这个错误网上找了有两种方式, 一种是重新安装VS2015的ClickOnce程序第二种是修改项目文件的签名右击项目文件的属性,选择签名,然后把红框内去掉,保存即可.
网页中的图像<img>
插入图像 img标记的属性及描述属性值描述 alt text 定义有关图形的短描述 src URL 要显示图像的URL height pixels% 定义图像的高度 width pixels% ...
搭建最小linux系统
Busybox简介 • 制作文件系统我们需要使用到Busybox 工具 – 版本为busybox-1.21.1.tar.bz2 – 开源网址是http://www.busybox.net/ – Bus ...
dns欺骗之ettercap
ettercap是一个基于ARP地址欺骗方式的网络嗅探工具,主要适用于局域网. ettercap是一款现有流行的网络抓包软件,它利用计算机在局域网内进行通信的ARP协议的缺陷进行攻击,在目标与服务器之 ...
用树莓派和DS18B20做个汽车温度记录仪[原创]
用树莓派和DS18B20做个汽车温度记录仪[原创] 很想知道夏日阳光暴晒下,汽车内的最高温度以及温度的变化情况.觉得用树莓派和DS18B20来实现应该很简单,于是就尝试捣鼓了一下,半天时间就搞定了,写 ...
【8086汇编-Day1】预备知识
菜鸟的8086汇编入门之旅,偶有错处恭请大佬们指正. Ⅰ· 闲说一下我为什么学汇编?相对于晦涩难懂的01010101011010机器语言(高低电平变化驱动机器做出不同反应),汇编语言用更便于记忆和使 ...
20155331 《信息安全技术概论》实验二 Windows口令破解
20155331 <信息安全技术概论>实验二 Windows口令破解 [实验目的] 了解Windows口令破解原理对信息安全有直观感性认识能够运用工具实现口令破解 [实验原理] 口令破 ...

K-近邻算法入门

K-近邻算法入门的更多相关文章

随机推荐

热门专题