K近邻分类算法实现 in Python
K近邻(KNN):分类算法
* KNN是non-parametric分类器(不做分布形式的假设,直接从数据估计概率密度),是memory-based learning.
* KNN不适用于高维数据(curse of dimension)
* Machine Learning的Python库很多,比如mlpy(更多packages),这里实现只是为了掌握方法
* MATLAB 中的调用,见《MATLAB分类器大全(svm,knn,随机森林等)》
* KNN算法复杂度高(可用KD树优化,C中可以用libkdtree或者ANN)
* k越小越容易过拟合,但是k很大会降分类精度(设想极限情况:k=1和k=N(样本数))
本文不介绍理论了,注释见代码。
KNN.py
- from numpy import *
- import operator
- class KNN:
- def createDataset(self):
- group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
- labels = ['A','A','B','B']
- return group,labels
- def KnnClassify(self,testX,trainX,labels,K):
- [N,M]=trainX.shape
- #calculate the distance between testX and other training samples
- difference = tile(testX,(N,1)) - trainX # tile for array and repeat for matrix in Python, == repmat in Matlab
- difference = difference ** 2 # take pow(difference,2)
- distance = difference.sum(1) # take the sum of difference from all dimensions
- distance = distance ** 0.5
- sortdiffidx = distance.argsort()
- # find the k nearest neighbours
- vote = {} #create the dictionary
- for i in range(K):
- ith_label = labels[sortdiffidx[i]];
- vote[ith_label] = vote.get(ith_label,0)+1 #get(ith_label,0) : if dictionary 'vote' exist key 'ith_label', return vote[ith_label]; else return 0
- sortedvote = sorted(vote.iteritems(),key = lambda x:x[1], reverse = True)
- # 'key = lambda x: x[1]' can be substituted by operator.itemgetter(1)
- return sortedvote[0][0]
- k = KNN() #create KNN object
- group,labels = k.createDataset()
- cls = k.KnnClassify([0,0],group,labels,3)
- print cls
-------------------
运行:
1. 在Python Shell 中可以运行KNN.py
>>>import os
>>>os.chdir("/Users/mba/Documents/Study/Machine_Learning/Python/KNN")
>>>execfile("KNN.py")
输出B
(B表示类别)
2. 或者terminal中直接运行
$ python KNN.py
3. 也可以不在KNN.py中写输出,而选择在Shell中获得结果,i.e.,
>>>import KNN
>>> KNN.k.KnnClassify([0,0],KNN.group,KNN.labels,3)
from: http://blog.csdn.net/abcjennifer/article/details/19757987
K近邻分类算法实现 in Python的更多相关文章
- 查看neighbors大小对K近邻分类算法预测准确度和泛化能力的影响
代码: # -*- coding: utf-8 -*- """ Created on Thu Jul 12 09:36:49 2018 @author: zhen &qu ...
- K邻近分类算法
# -*- coding: utf-8 -*- """ Created on Thu Jun 28 17:16:19 2018 @author: zhen "& ...
- 机器学习经典算法具体解释及Python实现--K近邻(KNN)算法
(一)KNN依旧是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习全部算法中理论最简单.最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值 ...
- 每日一个机器学习算法——k近邻分类
K近邻很简单. 简而言之,对于未知类的样本,按照某种计算距离找出它在训练集中的k个最近邻,如果k个近邻中多数样本属于哪个类别,就将它判决为那一个类别. 由于采用k投票机制,所以能够减小噪声的影响. 由 ...
- 机器学习-K近邻(KNN)算法详解
一.KNN算法描述 KNN(K Near Neighbor):找到k个最近的邻居,即每个样本都可以用它最接近的这k个邻居中所占数量最多的类别来代表.KNN算法属于有监督学习方式的分类算法,所谓K近 ...
- TensorFlow实现knn(k近邻)算法
首先先介绍一下knn的基本原理: KNN是通过计算不同特征值之间的距离进行分类. 整体的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于 ...
- softmax分类算法原理(用python实现)
逻辑回归神经网络实现手写数字识别 如果更习惯看Jupyter的形式,请戳Gitthub_逻辑回归softmax神经网络实现手写数字识别.ipynb 1 - 导入模块 import numpy as n ...
- 基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
- 数据挖掘算法(一)--K近邻算法 (KNN)
数据挖掘算法学习笔记汇总 数据挖掘算法(一)–K近邻算法 (KNN) 数据挖掘算法(二)–决策树 数据挖掘算法(三)–logistic回归 算法简介 KNN算法的训练样本是多维特征空间向量,其中每个训 ...
随机推荐
- linux 下如何打开core dump文件开关
dump文件可以在程序crash时,方便我们查看程序crash的地方和上下文信息.在window下,要能生成dump文件,需要自己编写相应的代码.不过现在网上可以找到相应的代码,只要把它下载后然后加到 ...
- 在线阅读android源代码
这两天一直在寻找android系统的源代码,但是直到一个小时之前,一直未能如愿.但是,令人欣慰的是,现在找到了. 网上有不少帖子介绍如何下载android源代码,包括在linux系统,windows系 ...
- 三元表达式、逻辑表达式 与 &&、||的妙用
var a = "123", b = 123; console.log(a === b && "相等" || "不相等"); ...
- Bin Packing
Bin Packing 题目链接:http://acm.hust.edu.cn/vjudge/contest/view.action?cid=85904#problem/F 题目: A set of ...
- java设计模式。。。转载
maowang I am a slow walker,but I never walk backwards! 博客园 首页 新随笔 联系 订阅 管理 随笔 - 125 文章 - 0 评论 - 12 ...
- 【hihoCoder】1049.后序遍历
问题:http://hihocoder.com/problemset/problem/1049?sid=767510 已知一棵二叉树的前序遍历及中序遍历结果,求后序遍历结果 思路: 前序:根-左子树- ...
- MySQL数据库基本指令
对MySQL的指令不太熟悉,在此特别整理了一下一些常用的指令: 约定:大写字母写SQL关键字和函数名,小写字母写数据库.数据表和数据列的名字.(下述代码更新不同步,部分代码未依据此约定) 1 数据库的 ...
- JAVA生成二维码图片代码
首先需要导入 QRCode.jar 包 下载地址看这里 http://pan.baidu.com/s/1o6qRFqM import java.awt.Color;import java.awt. ...
- JAVA集合迭代遍历和特性介绍
数组.集合:都是一种容器,用一个对象管理多个对象:数组不能自动增长:只能存放同类型的元素 集合能自动扩容:部分集合允许存放不同类型的元素: 1.List: 有顺序的,允许存放重复的元素: 遍历:for ...
- 2016HUAS暑假集训训练2 A - Is It A Tree?
Description A tree is a well-known data structure that is either empty (null, void, nothing) or is a ...