1、KNN

简介：knn算法是监督学习中分类方法的一种。它又被叫k近邻算法，是一个概念极其简单而分类效果又很优秀的分类算法。

核心思想：在训练集中选出离输入的数据最近的k个数据，根据这k个数据的类别判断输入数据的类别，k个数据的类别判断方法可以是k个中出现次数最多的类别，也可以根据距离计算权重，再选出权重最大的类别，等等。

准确率的制约：k值的大小和判断类别的方法

2、数据源

分别给出两类由正太分布随机的200个点，并将两类一前一后合并，最后以矩阵的形式存放入dataset；

x1 = numpy.round(numpy.random.normal(115, 10, 100),2)

y1 = numpy.round(numpy.random.normal(95, 6,100),2)

x2 = numpy.round(numpy.random.normal(70, 10, 100),2)

y2 = numpy.round(numpy.random.normal(99, 6, 100),2)

a=[]

b=[]

for i in range(100):

                  a.append([x1[i],y1[i]])

for i in range(100):

                  b.append([x2[i],y2[i]])

c=a+b

dataset=array(c)

给出两类正太分布数据分别分成'*'和'o'两类，以列表形式存放入labels；

labels=[]

for i in range(100):

                  labels.append('*')

for i in range(100):

                  labels.append('o')

小编自定义两个待分类的数据，也以矩阵的形式存放入；

x=[82,94]

x=array(x)

y=[90,100]

y=array(y)

3、实现过程

*以完整代码展示算法实现

# -*- coding:utf-8 -*-

import numpy

from numpy import *

import random

import pylab as pl

import operator

pl.figure(1)

pl.figure(2)

#计算样本的距离，预测类别

def classify(testdata,traindata,labels,k):

     #testdate:待分类数集；traindate:分好类的数集；

     #tile(a,(b,c)):将a的内容在行上复制b遍，列上复制c遍

     trasize=traindata.shape[0]  #得到其维数

     tradis1=tile(testdata,(trasize,1))-traindata

     tradis2=tradis1**2

     tradis3=tradis2.sum(axis=1)

     tradis=tradis3**0.5 #计算样本与训练数据的距离

     sortdis=tradis.argsort()#排序

     classcount={}#建立空字典

     for i in range(k):#通过循环寻找k个近邻

                  votelabel=labels[sortdis[i]]

                  classcount[votelabel]=classcount.get(votelabel,0)+1

     sortedclasscount=sorted(classcount.items(),key=operator.itemgetter(1),reverse=True)

     return sortedclasscount[0][0]#返回占最大比例的类别

x1 = numpy.round(numpy.random.normal(115, 10, 100),2)

y1 = numpy.round(numpy.random.normal(95, 6,100),2)

x2 = numpy.round(numpy.random.normal(70, 10, 100),2)

y2 = numpy.round(numpy.random.normal(99, 6, 100),2)

a=[]

b=[]

for i in range(100):

                  a.append([x1[i],y1[i]])

for i in range(100):

                  b.append([x2[i],y2[i]])

c=a+b

dataset=array(c)   #将列表转化为矩阵

labels=[]

for i in range(100):

                  labels.append('*')

for i in range(100):

                  labels.append('o')

x=[82,94]

x=array(x)

y=[90,100]

y=array(y)

k=10

labelX=classify(x,dataset,labels,k)

labelY=classify(y,dataset,labels,k)

pl.figure(1)

pl.plot(x1,y1,'*')

pl.plot(x2,y2,'o')

pl.plot(82,94,'.')

pl.plot(96,100,'.')

pl.xlabel('X')

pl.ylabel('Y')

pl.figure(2)

pl.plot(x1,y1,'*')

pl.plot(x2,y2,'o')

pl.plot(82,94,labelX)

pl.plot(96,100,labelY)

pl.show()

4、实现结果

未分类钱前的图像如下，一类正态分布的点用星表示，另一类用圆表示，待分类的两点用点表示；

分类后的图像如下，两点归类看其形状改变；

5、写代码后的心得

引入的数据一定要看清其类别，在这里就要注意列表与矩阵的转化；
append([x1[i],y1[i]])括号里又加中括号是因为append一次只能添入一个元素
将列表转化为矩阵用array
矩阵的平方是将矩阵内每个元素平方，与线性代数不同

python机器学习（2：KNN算法）的更多相关文章

使用python模拟实现KNN算法
一.KNN简介 1.KNN算法也称为K邻近算法,是数据挖掘分类技术之一.所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表. 2.KNN算法的核心思想是如果一个样本 ...
菜鸟之路——机器学习之KNN算法个人理解及Python实现
KNN(K Nearest Neighbor) 还是先记几个关键公式距离:一般用Euclidean distance E(x,y)√∑(xi-yi)2 .名字这么高大上,就是初中学的两点间的距离 ...
机器学习之KNN算法
1 KNN算法 1.1 KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属 ...
机器学习：k-NN算法（也叫k近邻算法）
一.kNN算法基础 # kNN:k-Nearest Neighboors # 多用于解决分裂问题 1)特点: 是机器学习中唯一一个不需要训练过程的算法,可以别认为是没有模型的算法,也可以认为训练数据集 ...
python机器学习的常用算法
Python机器学习学习意味着通过学习或经验获得知识或技能.基于此,我们可以定义机器学习(ML)如下 - 它可以被定义为计算机科学领域,更具体地说是人工智能的应用,其为计算机系统提供了学习数据和从经 ...
机器学习笔记--KNN算法2-实战部分
本文申明:本系列的所有实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. 一案例导入:玛利亚小姐最近寂寞了, ...
Python简单实现KNN算法
__author__ = '糖衣豆豆' from numpy import * from os import listdir import operator #从列方向扩展 #tile(a,(size ...
JavaScript机器学习之KNN算法
译者按: 机器学习原来很简单啊,不妨动手试试! 原文: Machine Learning with JavaScript : Part 2 译者: Fundebug 为了保证可读性,本文采用意译而非直 ...
机器学习笔记--KNN算法1
前言 Hello ,everyone. 我是小花.大四毕业,留在学校有点事情,就在这里和大家吹吹我们的狐朋狗友算法---KNN算法,为什么叫狐朋狗友算法呢,在这里我先卖个关子,且听我慢慢道来. 一 K ...
机器学习入门-Knn算法
knn算法不需要进行训练, 耗时,适用于多标签分类情况 1. 将输入的单个测试数据与每一个训练数据依据特征做一个欧式距离. 2. 将求得的欧式距离进行降序排序,取前n_个 3. 计算这前n_个的y值的 ...

随机推荐

Ajax校验用户名是否可用
准备导包:DBUtil,JDBC,C3P0 在src下导入c3p0-config.xml 导入JDBCUtil 创建数据库第2.3.条查看https://blog.csdn.net/weixin_ ...
iOS 多线程 GCD part3:API
https://www.jianshu.com/p/072111f5889d 2017.03.05 22:54* 字数 1667 阅读 88评论 0喜欢 1 0. 预备知识 GCD对时间的描述有些新奇 ...
Linux 压缩解压操作
Linux 压缩解压操作 Linux解压文件到指定目录 tar在Linux上是常用的打包.压缩.加压缩工具,他的参数很多,折里仅仅列举常用的压缩与解压缩参数参数:-c :create 建立压缩档案的 ...
1.1 js中函数定义解析(学习笔记)
1.1.1函数的分类函数声明式 :使用function声明函数,并指定函数名. 函数表达式:使用function声明函数,但未指定函数名. 函数表达式2.匿名函数,匿名函数有很多作用,赋予一个变量则 ...
like not like 优化
instr(title,’手册’)>0 相当于like instr(title,’手册’)=0 相当于not like 对于LIKE语句,我们可以使用instr函数来进行SQL调优
sed使用案例
简介: sed是一种流编辑器,它是文本处理中非常重要的工具,能够完美的配合正则表达式使用,功能不同凡响.处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用 ...
Vue.js——4.指令笔记
v-cloak:解决网速延迟闪烁问题v-text=msg: 和{{}}表达式一样,没有闪烁问题,但是前后不能加别的,覆盖原本的内容 innerTextv-html=msg:innerHtml,一样可 ...
Node.js—小试牛刀-创建目录
今天第一天学习Node.js 感觉特别亲切 //文件结构 //引入模块 const path=require('path') const fs=require('fs') let roots='H: ...
vue打包空白及字体路径错误问题
vue项目打包后空白在config/index.js文件中 assetsPublicPath: '/', 改为 assetsPublicPath: './', build: { // Templat ...
[Java-基础] 什么是ORM
ORM简介 ORM:对象关系映射:Object Relational Mapping 用于实现面向对象编程语言里不同类型系统的数据之间的转换一般的,数据库绝大部分是面向关系的数据库,但是写代码的 ...

python机器学习（2：KNN算法）

1、KNN

python机器学习（2：KNN算法）的更多相关文章

随机推荐

热门专题