大数据-KNN算法

KNN是通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

其算法的描述为：

1）计算测试数据与各个训练数据之间的距离；

2）按照距离的递增关系进行排序；

3）选取距离最小的K个点；

4）确定前K个点所在类别的出现频率；

5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。

应用1:自己编写knn算法如下：

import pandas as pd

import numpy as np

'''

约会样本数据说明datingTestSet.txt, 以tab键分开：

1、FlyMiles： 每年获得的飞行常客里程数；

2、PlayTime： 玩视频游戏所耗费的时间百分比

3、IceCream： 每周消费的冰淇淋公斤数

4、对约会对象的感觉

'''

#url表示数据文件存放的地址

url = 'Data/datingTestSet.txt'

data = pd.read_table(url, sep='\t', header=None, names=['FlyMiles', 'PlayTime', 'IceCream', 'LikeDegree'])

#将LikeDegree一列由字符串转化为数字

like_mapping = {label: idx for idx, label in enumerate(np.unique(data['LikeDegree']))}

data['LikeDegree'] = data['LikeDegree'].map(like_mapping)

#归一化

def autoNorm(data):

    normal = (data - data.min()) / (data.max() - data.min())

    scope = data.max() - data.min()

    min = data.min()

    return normal, scope, min

# knn算法

def knn(inX, normal, label, k):

    data_sub = normal - inX

    data_square = data_sub.applymap(np.square)

    data_sum = data_square.sum(axis=1)

    data_sqrt = data_sum.map(np.sqrt)

    dis_sort = data_sqrt.argsort()

    #加上测试数numTest

    k_label = label[dis_sort[:k] + 200]

    label_sort = k_label.value_counts()

    res_label = label_sort.index[0]

    return res_label

#测试结果

def datingTest():

    normal, scope, min = autoNorm(data[['FlyMiles', 'PlayTime', 'IceCream']])

    label = data.iloc[:, -1]

    m = normal.shape[0]

    numTest = int(m * 0.2)

    errorCount = 0.0

    for i in range(numTest):

        result = knn(normal.iloc[i, :], normal.iloc[numTest : m, :], label[numTest : m], 3)

        print("the classifier came back with: %d, the real answer is: %d" % (result, label[i]))

        if(result != label[i]):

            errorCount += 1.0

    print("the total error rate is: %f" % (errorCount / float(numTest)))

datingTest()

应用2:利用sklearn库函数

import pandas as pd

import numpy as np

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

data = pd.read_table('Data/datingTestSet.txt', sep='\t', header=None, names=['FlyMiles', 'PlayTime', 'IceCream', 'LikeDegree'])

like_mapping = {label: idx for idx, label in enumerate(np.unique(data['LikeDegree']))}

data['LikeDegree'] = data['LikeDegree'].map(like_mapping)

X = data.iloc[:, 0:3]

y = data.iloc[:, -1]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=32)

knn = KNeighborsClassifier(n_neighbors=5)

knn.fit(X_train, y_train)

right_rate = knn.score(X_test, y_test)

print('the right rate is: %f' % right_rate)

大数据-KNN算法的更多相关文章

大数据排序算法：外部排序，bitmap算法；大数据去重算法：hash算法，bitmap算法
外部排序算法相关:主要用到归并排序,堆排序,桶排序,重点是先分成不同的块,然后从每个块中找到最小值写入磁盘,分析过程可以看看http://blog.csdn.net/jeason29/article/ ...
Scala 大数据常用算法收集
一:IP转数字,用于比大小,用在求IP段范围中 def ip2Long(ip: String): Long = { val fragments = ip.split("[.]") ...
《零起点，python大数据与量化交易》
<零起点,python大数据与量化交易>,这应该是国内第一部,关于python量化交易的书籍. 有出版社约稿,写本量化交易与大数据的书籍,因为好几年没写书了,再加上近期"前海智库 ...
后Hadoop时代的大数据架构(转)
原文:http://zhuanlan.zhihu.com/donglaoshi/19962491 作者: 董飞提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年 ...
年度钜献，108个大数据文档PDF开放下载
1.大数据的开放式创新——吴甘沙相关阅读:[PPT]吴甘沙:让不同领域的数据真正流动.融合起来,才能释放大数据的价值下载:大数据的开放式创新——吴甘沙.pdf 2.微软严治庆——让大数据为每个人服 ...
SparkSQL大数据实战：揭开Join的神秘面纱
本文来自网易云社区 . Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景. Join背景介 ...
后Hadoop时代的大数据架构
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本.我把2012年后定义成后Hadoop平台时代,这不是说不 ...
从技术 Leader 的招聘需求看，如何转岗为当前紧缺的大数据相关人才？
前段时间,跟候选人聊天的时候,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识.他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不 ...
带你装B,带你飞的大数据时代
我接触过的大数据有: 1.美国棱镜计划 2.前几天新闻报道的,苹果公司窃取用户隐私 3.百度的用户搜素习惯统计分析 4.淘宝的用户购物习惯分析,智能推荐宝贝 5.浏览器的智能标签页 ... 最想了解的 ...

随机推荐

【基础】Linux软件安装方法
linux中wget .apt-get.yum rpm区别 wget 类似于迅雷,是一种下载工具, 通过HTTP.HTTPS.FTP三个最常见的TCP/IP协议下载,并可以使用HTTP代理名字是Wo ...
画PCB时检查点总结
一.画原理图时 NPN的引脚是否对应.继电器的引脚是否对应设计通信电路时,MCU_RX和通信芯片RS232的ROUT接.同理MCU_TX和RS232的TIN接. MCU最好留个外接晶振接口,用NPN ...
DNS域名服务器的搭建
父域的DNS(svr7): 可以解析父域名下保存的域名地址,即解析.tedu.cn下的域名一.安装软件包bind.bind-chroot bind是DNS解析服务需要用到的服务软件包,bind- ...
Eclipse 安装Activiti插件
建议使用vpn或其他翻墙手段安装(否则下载速度可能很慢) 我的博客中有介绍如何自己搭建属于自己的ssr,https://www.cnblogs.com/zktww/p/10839347.html(由于 ...
php开发面试题---创建型设计模式1（创建型设计模式有哪几种）
php开发面试题---创建型设计模式1(创建型设计模式有哪几种) 一.总结一句话总结: 共五种:(简单工厂模式).工厂方法模式.抽象工厂模式.单例模式.建造者模式.原型模式. 1.学设计模式最好的方 ...
微信小程序利用canvas生成海报分享图片
一 . 效果这是借用女神照生成的分享的海报,图片来自网络. 新增了poster组件和更新图片自适应二 . 准备准备两张图片连接,最好是自己开发账号验证的https图片链接. 三 . 实现思路其 ...
vc/atlmfc/include/afx.h(24) : fatal error C1189: #error : Building MFC application with /MD[d] (CRT
环境:win7,64位,vs2012 1> c:/program files/microsoft visual studio 8/vc/atlmfc/include/afx.h(24) : fa ...
【Javescript】DOM（文档对象模型）
1.定义: DOM是Document Object Model文档对象模型的缩写.是针对HTML和XML文档的一个API,通过DOM可以去改变文档. 例如:我们有一段HTML,那么如何访问第二层第一个 ...
JAVA学习之Java程序开发初次体验
Java环境搭建算完成了,那么接下来写个Java程序走一个开发Java程序的简单流程 1.将Java代码编写到扩展名为.java的文件中2.通过javac命令对该Java文件进行编译(生成class ...
剑指offer第二版面试题2：数组中重复的数字（JAVA版）
题目:在一个长度为n+1的数组里的所有数字都在1~n的范围内,所以数组中至少有一个数字是重复的.请找出数组中任意一个重复的数字,但是不能修改输入的数组.例如,如果输入长度为8的数组{2,3,5,4,3 ...

大数据-KNN算法

大数据-KNN算法的更多相关文章

随机推荐

热门专题