机器学习实战-k近邻算法
写在开头,打算耐心啃完机器学习实战
这本书,所用版本为2013年6月第1版
在P19页的实施kNN算法时,有很多地方不懂,遂仔细研究,记录如下:
字典按值进行排序
- 首先仔细读完kNN算法之后,了解其是用距离来进行判别
- 程序清单2-1看不太明白,于是把具体的inX,dataSet,labels,k带进去大致明白了意思,这里不做演示
- 书上用字典进行存储,然后对字典的值进行排序,这里不太清楚故去学习了一下
这些理清楚之后,首先来看如何对字典的值进行排序:
dict1 = {'a': 1, 'b': 4, 'c': 2, 'f' : 12}
# 第一种方法,key使用lambda匿名函数取value进行排序
a = sorted(dict1.items(),key = lambda x: x[1])
b = sorted(dict1.items(),key = lambda x:x[1],reverse = True)
print(a)
print(b)
[('a', 1), ('c', 2), ('b', 4), ('f', 12)]
[('f', 12), ('b', 4), ('c', 2), ('a', 1)]
这里sorted的第一个参数为容器,传入的是items,然后第二个参数选择items的第二个值也就是这里的values
dict1 = {'a': 1, 'b': 4, 'c': 2, 'f' : 12}
# 第一种方法,key使用lambda匿名函数取value进行排序
a = sorted(dict1.keys(),key = lambda x: x[0])
b = sorted(dict1.keys(),key = lambda x:x[0],reverse = True)
print(a)
print(b)
['a', 'b', 'c', 'f']
['f', 'c', 'b', 'a']
这里请注意第一个参数容器,需和第二个参数key中排序内容对应,不能第一个选values,第二个填x[1]
?sorted
Signature: sorted(iterable, /, *, key=None, reverse=False)
Docstring:
Return a new list containing all items from the iterable in ascending order.
A custom key function can be supplied to customize the sort order, and the
reverse flag can be set to request the result in descending order.
Type: builtin_function_or_method
如果不想使用匿名函数,也可使用itemgetter()函数按第几维进行排序
# 第二种方法使用operator的itemgetter进行排序
import operator
dict1 = {'a': 1, 'b': 4, 'c': 2, 'f' : 12}
c = sorted(dict1.items(), key=operator.itemgetter(1))
print(c)
kNN算法
在写出完整代码之前,我们还要处理一个问题:
计算出某一具体向量到各数据之间的距离之和,如何按照距离进行排序,再存储进字典中
import numpy as np
def createDataSet():
dataSet = np.array([[1,1],[1,1.2],[0,0],[0,0.2]])
labels = np.array(['A','A','B','B'])
return dataSet,labels
dataSet,labels = createDataSet()
a = np.array([0.1,0.2])-dataSet
a = a**2
a = a.sum(axis=1)
a
array([1.45, 1.81, 0.05, 0.01])
即在字典存储时,如何将上述的array按序存入?
numpy.argsort(a, axis=-1, kind=’quicksort’, order=None)
使用argsort函数即可
import numpy as np
# 数据集
def createDataSet():
dataSet = np.array([[1, 1], [1, 1.2], [0, 0], [0, 0.2]])
labels = np.array(['A', 'A', 'B', 'B'])
return dataSet, labels
dataSet, labels = createDataSet()
# print(dataSet)
# print(labels)
# 生成器
def classifier(arr, dataSet, labels, k):
new_arr = arr - dataSet
# return(new_arr)
new_arr_sqaure = new_arr ** 2
new_arr_sum = new_arr_sqaure.sum(axis=1)
# 欧氏距离,先用目标与数据集的每条相减,再平方再求和再开根号
distances = new_arr_sum ** 0.5
# return distances
# 距离进行排序,这样就能知道传入的向量与数据集中的哪个向量最近
distances_rank = distances.argsort()
# return distances_rank
generate_dict = {}
for i in range(k):
label = labels[distances_rank[i]]
# get函数如果有则正常取,没有则使用后面的参数0
generate_dict[label] = generate_dict.get(label, 0) + 1
# 对字典的值进行排序
sorted_dict = sorted(generate_dict.items(), key=lambda x: x[1], reverse=True)
print(sorted_dict)
return sorted_dict[0][0]
predict_x = np.array([0, 0.1])
result = classifier(predict_x, dataSet, labels, 3)
print(result)
最后结果
[('B', 2), ('A', 1)]
B
机器学习实战-k近邻算法的更多相关文章
- 机器学习之K近邻算法(KNN)
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习 苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...
- 【机器学习】k近邻算法(kNN)
一.写在前面 本系列是对之前机器学习笔记的一个总结,这里只针对最基础的经典机器学习算法,对其本身的要点进行笔记总结,具体到算法的详细过程可以参见其他参考资料和书籍,这里顺便推荐一下Machine Le ...
- 第四十六篇 入门机器学习——kNN - k近邻算法(k-Nearest Neighbors)
No.1. k-近邻算法的特点 No.2. 准备工作,导入类库,准备测试数据 No.3. 构建训练集 No.4. 简单查看一下训练数据集大概是什么样子,借助散点图 No.5. kNN算法的目的是,假如 ...
- 机器学习之K近邻算法
K 近邻 (K-nearest neighbor, KNN) 算法直接作用于带标记的样本,属于有监督的算法.它的核心思想基本上就是 近朱者赤,近墨者黑. 它与其他分类算法最大的不同是,它是一种&quo ...
- [机器学习实战] k邻近算法
1. k邻近算法原理: 存在一个样本数据集,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对 ...
- 【机器学习】K近邻算法——多分类问题
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该类输入实例分为这个类. KNN是通过测量不同特征值之间的距离进行分类.它的的思路是:如 ...
- 机器学习2—K近邻算法学习笔记
Python3.6.3下修改代码中def classify0(inX,dataSet,labels,k)函数的classCount.iteritems()为classCount.items(),另外p ...
- 机器学习03:K近邻算法
本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...
- 机器学习实战 - python3 学习笔记(一) - k近邻算法
一. 使用k近邻算法改进约会网站的配对效果 k-近邻算法的一般流程: 收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据.一般来讲,数据放在txt文本文件中,按照一定的格式进 ...
随机推荐
- 表单属性method的值get和post的区别?什么时候用get?什么时候用post?
get和post的区别 一.安全性 因为get会将用户名和密码放在URL中,进而出现在浏览器的历史记录中,显然这种情况应该用post. 二.编码 get只能向服务器发送ASCII字符,而post则可以 ...
- Markdown语法2
二 . 低频使用的语法 下面是相对用得少的markdown语法,但也值得学习学习. 10.区块(块引用) 要创建块引用,请在段落前添加一个 > 符号: 块引用支持多段落: 块引用支持嵌套,即引 ...
- GC和GC Tuning
GC和GC Tuning GC的基础知识 什么是垃圾 C语言申请内存:malloc free C++: new delete c/C++ 手动回收内存 Java: new ? 自动内存回收,编程上简单 ...
- c语言 相关小知识
软件运行与内存关系(垃圾数据) 内存是在操作系统的统一管理下使用的! 1.软件在运行前需要向操作系统申请访问存储空间,在内存空闲空间足够时,操作系统将分配一段内存空间并将外存中软件拷贝一份存入该内存空 ...
- 模拟web服务器http请求应答
我们在浏览器打开网页,其实是向远端服务器提出页面发送请求,远端服务器在接到请求后,就开始执行请求页面的程序文件,然后将执行结果通过html格式,发送到你的浏览器,再显示出来.以下用百度(www.bai ...
- 【SpringBoot实战】核心配置和注解
前言 SpringBoot核心配置在springboot中有非常重要的作用,我们可是使用核心配置文件进行一些基础功能的定义,属性值的注入等.springboot支持两种格式的核心配置文件,一种是pro ...
- Bootstrap 之 Metronic 模板的学习之路 - (1)总览
写在前面 bootstrap 的模板非常多,Envato 上有着各种各样的免费及付费模板.Metronic 是我最喜欢的模板之一(看一眼就喜欢上的那种),当前售价 $28 ,觉得赞的,不妨支持一下作者 ...
- canvas 1px 出现模糊解决方法及原理
关于canvas绘制1像素出现模糊的原因及解决方法 canvas是html5中非常强大的功能,但是在绘制的时候如果出现1像素,例如画一条1像素的线可能出现模糊情况. 一.解决方法 网上比较常见的解决方 ...
- 聊一聊Web端的即时通讯
聊一聊Web端的即时通讯 Web端实现即时通讯的方法有哪些? - 短轮询 长轮询 iframe流 Flash Socket 轮询 客户端定时向服务器发送Ajax请求,服务器接到请求后马上返回响应信息并 ...
- java多线程的状态转换以及基本操作
1. 新建线程 一个java程序从main()方法开始执行,然后按照既定的代码逻辑执行,看似没有其他线程参与,但实际上java程序天生就是一个多线程程序,包含了:(1)分发处理发送给给JVM信号的线程 ...