KNN的函数写法 import numpy as np from math import sqrt from collections import Counter def KNN_classify(k,X_train,y_train,x): assert 1<=k<X_train.shape[0],"k must be valid" assert X_train.shape[0] == y_train.shape[0],\ "the size of X_train…
讲授K近邻思想,kNN的预测算法,距离函数,距离度量学习,kNN算法的实际应用. KNN是有监督机器学习算法,K-means是一个聚类算法,都依赖于距离函数.没有训练过程,只有预测过程. 大纲: k近邻思想预测算法距离函数距离度量学习实验环节实际应用 k近邻思想: KNN基于模板匹配的思想,如要确定一个水果的类别,可以拿各种水果出来,看它和哪种水果长得像,就判定为哪种水果,这就是模板匹配思想.要拿一些实际的例子来,这些例子就相当于一些标准的模板,要预测样本属于哪个类型,就和这些例子比一遍,看和哪…
Apriori算法 优点:易编码实现:缺点:大数据集上较慢:适用于:数值型或标称型数据. 关联分析:寻找频繁项集(经常出现在一起的物品的集合)或关联规则(两种物品之间的关联关系). 概念:支持度:数据集中包含某项集的记录所占的比例P(A):可信度(置信度):对某个关联规则\(A\rightarrow B\),\(\frac{P\left( \text{AB} \right)}{P(A)}\)表示. Apriori原理:频繁项集的子集一定是频繁项集,非频繁项集的超集一定是非频繁项集. Aprior…
机器学习实战笔记(1) 1. 写在前面 近来感觉机器学习,深度学习神马的是越来越火了,从AlphaGo到Master,所谓的人工智能越来越NB,而我又是一个热爱新潮事物的人,于是也来凑个热闹学习学习.最近在看<Machine Learning IN ACTION>(作者:Peter Harrington)这本书,感觉非常不错.该书不是单纯的进行理论讲解,而是结合了许多小例子深度浅出地进行实战介绍.本博文作为学习笔记,用来记录书中重点内容和稍微地进行知识点的补充,也希望给看到的人带来一些帮助.…
一. 使用k近邻算法改进约会网站的配对效果 k-近邻算法的一般流程: 收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据.一般来讲,数据放在txt文本文件中,按照一定的格式进行存储,便于解析及处理. 准备数据:使用Python解析.预处理数据. 分析数据:可以使用很多方法对数据进行分析,例如使用Matplotlib将数据可视化. 测试算法:计算错误率. 使用算法:错误率在可接受范围内,就可以运行k-近邻算法进行分类. 实战内容: 海伦女士一直使用在线约会网站寻找适合自己…
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as plt from os import listdir def makePhoto(returnMat,classLabelVector): #创建散点图 fig = plt.figure() ax = fig.add_subplot(111) #例如参数为349时,参数349的意思是:将画布分割成3行4…
--------------------------------------------------------------------------------------- 本系列文章为<机器学习实战>学习笔记,内容整理自书本,网络以及自己的理解,如有错误欢迎指正. 源码在Python3.5上测试均通过,代码及数据 --> https://github.com/Wellat/MLaction -----------------------------------------------…
第2章 k-近邻算法 KNN 概述 k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法. 一句话总结:近朱者赤近墨者黑! k 近邻算法的输入为实例的特征向量,对应于特征空间的点:输出为实例的类别,可以取多类.k 近邻算法假设给定一个训练数据集,其中的实例类别已定.分类时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测.因此,k近邻算法不具有显式的学习过程. k 近邻算法实际上利用训练数据集对…
 一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征(向量的每个元素)与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的的分类标签.由于样本集可以很大,我们选取前k个最相似数据,然后统计k个数据中出现频率最高的标签为新数据的标签. K邻近算法的一般流程: (1)收集数据:可以是本地数据,也可以从网页抓取. (2)准备数…
机器学习实战笔记-k-近邻算法 目录 1. k-近邻算法概述 2. 示例:使用k-近邻算法改进约会网站的配对效果 3. 示例:手写识别系统 4. 小结 本章介绍了<机器学习实战>这本书中的第一个机器学习算法:k-近邻算法,它非常有效而且易于掌握.首先,我们将探讨k-近邻算法的基本理论,以及如何使用距离测量的方法分类物品:其次我们将使用Python从文本文件中导入并解析数据:再次,本文讨论了当存在许多数据来源时,如何避免计算距离时可能碰到的一些常见错误:最后,利用实际的例子讲解如何使用k-近邻算…