retrival and clustering: week 2 knn & LSH 笔记

【retrival and clustering: week 2 knn & LSH 笔记】的更多相关文章

retrival and clustering: week 2 knn & LSH 笔记

华盛顿大学 <机器学习> 笔记. knn k-nearest-neighbors : k近邻法给定一个数据集,对于查询的实例,在数据集中找到与这个实例最邻近的k个实例,然后再根据k个最邻近点预测查询实例的类别. <统计学习方法>中这样描述的: K近邻模型是基于训练数据集对特征空间的一个划分. 当k =1 ,为一种特殊情况,称为最邻近法. Knn算法实现的三个重要问题: 距离度量选择.k值选择,分类决策方法. 1. 距离度量选择常用的距离度量有欧式距离.曼哈顿距离等. &l…

retrival and clustering : week 4 GMM & EM 笔记

华盛顿大学机器学习笔记. k-means的局限性 k-means 是一种硬分类(hard assignment)方法,例如对于文档分类问题,k-means会精确地指定某一文档归类到某一个主题,但很多时候硬分类并不能完全描述这个文档的性质,这个文档的主题是混合的,这时候需要软分类(soft assignment)模型. k-means 缺陷:(1)只关注聚类中心的表现.(2)聚类区域形状必须为对称圆形/球形,轴平行. 对于聚类区域大小不一.轴不平行.聚类空间重叠等情况,k-means 缺陷显著…

kNN算法笔记

kNN算法笔记标签(空格分隔): 机器学习 kNN是什么 kNN算法是k-NearestNeighbor算法,也就是k邻近算法.是监督学习的一种.所谓监督学习就是有训练数据,训练数据有label标好(也就是分类分好的).kNN的思路是,对于需要测试的数据,把它和训练集中的每个数据都进行距离计算,距离最近的前k个结果中,所对应的label出现次数最多的,就是这个测试数据所属的label(类别). kNN一般步骤按照<machine learning in action>一书中的通用步骤走一遍…

retrival and clustering : week 3 k-means 笔记

华盛顿大学 machine learning 笔记. K-means algorithm 算法步骤: 0. 初始化几个聚类中心 (cluster centers)μ1,μ2, … , μk 1. 将所有数据点分配给最近的聚类中心; 2. 将每个聚类中心的值改成分配到该点所有数据点的均值; 3. 重复1-2步骤,直到收敛到局部最优(local optimium). #输入: #数据集 data #集群数 k #初始集群中心组 initial_centroids #最多循环次数 maxiter #输…

第2章KNN算法笔记_函数classify0

<机器学习实战>知识点笔记目录 K-近邻算法(KNN)思想: 1,计算未知样本与所有已知样本的距离 2,按照距离递增排序,选前K个样本(K<20) 3,针对K个样本统计各个分类的出现次数,取最大次数的分类为未知样本的分类函数classify0虽然只有短短的几行代码,涉及的知识点却非常多,具体的知识点整理如下: 一.程序清单2-1笔记1,shape函数shape函数是numpy.core.fromnumeric中的函数,它的功能是查看矩阵或者数组的维数.比如:group = array(…

K-means、KNN学习笔记

1.K-means:聚类算法,无监督输入:k, data[n]; (1) 选择k个初始中心点,例如c[0]=data[0],…c[k-1]=data[k-1]; (2) 对于data[0]….data[n], 分别与c[0]…c[k-1]比较,假定与c[i]差值最少,就标记为i; (3) 对于所有标记为i点,重新计算c[i]={ 所有标记为i的data[j]之和}/标记为i的个数: (4) 重复(2)(3),直到所有c[i]值的变化小于给定阈值. 优点:简单,速度快: 缺点:聚类结果与初始…

KNN学习笔记

简单地说,KNN算法就是通过测量不同特征值之间的距离来对特征进行分类的一种算法. 优点:精度高.对异常值不敏感.无数据输入假定. 缺点:计算复杂度高.空间复杂度高. 适用数据范围:数值型和标称型. 工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输入没有标签的新数据后,将数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签.一般来说,我们只选择样本数据集中前k个最相…

k-近邻算法（kNN）笔记

#mat()函数可以将数组(array)转化为矩阵(matrix)# randMat = mat(random.rand(4,4))# 求逆矩阵:randMat.I# 存储逆矩阵:invRandMat = randMat.I# 矩阵乘法:randMat*invRandMat# 求误差值:myEye = randMat*invRandMat #myEye - eye(4) #eye(4)创建4*4的单位矩阵# 使用createDataSet()函数,创建数据集和标签# 创建变量group和labe…

学习笔记之k-nearest neighbors algorithm (k-NN)

k-nearest neighbors algorithm - Wikipedia https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm Not to be confused with k-means clustering. In pattern recognition, the k-nearest neighbors algorithm (k-NN) is a non-parametric method used for cla…

KNN笔记

KNN笔记先简单加载一下sklearn里的数据集,然后再来讲KNN. import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt from sklearn import datasets iris=datasets.load_iris() 看一下鸢尾花的keys: iris.keys() 结果是: dict_keys(['data', 'target', 'target_names', 'DESCR',…