Coursera在线学习---第八节.K-means聚类算法与主成分分析(PCA)

一.K-means聚类中心初始化问题. 1)随机初始化各个簇类的中心,进行迭代,直到收敛,并计算代价函数J. 如果k=2~10,可以进行上述步骤100次,并分别计算代价函数J,选取J值最小的一种聚类情况,能够得到一个相对不错的局部最优解.(因为k值较小情况下,不同的随机中心,聚类结果不同) 2)如果k值很大,则多次随机意义不大,随机一次进行聚类即可. 二.如何选择聚类数目K? 肘部法则是一个方法,但效果一般不明显.通常来讲,并没有太绝对的方法,主要靠人工选择,以及人为的洞察力. 三.利用k-me…

机器学习实战（Machine Learning in Action）学习笔记————06.k-均值聚类算法（kMeans）学习笔记

机器学习实战(Machine Learning in Action)学习笔记————06.k-均值聚类算法(kMeans)学习笔记关键字:k-均值.kMeans.聚类.非监督学习作者:米仓山下时间:2018-11-3机器学习实战(Machine Learning in Action,@author: Peter Harrington)源码下载地址:https://www.manning.com/books/machine-learning-in-actiongit@github.com:pbh…

k均值聚类算法原理和（TensorFlow）实现

顾名思义,k均值聚类是一种对数据进行聚类的技术,即将数据分割成指定数量的几个类,揭示数据的内在性质及规律. 我们知道,在机器学习中,有三种不同的学习模式:监督学习.无监督学习和强化学习: 监督学习,也称为有导师学习,网络输入包括数据和相应的输出标签信息.例如,在 MNIST 数据集中,手写数字的每个图像都有一个标签,代表图片中的数字值. 强化学习,也称为评价学习,不给网络提供期望的输出,但空间会提供给出一个奖惩的反馈,当输出正确时,给网络奖励,当输出错误时就惩罚网络. 无监督学习,也称为无导师学…

K均值聚类算法

k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心.聚类中心以及分配给它们的对象就代表一个聚类.每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算.这个过程将不断重复直到满足某个终止条件.终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小.…

机器学习实战---K均值聚类算法

一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): dataSet = np.loadtxt(filename) return dataSet (二)计算两个向量之间的距离 def distEclud(vecA,vecB): #计算两个向量之间距离 return np.sqrt(np.sum(np.power(vecA-vecB,))) (三)随机初…

挑子学习笔记：两步聚类算法（TwoStep Cluster Algorithm）——改进的BIRCH算法

转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/twostep_cluster_algorithm.html 两步聚类算法是在SPSS Modeler中使用的一种聚类算法,是BIRCH层次聚类算法的改进版本.可以应用于混合属性数据集的聚类,同时加入了自动确定最佳簇数量的机制,使得方法更加实用.本文在学习文献[1]和“IBM SPSS Modeler 15 Algorithms Guide”的基础上,融入了自己的理解,更详尽地叙述两步聚类算法的流程和细节.…

基于改进人工蜂群算法的K均值聚类算法（附MATLAB版源代码）

其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登后,陆陆续续收到本科生.研究生还有博士生的来信和短信微信等,表示了对论文的兴趣以及寻求算法的效果和实现细节,所以,我也就通过邮件或者短信微信来回信,但是有时候也会忘记回复. 另外一个原因也是时间久了,我对于论文以及改进的算法的记忆也越来越模糊,或者那天无意间把代码遗失在哪个角落,真的很难想象我还会全…

K均值聚类算法的MATLAB实现

1.K-均值聚类法的概述之前在参加数学建模的过程中用到过这种聚类方法,但是当时只是简单知道了在matlab中如何调用工具箱进行聚类,并不是特别清楚它的原理.最近因为在学模式识别,又重新接触了这种聚类算法,所以便仔细地研究了一下它的原理.弄懂了之后就自己手工用matlab编程实现了,最后的结果还不错,嘿嘿~~~ 简单来说,K-均值聚类就是在给定了一组样本(x1, x2, ...xn) (xi, i = 1, 2, ... n均是向量) 之后,假设要将其聚为 m(<n) 类,可以按照如下…

（数据科学学习手札09）系统聚类算法Python与R的比较

上一篇笔者以自己编写代码的方式实现了重心法下的系统聚类(又称层次聚类)算法,通过与Scipy和R中各自自带的系统聚类方法进行比较,显然这些权威的快捷方法更为高效,那么本篇就系统地介绍一下Python与R各自的系统聚类算法: Python cluster是Scipy中专门用来做聚类的包,其中包括cluster.vq矢量量化包,里面封装了k-means方法,还包括cluster.hierarchy,里面封装了层次聚类和凝聚聚类的方法,本文只介绍后者中的层级聚类方法,即系统聚类方法,先从一个简单的小例…

Coursera在线学习---第十节.大规模机器学习(Large Scale Machine Learning)

一.如何学习大规模数据集? 在训练样本集很大的情况下,我们可以先取一小部分样本学习模型,比如m=1000,然后画出对应的学习曲线.如果根据学习曲线发现模型属于高偏差,则应在现有样本上继续调整模型,具体调整策略参见第六节的高偏差时模型如何调整:如果发现模型属于高方差,则可以增加训练样本集. 二.随机梯度下降法(Stochastic Gradient Descent) 之前在讲到优化代价函数的时候,采取的都是“批量梯度下降法”Batch Gradient,这种方法在每次迭代的时候,都需要计算所有的训…

Coursera在线学习---第六节.构建机器学习系统

备: High bias(高偏差) 模型会欠拟合 High variance(高方差) 模型会过拟合正则化参数λ过大造成高偏差,λ过小造成高方差一.利用训练好的模型做数据预测时,如果效果不好,下一步大概如何做?存在如下几种情况: 1)获取更多的训练样本.(高方差时用.增加训练样本能防止过度拟合,进而防止高方差,因为非常多的训练样本,很难完全拟合) 2)使用更少的特征维度.(高方差时用,因为有可能过拟合了) 3)使用更多的特征维度.(高偏差时用,因为有可能欠拟合了) 4)增加多项式特征.…

Coursera在线学习---第一节.梯度下降法与正规方程法求解模型参数比较

一.梯度下降法优点:即使特征变量的维度n很大,该方法依然很有效缺点:1)需要选择学习速率α 2)需要多次迭代二.正规方程法(Normal Equation) 该方法可以一次性求解参数Θ 优点:1)不需要选择α 2)不用多次迭代,一次求解 3)正规方程法不需要归一化处理缺点:逆矩阵的计算量比较大,尤其当特征变量的维度n很大时:计算逆矩阵的运算量大概是矩阵维度的3次方. 总结:当特征变量维度n较大时(n>=10000),选择梯度下降法:当n值较小时(n<10000),选择正规方程法求解Θ.…

Coursera在线学习---第九节(2).推荐系统

一.基于内容的推荐系统(Content Based Recommendations) 所谓基于内容的推荐,就是知道待推荐产品的一些特征情况,将产品的这些特征作为特征变量构建模型来预测.比如,下面的电影推荐,就是电影分为"爱情电影".“动作电影”一些特征来进行预测. 上述例子,将电影的内容特征作为特征变量X1,X2,这些电影特征是预先已知的,用户对电影的打分作为y值.比如一用户对100个电影都做了打分,那对于该用户就有了100个样本值,从而可以利用线性回归求解出该用户对应的参数Θ值,这样…

Coursera在线学习---第九节(1).异常数据检测(Anomaly Detection)

一.如何构建Anomaly Detection模型? 二.如何评估Anomaly Detection系统? 1)将样本分为6:2:2比例 2)利用交叉验证集计算出F1值,可以用F1值选取概率阈值ξ,选取使得F1值最大的那个ξ. 3)同时也可以根据训练集.交叉验证集.测试集来同样选取使用哪些特征变量更好.方法就是不断更换特征组合构建模型,利用交叉验证集计算F1值,并看测试集的效果等等. 三.什么时候用异常数据检测法,什么时候用有监督的分类方法? 1)一般来讲,当样本中有大量正常样本数据,而仅仅有少…

Coursera在线学习---第五节.Logistic Regression

一.假设函数与决策边界二.求解代价函数这样推导后最后发现,逻辑回归参数更新公式跟线性回归参数更新方式一摸一样. 为什么线性回归采用最小二乘法作为求解代价函数,而逻辑回归却用极大似然估计求解? 解答: 1)因为线性回归采用最小二乘法作为代价函数,这个函数是一个凸函数,能够得到全局最优解.如下图所示,因为其二阶导数在每个维度的偏导都是一个大于等于0的常数,满足凸函数的充要条件. 2)但是在逻辑回归中却会出现问题,因为将逻辑回归的表达式带入到最小二乘函数中得到的是一个非凸函数的图像,那么就会存在多…

Coursera在线学习---第四节.过拟合问题

一.解决过拟合问题方法 1)减少特征数量 --人为筛选 --靠模型筛选 2)正则化(Regularization) 原理:可以降低参数Θ的数量级,使一些Θ值变得非常之小.这样的目的既能保证足够的特征变量存在(虽然Θ值变小了,但是并不为0),还能减少这些特征变量对模型的影响.换言之,这些特征对于准备预测y值依然能发挥微小的贡献,这样也避免了过拟合问题.(个别Θ值过大,容易过拟合,如果Θ=0,等于缺少个别特征变量,对模型依然不好) 二.具体实例通常我们并不知道具体使哪些Θ值变小,所以我们…

Coursera在线学习---第三节.归一化处理(Normalize)

一.归一化(也说标准化)作用 1)将有量纲特征转化为无量纲特征 2)能够加快收敛(主要指梯度下降法时) 二.Octave中计算 mean(A) 求解矩阵中每一列的均值 std(A) 求解矩阵中每一列的标准差在Octave中对样本进行归一下代码如下: mu=mean(X); sigma=std(X); X_norm=(X.-mu)./sigma 备注:在进行归一化时,训练样本中的均值与标准差,应保存起来,在预测时依然可以使用.…

Coursera在线学习---第二节.Octave学习

1)两个矩阵相乘 A*B 2)两个矩阵元素位相乘(A.B矩阵中对应位置的元素相乘) A.*B 3)矩阵A的元素进行平方 A.^2 4)向量或矩阵中的元素求倒数 1./V 或 1./A 5) 矩阵的操作 A(1,:) 矩阵A的第一行 A(:,3) 矩阵A的第三列 A(:) 将矩阵生成一个列向量 A(:,2:end) 从第二列到最后 6)求绝对值 abs(v) 7)加减 -V 等于所有元…

Coursera在线学习---第七节.支持向量机(SVM)

一.代价函数对比逻辑回归与支持向量机代价函数. cost1(z)=-log(1/(1+e-z)) cost0(z)=-log(1-1/(1+e-z)) 二.支持向量机中求解代价函数中的C值相当于1/λ. 如果C值过大,相当于λ过小,容易过拟合如果C值过小,相当于λ过大,容易欠拟合. 三.大间隔分类(large margin classification) 两个向量的内积等于一个向量的长度乘以另一个向量在该向量的投影长度. 如下图:v*u=||u||*p.||u||为向量u的长度,p为向量…

（数据科学学习手札13）K-medoids聚类算法原理简介&Python与R的实现

前几篇我们较为详细地介绍了K-means聚类法的实现方法和具体实战,这种方法虽然快速高效,是大规模数据聚类分析中首选的方法,但是它也有一些短板,比如在数据集中有脏数据时,由于其对每一个类的准则函数为平方误差,当样本数据中出现了不合理的极端值,会导致最终聚类结果产生一定的误差,而本篇将要介绍的K-medoids(中心点)聚类法在削弱异常值的影响上就有着其过人之处. 与K-means算法类似,区别在于中心点的选取,K-means中选取的中心点为当前类中所有点的重心,而K-medoids法选取的中心点…

学习笔记65_K均值_聚类算法

…

转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法

版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ====================================================================== 本系列博客主要参考 Scikit-Learn 官方网站上的每一个算法进行,并进行部分翻译,如有错误,请大家指正转载请注明出处 ======================================…

机器学习理论与实战（十）K均值聚类和二分K均值聚类

接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类都可以说的很简单也可以说的很复杂,学术的东西本身就一直在更新着.比如K均值聚类可以扩展一下形成层次聚类(Hierarchical Clustering),也可以进入概率分布的空间进行聚类,就像前段时间很火的LDA聚类,虽然最近深度玻尔兹曼机(DBM)打败了它,但它也是自然语言处理领域(NLP:Nat…