算法入门系列1:k-means】的更多相关文章

数据结构与算法入门系列教程 (一)为啥要学习数据结构与算法 曾经我也以为自己很牛逼,工作中同事也觉得我还可以,领导也看得起我,啥啥啥都好,就这样过了几年,忽然发现自己学新东西没劲.时代都变了,而我还只是会写一些简单的业务代码,每天也只是复制来复制去的. 是时候改变了,所以这就是我来学习这些东西的原因. (二)Demo地址 C#的Demo,github地址如下:  https://github.com/gdoujkzz/DataStructureForCSharp (三)教程目录 入门不容易->先…
用官方的话来说,所谓K近邻算法(k-Nearest Neighbor,KNN),即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中.这是一个有监督的学习算法 例如下图,红色和蓝色代表已知的训练好的的数据,这个时候来一个示例,也就是图中的绿色圆块,这个绿色圆块属于哪一类呢? 如果K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,…
k-means是一种无监督学习算法,用于聚类. 下图(来自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html)展示了k-means算法k=2时的聚类过程. 第一步:给定k个中心点,然后依次遍历所有数据点,计算每个数据点到k个中心点的距离,距离最短的就归为该中心点 第二步:利用在第一步的结果重新计算中心点 第三步:循环第一第二步直到k个中心点不再变化.…
数字三角形(数塔问题) 其实动态规划本身并不是一个特定的算法,是一种用途广泛的问题求解方法,一种思想,一种手段. 1.1问题描述与状态定义 有一个有非负整数组成的三角形,第一行一个数字,下面各行除了最后一行外,每行的每个数字下面左右各一个数字. 如图示: 从第一行数字开始,每次只能走左下或右下一格,直到走到最后一行,把沿途的走过的所有数字加起来. 如何能使这个和最大? [问题复杂度分析]如果熟悉回溯法,就会立即发现这是一个动态的决策问题:每次两个选择----左下或右下. 但是如果选择用回溯法解决…
数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例) 简介 scikit-learn 估计器 加载数据集 进行fit训练 设置参数 预处理 流水线 结尾 数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例) 数据挖掘入门系列博客:https://www.cnblogs.com/xiaohuiduan/category/1661541.html 项目地址:GitHub 在上一篇博客中,我们使用了简单的OneR算法对Iris进行分类,在…
目录 数据挖掘入门系列教程(四点五)之Apriori算法 频繁(项集)数据的评判标准 Apriori 算法流程 结尾 数据挖掘入门系列教程(四点五)之Apriori算法 Apriori(先验)算法关联规则学习的经典算法之一,用来寻找出数据集中频繁出现的数据集合.如果看过以前的博客,是不是想到了这个跟数据挖掘入门系列教程(一)之亲和性分析这篇博客很相似?Yes,的确很相似,只不过在这篇博客中,我们会更加深入的分析如何寻找可靠有效的亲和性.并在下一篇博客中使用Apriori算法去分析电影中的亲和性.…
数据挖掘入门系列教程(二)之分类问题OneR算法 数据挖掘入门系列博客:https://www.cnblogs.com/xiaohuiduan/category/1661541.html 项目地址:GitHub 在上一篇博客中,我们通过分析亲和性来寻找数据集中数据与数据之间的相关关系.这篇博客我们会讨论简单的分类问题. 分类简介 分类问题,顾名思义我么就是去关注类别(也就是目标)这个变量.分类应用的目的是根据已知类别的数据集得到一个分类模型,然后通过这个分类模型去对类别未知的数据进行分类.这里有…
数据挖掘入门系列教程(五)之Apriori算法Python实现 加载数据集 获得训练集 频繁项的生成 生成规则 获得support 获得confidence 获得Lift 进行验证 总结 参考 数据挖掘入门系列教程(五)之Apriori算法Python实现 在上一篇博客中,我们介绍了Apriori算法的算法流程,在这一片博客中,主要介绍使用Python实现Apriori算法.数据集来自grouplens中的电影数据,同样我的GitHub上面也有这个数据集. 推荐下载这个数据集,1MB大小够了,因…
目录 数据挖掘入门系列教程(四)之基于scikit-lean决策树处理Iris 加载数据集 数据特征 训练 随机森林 调参工程师 结尾 数据挖掘入门系列教程(四)之基于scikit-lean决策树处理Iris 在上一篇博客,我们介绍了决策树的一些知识.如果对决策树还不是很了解的话,建议先阅读上一篇博客,在来学习这一篇. 本次实验基于scikit-learn中的Iris数据.说了好久的Iris,从OneR到决策树,那么Iris到底长啥样呢? 加载数据集 首先我们还是需要先加载数据集,数据集来自sc…
目录 数据挖掘入门系列教程(八)之使用神经网络(基于pybrain)识别数字手写集MNIST 下载数据集 加载数据集 构建神经网络 反向传播(BP)算法 进行预测 F1验证 总结 参考 数据挖掘入门系列教程(八)之使用神经网络(基于pybrain)识别数字手写集MNIST 在本章节中,并不会对神经网络进行介绍,因此如果不了解神经网络的话,强烈推荐先去看<西瓜书>,或者看一下我的上一篇博客:数据挖掘入门系列教程(七点五)之神经网络介绍 本来是打算按照<Python数据挖掘入门与实践>…