算法入门系列1：k-means

【算法入门系列1：k-means】的更多相关文章

数据结构与算法入门系列教程-C#

数据结构与算法入门系列教程 (一)为啥要学习数据结构与算法曾经我也以为自己很牛逼,工作中同事也觉得我还可以,领导也看得起我,啥啥啥都好,就这样过了几年,忽然发现自己学新东西没劲.时代都变了,而我还只是会写一些简单的业务代码,每天也只是复制来复制去的. 是时候改变了,所以这就是我来学习这些东西的原因. (二)Demo地址 C#的Demo,github地址如下: https://github.com/gdoujkzz/DataStructureForCSharp (三)教程目录入门不容易->先…

算法入门系列2：k近邻算法

用官方的话来说,所谓K近邻算法(k-Nearest Neighbor,KNN),即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中.这是一个有监督的学习算法例如下图,红色和蓝色代表已知的训练好的的数据,这个时候来一个示例,也就是图中的绿色圆块,这个绿色圆块属于哪一类呢? 如果K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,…

算法入门系列1：k-means

k-means是一种无监督学习算法,用于聚类. 下图(来自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html)展示了k-means算法k=2时的聚类过程. 第一步:给定k个中心点,然后依次遍历所有数据点,计算每个数据点到k个中心点的距离,距离最短的就归为该中心点第二步:利用在第一步的结果重新计算中心点第三步:循环第一第二步直到k个中心点不再变化.…

算法入门系列一--DP初步

数字三角形(数塔问题) 其实动态规划本身并不是一个特定的算法,是一种用途广泛的问题求解方法,一种思想,一种手段. 1.1问题描述与状态定义有一个有非负整数组成的三角形,第一行一个数字,下面各行除了最后一行外,每行的每个数字下面左右各一个数字. 如图示: 从第一行数字开始,每次只能走左下或右下一格,直到走到最后一行,把沿途的走过的所有数字加起来. 如何能使这个和最大? [问题复杂度分析]如果熟悉回溯法,就会立即发现这是一个动态的决策问题:每次两个选择----左下或右下. 但是如果选择用回溯法解决…

数据挖掘入门系列教程（三）之scikit-learn框架基本使用（以K近邻算法为例）

数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例) 简介 scikit-learn 估计器加载数据集进行fit训练设置参数预处理流水线结尾数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例) 数据挖掘入门系列博客:https://www.cnblogs.com/xiaohuiduan/category/1661541.html 项目地址:GitHub 在上一篇博客中,我们使用了简单的OneR算法对Iris进行分类,在…

数据挖掘入门系列教程（四点五）之Apriori算法

目录数据挖掘入门系列教程(四点五)之Apriori算法频繁(项集)数据的评判标准 Apriori 算法流程结尾数据挖掘入门系列教程(四点五)之Apriori算法 Apriori(先验)算法关联规则学习的经典算法之一,用来寻找出数据集中频繁出现的数据集合.如果看过以前的博客,是不是想到了这个跟数据挖掘入门系列教程(一)之亲和性分析这篇博客很相似?Yes,的确很相似,只不过在这篇博客中,我们会更加深入的分析如何寻找可靠有效的亲和性.并在下一篇博客中使用Apriori算法去分析电影中的亲和性.…

数据挖掘入门系列教程（二）之分类问题OneR算法

数据挖掘入门系列教程(二)之分类问题OneR算法数据挖掘入门系列博客:https://www.cnblogs.com/xiaohuiduan/category/1661541.html 项目地址:GitHub 在上一篇博客中,我们通过分析亲和性来寻找数据集中数据与数据之间的相关关系.这篇博客我们会讨论简单的分类问题. 分类简介分类问题,顾名思义我么就是去关注类别(也就是目标)这个变量.分类应用的目的是根据已知类别的数据集得到一个分类模型,然后通过这个分类模型去对类别未知的数据进行分类.这里有…

数据挖掘入门系列教程（五）之Apriori算法Python实现

数据挖掘入门系列教程(五)之Apriori算法Python实现加载数据集获得训练集频繁项的生成生成规则获得support 获得confidence 获得Lift 进行验证总结参考数据挖掘入门系列教程(五)之Apriori算法Python实现在上一篇博客中,我们介绍了Apriori算法的算法流程,在这一片博客中,主要介绍使用Python实现Apriori算法.数据集来自grouplens中的电影数据,同样我的GitHub上面也有这个数据集. 推荐下载这个数据集,1MB大小够了,因…

数据挖掘入门系列教程（四）之基于scikit-lean实现决策树

目录数据挖掘入门系列教程(四)之基于scikit-lean决策树处理Iris 加载数据集数据特征训练随机森林调参工程师结尾数据挖掘入门系列教程(四)之基于scikit-lean决策树处理Iris 在上一篇博客,我们介绍了决策树的一些知识.如果对决策树还不是很了解的话,建议先阅读上一篇博客,在来学习这一篇. 本次实验基于scikit-learn中的Iris数据.说了好久的Iris,从OneR到决策树,那么Iris到底长啥样呢? 加载数据集首先我们还是需要先加载数据集,数据集来自sc…

数据挖掘入门系列教程（八）之使用神经网络（基于pybrain）识别数字手写集MNIST

目录数据挖掘入门系列教程(八)之使用神经网络(基于pybrain)识别数字手写集MNIST 下载数据集加载数据集构建神经网络反向传播(BP)算法进行预测 F1验证总结参考数据挖掘入门系列教程(八)之使用神经网络(基于pybrain)识别数字手写集MNIST 在本章节中,并不会对神经网络进行介绍,因此如果不了解神经网络的话,强烈推荐先去看<西瓜书>,或者看一下我的上一篇博客:数据挖掘入门系列教程(七点五)之神经网络介绍本来是打算按照<Python数据挖掘入门与实践>…