本章主要介绍了分类算法里面的一种最基本的分类器:朴素贝叶斯算法(NB),算法性能正如英文缩写的一样,很NB,尤其在垃圾邮件检测领域,关于贝叶斯的网上资料也很多,这里推荐那篇刘未鹏写的http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/,作者深入浅出的概述了贝叶斯背后的思想跟应用领域,关于其理论方面可以参考斯坦福大学NG的machine learning cs299的讲义,关于代码实现可以参考一些开源的包或者自己动手写(之前,闲来无…
<Machine Learning in Action>-- 白话贝叶斯,"恰瓜群众"应该恰好瓜还是恰坏瓜 概率论,可以说是在机器学习当中扮演了一个非常重要的角色了.Taoye对概率论知识的掌握目前也还仅仅只是停留在本科期间所接触到的,而且还都已经忘了不少.快速的复习回顾一下之后,用来理解机器学习中的贝叶斯算法,还是足够的. 手撕机器学习系列文章目前已经更新了支持向量机SVM.决策树.K-近邻(KNN),现在我们来玩玩贝叶斯算法,其他机器学习系列文章可根据自己需求来食用(持…
贝叶斯决策一直很有争议,今年是贝叶斯250周年,历经沉浮,今天它的应用又开始逐渐活跃,有兴趣的可以看看斯坦福Brad Efron大师对其的反思,两篇文章:“Bayes'Theorem in the 21st Century”和“A250-YEAR ARGUMENT:BELIEF, BEHAVIOR, AND THE BOOTSTRAP”.俺就不参合这事了,下面来看看朴素贝叶斯分类器. 有时我们想知道给定一个样本时,它属于每个类别的概率是多少,即P(Ci|X),Ci表示类别,X表示测试样本,有了概…
本章是上一章邮件过滤技术的延伸,上一章的内容主要是过滤掉垃圾邮件,而这里要讲的是对那些正常的邮件是否可以加入个性化元素,由于每个用户关心的主题并非一样(有人喜欢技术类型的邮件或者购物促销方便的内容邮件等).如何把邮件按照用户的关注程度分类,把重要邮件优先让用户浏览, 无疑会大大的增加用户的体验. Tapestry作为最早的个性化邮箱,它通过分析用户阅读邮件的行为习惯对邮件进行排序,提供个性化服务.这个想结合最近的做的项目(游戏推荐)一起讲,跳过这一章看机器学习里面的回归问题.…
本章主要讲了对数据的一些基本探索,常见的six numbers,方差,均值等 > data.file <- file.path('data', '01_heights_weights_genders.csv') > heights.weights <- read.csv(data.file, header = TRUE, sep = ',') > heights <- with(heights.weights, Height) > summary(heights)…
开篇:首先这本书的名字很霸气,全书内容讲的是R语言在机器学习上面的应用,一些基本的分类算法(tree,SVM,NB),回归算法,智能优化算法,维度约减等,机器学习领域已经有很多成熟的R工具箱,毕竟这个领域被统计学称霸了十多年,常用R工具箱都可以在这里面找到http://www.rdatamining.com/docs,http://www.mloss.org/software/ 本书第一张介绍了R以及相应包的安装,同时拿了UFO数据集进行练手,数据集以及源码网上都有的 首先加载数据集(博客园的插…
            本博客所有文章分类的总目录:http://www.cnblogs.com/asxinyu/p/4288836.html 微软Infer.NET机器学习组件文章目录:http://www.cnblogs.com/asxinyu/p/4329742.html 关于本文档的说明 本文档基于Infer.NET 2.6对Infer.NET User Guide进行中文翻译,但进行了若干简化和提炼,按照原网站的思路进行,但不局限与其顺序. 欢迎传播分享,必须保持原作者的信息,但禁止将…
贝叶斯分类器的分类 根据实际处理的数据类型, 可以分为离散型贝叶斯分类器和连续型贝叶斯分类器, 这两种类型的分类器, 使用的计算方式是不一样的. 贝叶斯公式 首先看一下贝叶斯公式 $ P\left ( y|x \right ) = \frac{P\left ( x|y \right ) * P\left ( y \right )}{\sum_{i=1}^{n}P\left ( x|y_{i} \right )*P\left ( y_{i} \right )} $ 其推导很简单, 因为 P(yx)…
import matplotlib.pyplot as plt from sklearn import datasets,naive_bayes from sklearn.model_selection import train_test_split # 加载 scikit-learn 自带的 digits 数据集 def load_data(): ''' 加载用于分类问题的数据集.这里使用 scikit-learn 自带的 digits 数据集 ''' digits=datasets.load…
讲授贝叶斯公式.朴素贝叶斯分类器.正态贝叶斯分类器的原理.实现以及实际应用 大纲: 贝叶斯公式(直接用贝叶斯公式完成分类,计算一个样本的特征向量X属于每个类c的概率,这个计算是通过贝叶斯公式来完成的.) 朴素贝叶斯分类器(预测算法.训练算法) 正态贝叶斯分类器(预测算法.训练算法) 实验环节 实际应用 贝叶斯公式: 澄明了两个相关的(有因果关系的)随机事件以及随机变量之间的概率关系的. 随机事件a.b,假设b是因a是果: 推广到随机变量的情况: ①根据这个公式就可以完成分类了,给定任意一个样本的…