机器学习：python中如何使用朴素贝叶斯算法

这里再重复一下标题为什么是"使用"而不是"实现"：

首先，专业人士提供的算法比我们自己写的算法无论是效率还是正确率上都要高。

其次，对于数学不好的人来说，为了实现算法而去研究一堆公式是很痛苦的事情。

再次，除非他人提供的算法满足不了自己的需求，否则没必要"重复造轮子"。

下面言归正传，不了解贝叶斯算法的可以去查一下相关资料，这里只是简单介绍一下：

1.贝叶斯公式：

P(A|B)=P(AB)/P(B)

2.贝叶斯推断：

P(A|B)=P(A)×P(B|A)/P(B)

用文字表述：

后验概率=先验概率×相似度/标准化常量

而贝叶斯算法要解决的问题就是如何求出相似度，即：P(B|A)的值

3. 在scikit-learn包中提供了三种常用的朴素贝叶斯算法，下面依次说明：

1）高斯朴素贝叶斯：假设属性/特征是服从正态分布的(如下图)，主要应用于数值型特征。

使用scikit-learn包中自带的数据，代码及说明如下：

>>>from sklearn import datasets   ##导入包中的数据

>>> iris=datasets.load_iris()     ##加载数据

>>> iris.feature_names            ##显示特征名字
    ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
>>> iris.data                     ##显示数据
    array([[ 5.1, 3.5, 1.4, 0.2],[ 4.9, 3. , 1.4, 0.2],[ 4.7, 3.2, 1.3, 0.2]............

>>> iris.data.size                ##数据大小 ---600个
>>> iris.target_names             ##显示分类的名字 
    array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

>>> from sklearn.naive_bayes import GaussianNB  ##导入高斯朴素贝叶斯算法

>>> clf = GaussianNB()                          ##给算法赋一个变量，主要是为了方便使用

>>> clf.fit(iris.data, iris.target)             ##开始分类。对于量特别大的样本，可以使用函数partial_fit分类，避免一次加载过多数据到内存

>>> clf.predict(iris.data[0].reshape(1,-1)) ##验证分类。标红部分特别说明：因为predict的参数是数组，data[0]是列表，所以需要转换一下
array([0])

>>> data=np.array([6,4,6,2]) ##验证分类
>>> clf.predict(data.reshape(1,-1))
array([2])

这里涉及到一个问题：如何判断数据符合正态分布？ R语言里面有相关函数判断，或者直接绘图也可以看出来，但是都是P(x,y)这种可以在坐标系里面直接

画出来的情况，而例子中的数据如何确定，目前还没有搞明白，这部分后续会补上。

2）多项式分布朴素贝叶斯：常用于文本分类，特征是单词，值是单词出现的次数。

##示例来在官方文档，详细说明见第一个例子
>>> import numpy as np

>>> X = np.random.randint(5, size=(6, 100))    ##返回随机整数值：范围[0,5) 大小6*100 6行100列

>>> y = np.array([1, 2, 3, 4, 5, 6])

>>> from sklearn.naive_bayes import MultinomialNB

>>> clf = MultinomialNB()

>>> clf.fit(X, y)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

>>> print(clf.predict(X[2]))

[3]

3）伯努力朴素贝叶斯：每个特征都是是布尔型，得出的结果是0或1，即出现没出现

##示例来在官方文档，详细说明见第一个例子

>>> import numpy as np

>>> X = np.random.randint(2, size=(6, 100))

>>> Y = np.array([1, 2, 3, 4, 4, 5])

>>> from sklearn.naive_bayes import BernoulliNB

>>> clf = BernoulliNB()

>>> clf.fit(X, Y)

BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True)

>>> print(clf.predict(X[2]))

[3]

补充说明：此文还不完善，示例一中也有部分说明需要写，最近事情较多，后续会逐渐完善。

机器学习：python中如何使用朴素贝叶斯算法的更多相关文章

【机器学习实战笔记(3-2)】朴素贝叶斯法及应用的python实现
文章目录 1.朴素贝叶斯法的Python实现 1.1 准备数据:从文本中构建词向量 1.2 训练算法:从词向量计算概率 1.3 测试算法:根据现实情况修改分类器 1.4 准备数据:文档词袋模型 2.示 ...
Python机器学习笔记：朴素贝叶斯算法
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...
Python机器学习算法 — 朴素贝叶斯算法（Naive Bayes）
朴素贝叶斯算法 -- 简介朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Baye ...
机器学习---用python实现朴素贝叶斯算法（Machine Learning Naive Bayes Algorithm Application）
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...
朴素贝叶斯算法的python实现
朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类别问题缺点:对输入数据的准备方式敏感适用数据类型:标称型数据算法思想: 朴素贝叶斯比如我们想判断一个邮件是不是垃圾邮件,那么 ...
[机器学习] 分类 --- Naive Bayes（朴素贝叶斯）
Naive Bayes-朴素贝叶斯 Bayes' theorem(贝叶斯法则) 在概率论和统计学中,Bayes' theorem(贝叶斯法则)根据事件的先验知识描述事件的概率.贝叶斯法则表达式如下所示 ...
朴素贝叶斯算法--python实现
朴素贝叶斯算法要理解一下基础: [朴素:特征条件独立贝叶斯:基于贝叶斯定理] 1朴素贝叶斯的概念[联合概率分布.先验概率.条件概率**.全概率公式][条件独立性假设.] 极大似然估计 ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...
朴素贝叶斯算法的python实现方法
朴素贝叶斯算法的python实现方法本文实例讲述了朴素贝叶斯算法的python实现方法.分享给大家供大家参考.具体实现方法如下: 朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类 ...

随机推荐

java 多线程安全问题-同步代码块
/* 多线程的安全问题: while(true) { if(tick>0) { //线程0,1,2,3在余票为1时,都停滞在这里,之后分别获得CPU执行权,打印出0,-1,-2等错票 Syste ...
block、inline、inline-block对比
display:block 1.block元素会独占一行,多个block元素会各种新起一行.默认情况下,block元素宽度自动填满其父元素容器: 2.block元素可以设置width和height属性 ...
Javascript面对对象. 第五篇
继承继承是面向对象中一个核心的概念.其他正统面向对象语言都会用两种方式实现继承: 一个是接口实现,一个是继承. 而ECMAScript只支持继承,不支持接口实现,而实现继承的方式依靠原型链完成. / ...
测试工作中ADB命令实战
作者:TT,<测试架构师>微信公众号作者大家能点击进来,说明还是对ADB有所了解或听说过的,可能也会比较熟练的掌握了这些命令,下面描述如有不对的地方,欢迎指正和交流学习,请多指教! 一. ...
BZOJ 3391: [Usaco2004 Dec]Tree Cutting网络破坏（搜索）
这道直接遍历一遍求出每个点的子节点数目就行了= = CODE： #include<cstdio>#include<iostream>#include<algorithm& ...
【2017年新篇章】 .NET 面试题汇总（一）
开篇本次给大家介绍的是我收集以及自己个人保存一些.NET面试题简介此次包含的不止是.NET知识,也包含少许前端知识以及.net面试时所涉及的种种考点,希望能给找工作的同学们哪怕一点点帮助. 古人 ...
IDEA下创建Maven项目，并整合使用Spring、Spring MVC、Mybatis框架
项目创建本项目使用的是IDEA 2016创建. 首先电脑安装Maven,接着打开IDEA新建一个project,选择Maven,选择图中所选项,下一步. 填写好GroupId和ArtifactId, ...
JNI调用的helloworld（JNI_OnLoad映射方式）
本示例展示JNI的基本示例,helloworld级别的,不过是用JNI_OnLoad映射的方式. 直接看代码,先看包含native method的Person.java的代码: package hel ...
canvas画时钟，重拾乐趣!
canvas时钟--效果图一.先来简单介绍画时钟需要的canvas知识 1.在HTML页面中添加canvas元素,必须定义canvas元素的id属性值以便接下来的调用. HTML代码: <ca ...
HTTP基础知识（二）
接着上一章的内容:HTTP基础知识(一) 二.简单的HTTP协议 1.客户端:请求访问文本或图像等资源的一端称为客户端: 服务器端:提供资源响应的一端 2.以百度为例子这是请求头: 在起始行 ...

机器学习：python中如何使用朴素贝叶斯算法

机器学习：python中如何使用朴素贝叶斯算法的更多相关文章

随机推荐

热门专题