介绍朴素贝叶斯分类器的文章已经很多了。本文的目的是通过基本概念和微小实例的复述，巩固对于朴素贝叶斯分类器的理解。

一朴素贝叶斯分类器基础回顾

朴素贝叶斯分类器基于贝叶斯定义，特别适用于输入数据维数较高的情况。虽然朴素贝叶斯分类器很简单，但是它确经常比一些复杂的方法表现还好。

为了简单阐述贝叶斯分类的基本原理，我们使用上图所示的例子来说明。作为先验，我们知道一个球要么是红球要么是绿球。我们的任务是当有新的输入（New Cases）时，我们给出新输入的物体的类别（红或者绿）。这是贝叶斯分类器的典型应用-Label，即给出物体标记。

从图中我们还看到，绿球的数量明显比红球大，那么我们有理由认为：一个新输入（New case）更有可能是绿球。假如绿球的数量是红球的二倍，那么对于一个新输入，它是绿球的概率是它是红球的概率的二倍。

因此，我们知道：

假设一共有60个球，其中40个是绿球，20个是红球，那么类别的先验概率为：

有了先验概率之后，我们就可以准备对新来的物体（New Object），图中白色圈所示，进行分类。如果要取得比较准确的分类结果，那么我们猜测它是绿球比较保险，也就是新物体与绿球的likelihood比与红球的likelihood更大。那么我们接下来衡量这种相似性-likelihood（似然）。

通过上面的公式，我们可以看出X是绿球的似然比X是红球的似然小，因为在X周围邻域内，有3个红球但是只有1个绿球。因此：

因此，尽管对于先验概率来说，X是绿球的可能性比其是红球的可能性大，但是似然（Likelihood）表现的结果却相反。在贝叶斯分析中，最后的类别是有上述两个概率（先验和似然），这就是贝叶斯准则：

注：在实际使用时，概率要经过归一化（Normalized）。

二技术推广

对于一组变量X={x1,x2,x3,,,,,,xd}，我们希望构造输出C={c1,c2,c3,,,,,cd}的一个具体取值Cj（比如Cj是一个分类的情况）的先验概率。利用贝叶斯定理可知：

此处p(Cj|x1,x2,,,,,xd)就是Cj的显眼高铝，或者说是X属于Cj这类的概率。朴素贝叶斯假设相互独立变量的条件概率也相互独立。因此：

并且，先验可以写成如下的形式：

通过贝叶斯定义，我们可以在类别向量Cj的条件下估计X的类别标签。

朴素贝叶斯模型可以通过多种形式建模：正态分布，log正态分布，gamma分布和泊松分布（poisson）

注：此处的泊松分布被认为连续分布，当变量是离散值的时候另作处理。

三例子

假设我们已经有如下数据：

这些数据可以归纳如下：

那么，对于一组新数据：

我们来计算两类的似然：

"yes" = 2/9 * 3/9 * 3/9 * 3/9 * 9/14 = 0.0053
"no" = 3/5 * 1/5 * 4/5 * 3/5 * 5/14 = 0.0206
归一化：
P("yes") = 0.0053 / (0.0053 + 0.0206) = 0.205
P("no") = 0.0206 / (0.0053 + 0.0206) = 0.795

那么，结论是我们今天 Not play。

四代码

<span style="font-size: 12px;" abp="387">from __future__ import division
def calc_prob_cls(train, cls_val, cls_name='class'):
'''''
calculate the prob. of class: cls
'''
cnt = 0
for e in train:
if e[cls_name] == cls_val:
cnt += 1
return cnt / len(train)
def calc_prob(train, cls_val, attr_name, attr_val, cls_name='class'):
'''''
calculate the prob(attr|cls)
'''
cnt_cls, cnt_attr = 0, 0
for e in train:
if e[cls_name] == cls_val:
cnt_cls += 1
if e[attr_name] == attr_val:
cnt_attr += 1
return cnt_attr / cnt_cls
def calc_NB(train, test, cls_y, cls_n):
'''''
calculate the naive bayes
'''
prob_y = calc_prob_cls(train, cls_y)
prob_n = calc_prob_cls(train, cls_n)
for key, val in test.items():
print '%10s: %s' % (key, val)
prob_y *= calc_prob(train, cls_y, key, val)
prob_n *= calc_prob(train, cls_n, key, val)
return {cls_y: prob_y, cls_n: prob_n}
if __name__ == '__main__':
#train data
train = [
{"outlook":"sunny", "temp":"hot", "humidity":"high", "wind":"weak", "class":"no" },
{"outlook":"sunny", "temp":"hot", "humidity":"high", "wind":"strong", "class":"no" },
{"outlook":"overcast", "temp":"hot", "humidity":"high", "wind":"weak", "class":"yes" },
{"outlook":"rain", "temp":"mild", "humidity":"high", "wind":"weak", "class":"yes" },
{"outlook":"rain", "temp":"cool", "humidity":"normal", "wind":"weak", "class":"yes" },
{"outlook":"rain", "temp":"cool", "humidity":"normal", "wind":"strong", "class":"no" },
{"outlook":"overcast", "temp":"cool", "humidity":"normal", "wind":"strong", "class":"yes" },
{"outlook":"sunny", "temp":"mild", "humidity":"high", "wind":"weak", "class":"no" },
{"outlook":"sunny", "temp":"cool", "humidity":"normal", "wind":"weak", "class":"yes" },
{"outlook":"rain", "temp":"mild", "humidity":"normal", "wind":"weak", "class":"yes" },
{"outlook":"sunny", "temp":"mild", "humidity":"normal", "wind":"strong", "class":"yes" },
{"outlook":"overcast", "temp":"mild", "humidity":"high", "wind":"strong", "class":"yes" },
{"outlook":"overcast", "temp":"hot", "humidity":"normal", "wind":"weak", "class":"yes" },
{"outlook":"rain", "temp":"mild", "humidity":"high", "wind":"strong", "class":"no" },
]
#test data
test = {"outlook":"sunny","temp":"cool","humidity":"high","wind":"strong"}
#calculate
print calc_NB(train, test, 'yes', 'no')</span>

from __future__ import division

def calc_prob_cls(train, cls_val, cls_name='class'):

    '''

    calculate the prob. of class: cls

    '''

    cnt = 0

    for e in train:

        if e[cls_name] == cls_val:

            cnt += 1

    return cnt / len(train)

def calc_prob(train, cls_val, attr_name, attr_val, cls_name='class'):

    '''

    calculate the prob(attr|cls)

    '''

    cnt_cls, cnt_attr = 0, 0

    for e in train:

        if e[cls_name] == cls_val:

            cnt_cls += 1

            if e[attr_name] == attr_val:

                cnt_attr += 1

    return cnt_attr / cnt_cls

def calc_NB(train, test, cls_y, cls_n):

    '''

    calculate the naive bayes

    '''

    prob_y = calc_prob_cls(train, cls_y)

    prob_n = calc_prob_cls(train, cls_n)

    for key, val in test.items():

        print '%10s: %s' % (key, val)

        prob_y *= calc_prob(train, cls_y, key, val)

        prob_n *= calc_prob(train, cls_n, key, val)

    return {cls_y: prob_y, cls_n: prob_n}

if __name__ == '__main__':

    #train data

    train = [

        {"outlook":"sunny", "temp":"hot", "humidity":"high", "wind":"weak", "class":"no" },

        {"outlook":"sunny", "temp":"hot", "humidity":"high", "wind":"strong", "class":"no" },

        {"outlook":"overcast", "temp":"hot", "humidity":"high", "wind":"weak", "class":"yes" },

        {"outlook":"rain", "temp":"mild", "humidity":"high", "wind":"weak", "class":"yes" },

        {"outlook":"rain", "temp":"cool", "humidity":"normal", "wind":"weak", "class":"yes" },

        {"outlook":"rain", "temp":"cool", "humidity":"normal", "wind":"strong", "class":"no" },

        {"outlook":"overcast", "temp":"cool", "humidity":"normal", "wind":"strong", "class":"yes" },

        {"outlook":"sunny", "temp":"mild", "humidity":"high", "wind":"weak", "class":"no" },

        {"outlook":"sunny", "temp":"cool", "humidity":"normal", "wind":"weak", "class":"yes" },

        {"outlook":"rain", "temp":"mild", "humidity":"normal", "wind":"weak", "class":"yes" },

        {"outlook":"sunny", "temp":"mild", "humidity":"normal", "wind":"strong", "class":"yes" },

        {"outlook":"overcast", "temp":"mild", "humidity":"high", "wind":"strong", "class":"yes" },

        {"outlook":"overcast", "temp":"hot", "humidity":"normal", "wind":"weak", "class":"yes" },

        {"outlook":"rain", "temp":"mild", "humidity":"high", "wind":"strong", "class":"no" },

        ]

    #test data

    test = {"outlook":"sunny","temp":"cool","humidity":"high","wind":"strong"}

    #calculate

    print calc_NB(train, test, 'yes', 'no')

输出为：

outlook: sunny
   wind: strong
   temp: cool
      humidity: high
{'yes': 0.0052910052910052907, 'no': 0.020571428571428574}

PGM学习之三朴素贝叶斯分类器（Naive Bayes Classifier）的更多相关文章

数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类.眼下研究较多的贝叶斯分类器主要有四种, ...
十大经典数据挖掘算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器贝叶斯分类分类原则是一个对象的通过先验概率.贝叶斯后验概率公式后计算,也就是说,该对象属于一类的概率.选择具有最大后验概率的类作为对象的类属.现在更多的研究贝叶斯分类器,有四个,每间:N ...
朴素贝叶斯分类法 Naive Bayes ---R
朴素贝叶斯算法 [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 勿忘初心无畏未来作为一个初学者,水平有限,欢迎交流指正. 朴素贝叶斯分类法 ...
机器学习---朴素贝叶斯分类器（Machine Learning Naive Bayes Classifier）
朴素贝叶斯分类器是一组简单快速的分类算法.网上已经有很多文章介绍,比如这篇写得比较好:https://blog.csdn.net/sinat_36246371/article/details/6014 ...
朴素贝叶斯分类器（Naive Bayes）
1. 贝叶斯定理如果有两个事件,事件A和事件B.已知事件A发生的概率为p(A),事件B发生的概率为P(B),事件A发生的前提下.事件B发生的概率为p(B|A),事件B发生的前提下.事件A发生的概率为 ...
朴素贝叶斯分类器的应用 Naive Bayes classifier
一.病人分类的例子让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难. 某个医院早上收了六个门诊病人,如下表. 症状职业疾病打喷嚏护士感冒打喷嚏农夫过敏头痛建筑工 ...
（数据科学学习手札30）朴素贝叶斯分类器的原理详解&Python与R实现
一.简介要介绍朴素贝叶斯(naive bayes)分类器,就不得不先介绍贝叶斯决策论的相关理论: 贝叶斯决策论(bayesian decision theory)是概率框架下实施决策的基本方法.对分 ...
朴素贝叶斯分类器（Naive Bayesian Classifier）
本博客是基于对周志华教授所著的<机器学习>的"第7章贝叶斯分类器"部分内容的学习笔记. 朴素贝叶斯分类器,顾名思义,是一种分类算法,且借助了贝叶斯定理.另外,它是一种 ...
用scikit-learn实现朴素贝叶斯分类器转
原文:http://segmentfault.com/a/1190000002472791 朴素贝叶斯(Naive Bayes Classifier)是一种「天真」的算法(假定所有特征发生概率是独立的 ...

随机推荐

微信小程序列表项滑动显示删除按钮
微信小程序并没有提供列表控件,所以也没有iOS上惯用的列表项左滑删除的功能,SO只能自己干了. 原理很简单,用2个层,上面的层显示正常的内容,下面的层显示一个删除按钮,就是记录手指滑动的距离,动态的来 ...
XAF-DevExpress.ExpressApp.DC.Xpo.XpoTypeInfoSource 生成实体的过程-学习笔记
//目的,想自己生成实体类,不走dc的生成机制,所以研究一下此方法.public void GenerateEntities(string generatedAssemblyFile) { lock ...
PHP 用户密码加密函数password_hash
传统的用户名和密码都采用加盐的方式存储加密信息,盐值也需要存储. 自PHP5.5.0之后,新增加了密码散列算法函数(password_hash),password_hash() 使用足够强度的单向散列 ...
rest的Web服务端获取http请求头字段
如上图所示输出的i就是获取的头字段的值 (仅自己记录)
我的Cocos Creator成长之路1环境搭建以及基本的文档阅读
本人原来一直是做cocos-js和cocos-lua的,应公司发展需要,现转型为creator.会在自己的博客上记录自己的成长之路. 1.文档阅读:(cocos的官方文档) http://docs.c ...
Unity中容易被忽略的小技巧
今天在游戏蛮牛上看到慕容小匹夫的一篇文章,感觉对自己现在的水平很实用,就给转载了过来,以便日后好温习一下. 这里还是要支持原创作者,原文地址在这里一.编辑器染色一个常见的工作情景是我们在调整场景内 ...
Mac下基于testrpc和truffle的以太坊智能合约开发环境搭建
原文地址:石匠的blog truffle是一个基于Javascript开发的一套智能合约开发框架,使用Solidity语言编写合约.truffle有一套自动的项目构建机制,集成了开发,测试和部署的各个 ...
SecureCRT SSH连接一直提示密码错误
这是解决方法: http://www.linuxidc.com/Linux/2016-09/134925.htm
web项目中nicedit富文本编辑器的使用
web项目中nicedit富文本编辑器的使用一.为什么要用富文本编辑器? 先说什么是富文本编辑器吧,普通的html中input或textarea标签只能进行简单的输入,而做不到其他的文本调整功能,甚 ...
互评Alpha作品——Hello World！团队作品空天猎
基于NABCD评论作品 1.Need需求:市面上同类型的手机及PC端飞行射击类游戏有很多,所以从需求方面来说,这款游戏的潜在客户非常有局限性.近些年较火的飞行射击类游戏,例如腾讯14年发行的<全 ...

PGM学习之三 朴素贝叶斯分类器（Naive Bayes Classifier）

一 朴素贝叶斯分类器基础回顾

二 技术推广

三 例子

四 代码

PGM学习之三 朴素贝叶斯分类器（Naive Bayes Classifier）的更多相关文章

随机推荐

热门专题

PGM学习之三朴素贝叶斯分类器（Naive Bayes Classifier）

一朴素贝叶斯分类器基础回顾

二技术推广

三例子

四代码

PGM学习之三朴素贝叶斯分类器（Naive Bayes Classifier）的更多相关文章