朴素贝叶斯算法--python实现

朴素贝叶斯算法要理解一下基础：【朴素：特征条件独立贝叶斯：基于贝叶斯定理】

1朴素贝叶斯的概念【联合概率分布、先验概率、条件概率**、全概率公式】【条件独立性假设、】极大似然估计

2优缺点

【优点：分类效率稳定；对缺失数据不敏感，算法比较简单，常用于文本分类；在属性相关性较小时，该算法性能最好缺点：假设属性之间相互独立；先验概率多取决于假设；对输入数据的表达形式很敏感】

3先验概率、后验概率

先验概率的计算比较简单，没有使用贝叶斯公式；

而后验概率的计算，要使用贝叶斯公式，而且在利用样本资料计算逻辑概率时，还要使用理论概率分布，需要更多的数理统计知识。

4朴素贝叶斯的参数估计：

①极大似然估计（可能出现概率为0的情况）②贝叶斯估计（加入常数，拉普拉斯平滑）

参考：

教你明白啥是朴素贝叶斯分类器有助于理解朴素贝叶斯算法

《统计学习方法》-朴素贝叶斯法笔记和python源码理论总结得很全*

前提python2.7 数据来源： http://pan.baidu.com/s/1pLoKUMJ

 # 极大似然估计  朴素贝叶斯算法

 #coding:utf-8

 # 极大似然估计  朴素贝叶斯算法

 import pandas as pd

 import numpy as np

 class NaiveBayes(object):

     def getTrainSet(self):

         dataSet = pd.read_csv('C://pythonwork//practice_data//naivebayes_data.csv')

         dataSetNP = np.array(dataSet)  #将数据由dataframe类型转换为数组类型

         trainData = dataSetNP[:,0:dataSetNP.shape[1]-1]   #训练数据x1,x2

         labels = dataSetNP[:,dataSetNP.shape[1]-1]        #训练数据所对应的所属类型Y

         return trainData, labels

     def classify(self, trainData, labels, features):

         #求labels中每个label的先验概率

         labels = list(labels)    #转换为list类型

         P_y = {}       #存入label的概率

         for label in labels:

             P_y[label] = labels.count(label)/float(len(labels))   # p = count(y) / count(Y)

         #求label与feature同时发生的概率

         P_xy = {}

         for y in P_y.keys():

             y_index = [i for i, label in enumerate(labels) if label == y]  # labels中出现y值的所有数值的下标索引

             for j in range(len(features)):      # features[0] 在trainData[:,0]中出现的值的所有下标索引

                 x_index = [i for i, feature in enumerate(trainData[:,j]) if feature == features[j]]

                 xy_count = len(set(x_index) & set(y_index))   # set(x_index)&set(y_index)列出两个表相同的元素

                 pkey = str(features[j]) + '*' + str(y)

                 P_xy[pkey] = xy_count / float(len(labels))

         #求条件概率

         P = {}

         for y in P_y.keys():

             for x in features:

                 pkey = str(x) + '|' + str(y)

                 P[pkey] = P_xy[str(x)+'*'+str(y)] / float(P_y[y])    #P[X1/Y] = P[X1Y]/P[Y]

         #求[2,'S']所属类别

         F = {}   #[2,'S']属于各个类别的概率

         for y in P_y:

             F[y] = P_y[y]

             for x in features:

                 F[y] = F[y]*P[str(x)+'|'+str(y)]     #P[y/X] = P[X/y]*P[y]/P[X]，分母相等，比较分子即可，所以有F=P[X/y]*P[y]=P[x1/Y]*P[x2/Y]*P[y]

         features_label = max(F, key=F.get)  #概率最大值对应的类别

         return features_label

 if __name__ == '__main__':

     nb = NaiveBayes()

     # 训练数据

     trainData, labels = nb.getTrainSet()

     # x1,x2

     features = [2,'S']

     # 该特征应属于哪一类

     result = nb.classify(trainData, labels, features)

     print features,'属于',result

#朴素贝叶斯算法   贝叶斯估计， λ=1  K=2， S=3； λ=1 拉普拉斯平滑

 #coding:utf-8

 #朴素贝叶斯算法   贝叶斯估计， λ=1  K=2， S=3； λ=1 拉普拉斯平滑

 import pandas as pd

 import numpy as np

 class NavieBayesB(object):

     def __init__(self):

         self.A = 1    # 即λ=1

         self.K = 2

         self.S = 3

     def getTrainSet(self):

         trainSet = pd.read_csv('C://pythonwork//practice_data//naivebayes_data.csv')

         trainSetNP = np.array(trainSet)     #由dataframe类型转换为数组类型

         trainData = trainSetNP[:,0:trainSetNP.shape[1]-1]     #训练数据x1,x2

         labels = trainSetNP[:,trainSetNP.shape[1]-1]          #训练数据所对应的所属类型Y

         return trainData, labels

     def classify(self, trainData, labels, features):

         labels = list(labels)    #转换为list类型

         #求先验概率

         P_y = {}

         for label in labels:

             P_y[label] = (labels.count(label) + self.A) / float(len(labels) + self.K*self.A)

         #求条件概率

         P = {}

         for y in P_y.keys():

             y_index = [i for i, label in enumerate(labels) if label == y]   # y在labels中的所有下标

             y_count = labels.count(y)     # y在labels中出现的次数

             for j in range(len(features)):

                 pkey = str(features[j]) + '|' + str(y)

                 x_index = [i for i, x in enumerate(trainData[:,j]) if x == features[j]]   # x在trainData[:,j]中的所有下标

                 xy_count = len(set(x_index) & set(y_index))   #x y同时出现的次数

                 P[pkey] = (xy_count + self.A) / float(y_count + self.S*self.A)   #条件概率

         #features所属类

         F = {}

         for y in P_y.keys():

             F[y] = P_y[y]

             for x in features:

                 F[y] = F[y] * P[str(x)+'|'+str(y)]

         features_y = max(F, key=F.get)   #概率最大值对应的类别

         return features_y

 if __name__ == '__main__':

     nb = NavieBayesB()

     # 训练数据

     trainData, labels = nb.getTrainSet()

     # x1,x2

     features = [2,'S']

     # 该特征应属于哪一类

     result = nb.classify(trainData, labels, features)

     print features,'属于',result

朴素贝叶斯算法--python实现的更多相关文章

朴素贝叶斯算法python实现
朴素贝叶斯是一种十分简单的分类算法,称其朴素是因为其思想基础的简单性,就文本分类而言,他认为词袋中的两两词之间的关系是相互独立的,即一个对象的特征向量中的每个维度都是互相独立的.这是朴素贝叶斯理论的思 ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...
朴素贝叶斯算法的python实现方法
朴素贝叶斯算法的python实现方法本文实例讲述了朴素贝叶斯算法的python实现方法.分享给大家供大家参考.具体实现方法如下: 朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类 ...
朴素贝叶斯算法的python实现
朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类别问题缺点:对输入数据的准备方式敏感适用数据类型:标称型数据算法思想: 朴素贝叶斯比如我们想判断一个邮件是不是垃圾邮件,那么 ...
机器学习：python中如何使用朴素贝叶斯算法
这里再重复一下标题为什么是"使用"而不是"实现": 首先,专业人士提供的算法比我们自己写的算法无论是效率还是正确率上都要高. 其次,对于数学不好的人来说,为了实 ...
Python机器学习笔记：朴素贝叶斯算法
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...
Python机器学习算法 — 朴素贝叶斯算法（Naive Bayes）
朴素贝叶斯算法 -- 简介朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Baye ...
机器学习---用python实现朴素贝叶斯算法（Machine Learning Naive Bayes Algorithm Application）
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...
朴素贝叶斯算法下的情感分析——C#编程实现
这篇文章做了什么朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Language Pr ...

随机推荐

std::bind常见的坑
http://note.youdao.com/noteshare?id=bce9cdea8e94501186b5ba3026af685f
js完整教程一：基本概念和数组操作
文章提纲 JS相关常识 JS基本概念实践总结 JS相关常识 js是一种可以与HTML标记语言混合使用的脚本语言,其编写的程序可以直接在浏览器中解释执行. 一.组成 js是一种专门为网页交互设计的脚 ...
Java基础-Java中23种设计模式之常用的设计模式
Java基础-Java中23种设计模式之常用的设计模式作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.设计模式分类设计模式是针对特定场景给出的专家级的解决方案.总的来说设 ...
鸟哥的Linux私房菜——第十五章：正规表示法
视频链接 B站:http://www.bilibili.com/video/av10364761/ 目录如下 1. 前言:2. 基础正规表示法:2.1 以 grep 撷取字符串 (grep -iv ...
JDBC编程示例
package com.lovo.test; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLE ...
UVALive - 4636 Cubist Artwork（贪心）
题目链接题意给出正视图和侧视图,判断最少用几个立方体分析若存在高度相同的立方块,则以数目多的那面为准. #include <iostream> #include <cstdi ...
SpringMvc数据校验@Valid等注解的使用与工具类抽取
最近在重构老项目的代码,发现校验入参占用了很多代码,之前我对这一块的认识局限于使用StringUtils等工具来多个if块进行判断,代码是没什么问题,但是总写这些令人生烦,毕竟写代码也要讲究优雅的嘛, ...
[整理]WebAPP开发的框架
http://www.zhihu.com/question/27210335 http://ionicframework.com/getting-started/ http://cordova.apa ...
[R语言]关联规则1---不考虑items之间的时序关系
本文介绍的是关联规则,分为两部分:第一部分是---不考虑用户购买的items之间严格的时序关系,每个用户有一个“购物篮”,查找其中的关联规则.第二部分--- 考虑items之间的严格的时序关系来分析用 ...
HDU 2093 考试排名模拟题
解题报告: 题目描述:写一个程序给一个编程考试C++实时提交系统排名,给你的数据是题目的总数,每次错误提交罚的时间分,每位用户的姓名,然后是输入用户每题的完成情况,有一下几种情况,第一,输入只有一个正 ...

朴素贝叶斯算法--python实现

朴素贝叶斯算法--python实现的更多相关文章

随机推荐

热门专题