朴素贝叶斯python小样本实例

朴素贝叶斯
优点：在数据较少的情况下仍然有效，可以处理多类别问题
缺点：对于输入数据的准备方式较为敏感
适用数据类型：标称型数据
朴素贝叶斯决策理论的核心思想：选择具有最高概率的决策
朴素贝叶斯的一般过程
（1）收集数据：可以使用任何方法。
（2）准备数据：需要数值型或者布尔型数据。
（3）分析数据：有大量特征时，回值特征作用不大，此时使用直方图效果更好
（4）训练算法：计算不同的独立特征的条件概率
（5）测试算法：计算错误率
（6）使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定是文本

 from numpy import *

 #创建一些实验样本。该函数返回的第一个变量是进行词条切分后的文档集合，

 #该函数返回的第二个变量是一个类别标签的集合

 def loadDataSet():

     postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],

                  ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],

                  ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],

                  ['stop', 'posting', 'stupid', 'worthless', 'garbage'],

                  ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],

                  ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

     classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not

     return postingList,classVec

 #创建一个包含所有文档中出现的不重复词的列表

 def createVocabList(dataSet):

     #创建一个空集

     vocabSet = set([])  #create empty set

     for document in dataSet:

         #创建两个集合的并集

         vocabSet = vocabSet | set(document) #union of the two sets

     return list(vocabSet)

 #该函数的输入参数为词汇表及其某个文档，输出的是文档向量，向量的每一元素为1或0，

 # 分别表示词汇表中的单词在输入文档中是否出现。

 #函数首先创建一个和词汇表等长的向量，并将其元素都设置为0.接着，遍历文档中的所有单词，

 # 如果出现了词汇表中的单词，则将输出的文档向量中对应值设为1.一切顺利的话，就不需要

 # 检查某个词是否还在vocabList中，后边可能会用到这一操作

 def setOfWords2Vec(vocabList, inputSet):

     #创建一个维度都为0的向量

     returnVec = [0]*len(vocabList)

     for word in inputSet:

         if word in vocabList:

             returnVec[vocabList.index(word)] = 1

         else: print ("the word: %s is not in my Vocabulary!" % word)

     return returnVec

 '''

 该函数的伪代码如下：

 计算每个类别中的文档数目

 对每篇训练文档：

     对每个类别：

         如果词条出现文档中则增加该词条的计数值

         增加所有词条的计数值

     对每个类别：

         对每个词条：

             将该词条的数目除以总词条数目得到条件概率

     返回每个类别的条件概率

 '''

 #

 def trainNB0(trainMatrix,trainCategory):

     numTrainDocs = len(trainMatrix)

     numWords = len(trainMatrix[0])

     #初始化概率

     pAbusive = sum(trainCategory)/float(numTrainDocs)

     p0Num = ones(numWords); p1Num = ones(numWords)      #change to ones()

     p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0

     for i in range(numTrainDocs):

         #向量相加

         if trainCategory[i] == 1:

             p1Num += trainMatrix[i]

             p1Denom += sum(trainMatrix[i])

         else:

             p0Num += trainMatrix[i]

             p0Denom += sum(trainMatrix[i])

             #对每个元素做除法

     p1Vect = log(p1Num/p1Denom)          #change to log()

     p0Vect = log(p0Num/p0Denom)          #change to log()

     return p0Vect,p1Vect,pAbusive

 def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):

     p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult

     p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)

     if p1 > p0:

         return 1

     else:

         return 0

 def bagOfWords2VecMN(vocabList, inputSet):

     returnVec = [0]*len(vocabList)

     for word in inputSet:

         if word in vocabList:

             returnVec[vocabList.index(word)] += 1

     return returnVec

 def testingNB():

     listOPosts,listClasses = loadDataSet()

     myVocabList = createVocabList(listOPosts)

     trainMat=[]

     for postinDoc in listOPosts:

         trainMat.append(setOfWords2Vec(myVocabList, postinDoc))

     p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))

     testEntry = ['love', 'my', 'dalmation']

     thisDoc = array(setOfWords2Vec(myVocabList, testEntry))

     print(testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))

     testEntry = ['stupid', 'garbage']

     thisDoc = array(setOfWords2Vec(myVocabList, testEntry))

     print (testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))

 #如果一个词在文档中出现不止依次，这可能意味着包含该词是否出现的文档所不能表达的某种信息，

 # 这种方法被称为词袋模型。

 # #

 mySent='This book is the best book on Python or M.L. I have ever laid eyes upon.'

 A=mySent.split()

 print(A)

小结：

对于分类而言，使用概率有时要比使用硬规则更为有效。贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法。

可以通过特征之间的条件独立性假设，降低对数据量的需求。独立性假设是指一个词的出现概率并不依赖于文档中的其他词。当然我们也知道这个假设过于简单，这就是之所以称之为朴素贝叶斯的原因。尽管条件独立性假设并不正确，但是朴素贝叶斯仍然是一种有效的分类器。

朴素贝叶斯python小样本实例的更多相关文章

朴素贝叶斯python代码实现（西瓜书）
朴素贝叶斯python代码实现(西瓜书) 摘要: 朴素贝叶斯也是机器学习中一种非常常见的分类方法,对于二分类问题,并且数据集特征为离散型属性的时候, 使用起来非常的方便.原理简单,训练效率高,拟合效果 ...
朴素贝叶斯原理、实例与Python实现
初步理解一下:对于一组输入,根据这个输入,输出有多种可能性,需要计算每一种输出的可能性,以可能性最大的那个输出作为这个输入对应的输出. 那么,如何来解决这个问题呢? 贝叶斯给出了另一个思路.根据历史记 ...
朴素贝叶斯算法 & 应用实例
转载请注明出处:http://www.cnblogs.com/marc01in/p/4775440.html 引和师弟师妹聊天时经常提及,若有志于从事数据挖掘.机器学习方面的工作,在大学阶段就要把基 ...
机器学习：朴素贝叶斯--python
今天介绍机器学习中一种基于概率的常见的分类方法,朴素贝叶斯,之前介绍的KNN, decision tree 等方法是一种 hard decision,因为这些分类器的输出只有0 或者 1,朴素贝叶斯方 ...
朴素贝叶斯python实现
概率论是非常多机器学习算法基础,朴素贝叶斯分类器之所以称为朴素,是由于整个形式化过程中仅仅做最原始.简单的如果. (这个如果:问题中有非常多特征,我们简单如果一个个特征是独立的.该如果称做条件独立性, ...
统计学习方法（李航）朴素贝叶斯python实现
朴素贝叶斯法首先训练朴素贝叶斯模型,对应算法4.1(1),分别计算先验概率及条件概率,分别存在字典priorP和condP中(初始化函数中定义).其中,计算一个向量各元素频率的操作反复出现,定义为c ...
机器学习理论基础学习3.5--- Linear classification 线性分类之朴素贝叶斯
一.什么是朴素贝叶斯? (1)思想:朴素贝叶斯假设条件独立性假设:假设在给定label y的条件下,特征之间是独立的最简单的概率图模型解释: (2)重点注意:朴素贝叶斯拉普拉斯平滑 ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...
统计学习方法与Python实现（三）——朴素贝叶斯法
统计学习方法与Python实现(三)——朴素贝叶斯法 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 1.定义朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设 ...

随机推荐

jQuery学习笔记（三）
jQuery中的事件页面加载原生DOM中的事件具有页面加载的内容onload事件,在jQuery中同样提供了对应的内容ready()函数. ready与onload之间的区别: onload re ...
学习笔记：location.hash和history.pushState()
在浏览器中改变地址栏url,将会触发页面资源的重新加载,这使得我们可以在不同的页面间进行跳转,得以浏览不同的内容.但随着单页应用的增多,越来越多的网站采用ajax来加载资源.因为异步加载的特性,地址栏 ...
SQL解读XML案例
ALTER PROCEDURE [dbo].[GetProductList1] @Products XML AS BEGIN SET NOCOUNT ON DECLARE @Pointer INT D ...
Euerka环境搭建
机器环境 windows10,IntelliJ IDEA 配置host 单节点Eureka 一.pom文件 <?xml version="1.0" encoding=&quo ...
JS encodeURIComponent函数
为了避免歧义,可以用JS 的encodeURIComponent函数将有歧义的字符(?+=等)转换成对应的ASCII编码 for(var i=0;i<whichform.elements.l ...
Aizu 2456 Usoperanto （贪心）
贪心,对于一个修饰关系可以连一条有向边,在合并的时候,子节点的序列一定是连续安排的,因为如果有交叉,交换以后一定更优. 然后一个序列一个序列的考虑,长度短的应该在前面,否则同样交换以后更优.因此排序以 ...
bzoj3887: [Usaco2015 Jan]Grass Cownoisseur
题意: 给一个有向图,然后选一条路径起点终点都为1的路径出来,有一次机会可以沿某条边逆方向走,问最多有多少个点可以被经过?(一个点在路径中无论出现多少正整数次对答案的贡献均为1) =>有向图我们 ...
Angular2--显示数据
1.插值表达式要显示组件的属性,最简单的方式就是通过插值表达式来绑定属性名.要使用插值表达式,就把属性名包裹在双花括号里放进视图模板,如 {{}} eg: <h1>{{ name }}& ...
subline 安装 package control
subline text2 输入 import urllib2,os,hashlib; h = '2915d1851351e5ee549c20394736b442' + '8bc59f460fa154 ...
javaweb基础(25)_jsp标签实例一
一.简单标签(SimpleTag) 由于传统标签使用三个标签接口来完成不同的功能,显得过于繁琐,不利于标签技术的推广, SUN公司为降低标签技术的学习难度,在JSP 2.0中定义了一个更为简单.便于编 ...

朴素贝叶斯python小样本实例

朴素贝叶斯python小样本实例的更多相关文章

随机推荐

热门专题