机器学习：朴素贝叶斯--python

今天介绍机器学习中一种基于概率的常见的分类方法，朴素贝叶斯，之前介绍的KNN, decision tree 等方法是一种 hard decision，因为这些分类器的输出只有0 或者 1，朴素贝叶斯方法输出的是某一类的概率，其取值范围在 0-1 之间，朴素贝叶斯在做文本分类，或者说垃圾邮件识别的时候非常有效。

朴素贝叶斯就是基于我们常用的贝叶斯定理：

p(x|y)=p(y|x)p(x)p(y)

假设我们要处理一个二分类问题： c1,c2，给定一个样本，比如说是一封邮件，可以用向量 x 来表示，邮件就是一个文本，而文本是由单词构成的，所以 x 其实包含了这封邮件里出现的单词的信息，我们要求的就是，给定样本 x ，我们需要判断这个样本是属于 c1 还是属于 c2，当然，我们可以用概率表示为：

p(c1|x)>=<p(c2|x)

这个就是我们常见的后验概率。根据贝叶斯定理，我们可以得到：

p(c|x)=p(x|c)p(c)p(x)

虽然，p(x) 我们无法得知，但是我们只要求出 p(x|c)p(c), 依然可以做出判断，p(x|c) 称为似然估计，而 p(c) 称为先验概率。

接下来，看看什么是朴素贝叶斯，假设 x 的维度为 n，即 x={x1,x2,...xn}, 那么，

p(x|c)=p(x1,x2,...xn|c)

一般来说，x1,x2,...xn 不会是完全相互独立不相关的，为了求解方便，朴素贝叶斯假设这些变量 x1,x2,...xn 是相互独立，或者说conditional independent , 那么上面的表达式可以写成：

p(x|c)=p(x1,x2,...xn|c)=p(x1|c)p(x2|c)...p(xn|c)

这就是我们说的朴素贝叶斯，接下来的就是各种统计了。

我们给出一个利用朴素贝叶斯做文本分类的例子：

首先建立一个数据库：

def Load_dataset():

    postingList=[['my', 'dog', 'has', 'flea', \

                  'problems', 'help', 'please'],

                ['maybe', 'not', 'take', 'him', \

                 'to', 'dog', 'park', 'stupid'],

                ['my', 'dalmation', 'is', 'so', 'cute', \

                 'I', 'love', 'him'],

                ['stop', 'posting', 'stupid', 'worthless', 'garbage'],

                ['mr', 'licks', 'ate', 'my', 'steak', 'how',\

                 'to', 'stop', 'him'],

                ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

    classVec = [0, 1, 0, 1, 0, 1]

    return postingList, classVec

接下来，我们建立一个字典库，保证每一个单词在这个字典库里都有一个位置索引，一般来说，字典库的大小，就是我们样本的维度大小：

def Create_vocablist(dataset):

    vocabSet = set([])

    for document in dataset :

        vocabSet = vocabSet | set(document)

    return list(vocabSet)

我们可以将样本转成向量：一种方法是只统计该单词是否出现，另外一种是可以统计该单词出现的次数。

def Word2Vec(vocabList, inputSet):

    returnVec = [0] * len(vocabList)

    for word in inputSet :

        if word in vocabList :

            returnVec[vocabList.index(word)] = 1

        else:

            print ("the word %s is not in the vocabulary" % word)

    return returnVec

def BoW_Vec(vocabList, inputSet):

    returnVec = [0] * len(vocabList)

    for word in inputSet :

        if word in vocabList :

            returnVec[vocabList.index(word)] += 1

        else:

            print ("the word %s is not in the vocabulary" % word)

    return returnVec

接下来，我们建立分类器：这里需要注意的是，由于概率都是 0-1 之间的数，连续的相乘，会让最终结果趋于0，所以我们可以把概率相乘转到对数域的相加：

def Train_NB(trainMat, trainClass) :

    Num_doc = len(trainMat)

    Num_word = len(trainMat[0])

    P_1 = sum(trainClass) / float(Num_doc)

    P0_num = np.zeros(Num_word) + 1

    P1_num = np.zeros(Num_word) + 1

    P0_deno = 2.0

    P1_deno = 2.0

    for i in range(Num_doc):

        if trainClass[i] == 1:

            P1_num += trainMat[i]

            P1_deno +=sum(trainMat[i])

        else:

            P0_num += trainMat[i]

            P0_deno += sum(trainMat[i])

    P1_vec = np.log(P1_num / P1_deno)

    P0_vec = np.log(P0_num / P0_deno)

    return P_1, P1_vec, P0_vec

def Classify_NB(testVec, P0_vec, P1_vec, P1):

    p1 = sum(testVec * P1_vec) + math.log(P1)

    p0 = sum(testVec * P0_vec) + math.log(1-P1)

    if p1 > p0:

        return 1

    else:

        return 0

def Text_parse(longstring):

    import re

    regEx = re.compile(r'\W*')

    Listoftokens = regEx.split(longstring)

    return [tok.lower() for tok in Listoftokens if len(tok)>0]

#    return Listoftokens

这里给出简单的测试：

test_string = 'This book is the best book on Python or M.L.\

 I have ever laid eyes upon.'

wordList = Text_parse(test_string)

Mydata, classVec = Load_dataset()

'''

Doc_list = []

Full_list = []

for i in range (len(Mydata)):

    Doc_list.append(Mydata[i])

    Full_list.extend(Mydata[i])

'''

Vocablist = Create_vocablist(Mydata)

Wordvec = Word2Vec(Vocablist, Mydata[0])

trainMat = []

for doc in Mydata:

    trainMat.append(Word2Vec(Vocablist, doc))

P_1, P1_vec, P0_vec = Train_NB(trainMat, classVec)

print Mydata

print classVec

print wordList

机器学习：朴素贝叶斯--python的更多相关文章

朴素贝叶斯python代码实现（西瓜书）
朴素贝叶斯python代码实现(西瓜书) 摘要: 朴素贝叶斯也是机器学习中一种非常常见的分类方法,对于二分类问题,并且数据集特征为离散型属性的时候, 使用起来非常的方便.原理简单,训练效率高,拟合效果 ...
Python之机器学习-朴素贝叶斯(垃圾邮件分类)
目录朴素贝叶斯(垃圾邮件分类) 邮箱训练集下载地址模块导入文本预处理遍历邮件训练模型测试模型朴素贝叶斯(垃圾邮件分类) 邮箱训练集下载地址邮箱训练集可以加我微信:nickchen121 ...
朴素贝叶斯python实现
概率论是非常多机器学习算法基础,朴素贝叶斯分类器之所以称为朴素,是由于整个形式化过程中仅仅做最原始.简单的如果. (这个如果:问题中有非常多特征,我们简单如果一个个特征是独立的.该如果称做条件独立性, ...
朴素贝叶斯python小样本实例
朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感适用数据类型:标称型数据朴素贝叶斯决策理论的核心思想:选择具有最高概率的决策朴素贝叶斯的一般过程(1) ...
spark 机器学习朴素贝叶斯实现(二)
已知10月份10-22日网球场地,会员打球情况通过朴素贝叶斯算法,预测23,24号是否适合打网球.结果,日期,天气温度风速结果(0否,1是)天气(0晴天,1阴天,2下雨)温度(0热,1舒适,2冷) ...
spark 机器学习朴素贝叶斯原理(一)
朴素贝叶斯算法仍然是流行的挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题,如客户是否流失.是否值得投资.信用等级评定等多分类问题.该算法的优点在于简单易懂.学习效率高.在某些领域的分类问题中 ...
统计学习方法（李航）朴素贝叶斯python实现
朴素贝叶斯法首先训练朴素贝叶斯模型,对应算法4.1(1),分别计算先验概率及条件概率,分别存在字典priorP和condP中(初始化函数中定义).其中,计算一个向量各元素频率的操作反复出现,定义为c ...
机器学习---朴素贝叶斯与逻辑回归的区别（Machine Learning Naive Bayes Logistic Regression Difference）
朴素贝叶斯与逻辑回归的区别: 朴素贝叶斯逻辑回归生成模型(Generative model) 判别模型(Discriminative model) 对特征x和目标y的联合分布P(x,y)建模,使用 ...
机器学习朴素贝叶斯 SVC对新闻文本进行分类
朴素贝叶斯分类器模型(Naive Bayles) Model basic introduction: 朴素贝叶斯分类器是通过数学家贝叶斯的贝叶斯理论构造的,下面先简单介绍贝叶斯的几个公式: 先验概率: ...

随机推荐

win7 iis6怎么部署.net网站
win7 iis6怎么部署.net网站,把本机当成网站服务器来简单介绍. 方法/步骤 1 首先在本机有一个可以正常运行的网站.比如vs2010中有一个网站项目,网站项目运行后正常. 2 打开iis6, ...
Java开启/关闭tomcat服务器
© 版权声明:本文为博主原创文章,转载请注明出处通过java代码实现Tomcat的开启与关闭 1.项目结构 2.CallTomcat.java package com.calltomcat.test ...
（LeetCode）两个链表的第一个公共节点
LeetCode上面的题目例如以下: Write a program to find the node at which the intersection of two singly linked l ...
jQuery--基础(实例)
jQuery的操作方法并不需要都记下来,但是使用什么功能需要什么样的方法,我们是一定会知道的.所以写实例来进行对功能方法的练习和熟练,是最快能够掌握jQuery的方法. <!DOCTYPE ht ...
linux的MACHINE_START-MACHINE_END（转）
转自: http://blog.sina.com.cn/s/blog_753fd0b00100t8js.html 在友善mini2440提供的linux2.6.32.2内核中,有如下定义: MACHI ...
在VMware下安装CentOS系列1：配置VMware
安装环境 VMware Workstation v9.0.0 build-812388 CentOS-6.3-x86_64-minimal.iso minimal,bin-DVD,netinstall ...
iOS中用UIWebView的loadHTMLString后图片和文字失调解决方法
iOS中用UIWebView的loadHTMLString后图片和文字失调,图片过大,超过屏幕,文字太小.或者图片太小.文字太大,总之就是不协调. 我们的需求是让图片的大小跟着屏幕的变化而变化.就是动 ...
mfc 小程序---在系统菜单中添加菜单项
1建立一个对话框工程:在dlg类里定义一个菜单指针m_pMenu,在对话框OnInitDialog函数里添加代码: m_pMenu=GetSystemMenu(FALSE);//获取系统菜单的指针 m ...
mongo 介绍
[介绍]:MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统.在高负载的情况下,添加更多的节点,可以保证服务器性能.MongoDB 旨在为WEB应用提供可扩展的高性能数据存 ...
php部分--题目：投票重点：两个div套用，显示百分比；
1.建立两个表格:要显示百分比的话,就要在选项表中加上一列标记number 2.链接数据库,并对题目和选项进行显示 <?php $db=new MySQLi("localhost&qu ...

机器学习：朴素贝叶斯--python

机器学习：朴素贝叶斯--python的更多相关文章

随机推荐

热门专题