机器学习实战之朴素贝叶斯进行文档分类（Python 代码版）

　　　　贝叶斯是搞概率论的。学术圈上有个贝叶斯学派。看起来吊吊的。关于贝叶斯是个啥网上有很多资料。想必读者基本都明了。我这里只简单概括下：贝叶斯分类其实就是基于先验概率的基础上的一种分类法，核心公式就是条件概率。举个俗气的例子，通过我们的以往观察，鲤鱼中尾巴是红色的占比达90%，鲫鱼中尾巴是红色的占比只有1%不到，那么新来了一条小鱼，他是鲤鱼还是鲫鱼呢？我看一下他的尾巴，发现是红色，根据过去的先验概率经验，它是鲤鱼的概率比较大，我认为它是鲤鱼。

　　这当时是个最简单的例子，实践中的问题就复杂了。比如说特征不止是尾巴红不红，还有鱼嘴巴大不大，鱼肥不肥，鱼身子长还是宽，各种，而且不是一个特征就能分辨出来的，还需要多方分析，然后贝爷感觉这个那个的真麻烦，就先假定每个特征都是独立的，如果一条鱼红尾巴大嘴巴肥得很还是长身子，就这样求她是鲤鱼的概率：鲤鱼中红尾巴0.9*鲤鱼中大嘴巴0.3*鲤鱼中肥猪0.6*鲤鱼中长身子0.4=0.27*0.24.。。。。

　　闲话少扯。上代码分析。我代码干的不是鱼的分类了，而是一篇文档。

from numpy import *

def loadDataSet():#这个函数呢，他建立了一个敏感词典，并打了标签，共6个词集合，其中2、4、6词集合中的词是敏感词

    postingList = [['my','dog','has','flea',\

                    'problems','help','please'],

                   ['maybe','not','take','him',\

                    'to','dog','park','stupid'],

                    ['my','dalmation','is','so','cute',\

                     'T','love','him'],

                    ['stop','posting','stupid','worthless','garbage'],

                    ['mr','licks','ate','my','steak','how',\

                     'to','stop','him'],

                    ['quit','buying','worthless','dog','food','stupid']]

    classVec = [0,1,0,1,0,1]

    return postingList,classVec

def createVocabList(dataSet):#这个函数呢，它是把输入的dataset（就是一个新文档嘛）进行分解处理，返回的是这个文档没有重复词的列表

    vocabSet = set([])

    for document in dataSet:

        vocabSet = vocabSet | set(document)

    return list(vocabSet)

def setOfWords2Vec(vocabList,inputSet):#这个函数呢，他就是根据输入的新文档，和词汇表，来对新文档打标签，看他有多少敏感词，只要是出现了词汇表里的词，就将标签打1，没有就默认为0

    returnVec = [0]*len(vocabList)

    for word in inputSet:

        if word in vocabList:

            returnVec[vocabList.index(word)] =1

        else :print ('the word: %s is not in my Vocabulary!' % word)

    return returnVec

def trainNB0(trainMatrix,trainCategory):

    numTrainDocs = len(trainMatrix)

    numWords = len(trainMatrix)

    pAbusive = sum(trainCategory) / float(numTrainDocs)

    p0Num = zeros(numWords)

    p1Num= zeros(numWords)

    p0Denom = 0.0;p1Denom = 0.0

    for i in range(numTrainDocs):

        if trainCategory[i] == 1:

            p1Num += trainMatrix[i]

            p1Denom += sum(trainMatrix[i])

        else:

            p0Num += trainMatrix[i]

            p0Denom += sum(trainMatrix[i])

    p1Vect = p1Num/p1Denom

    p0Vect = p0Num /p0Denom

    return p0Vect,p1Vect,pAbusive

def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
    p1= sum(vec2Classify * p1Vec) + log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else :
        return 0
def testingNB():
    listOPosts,listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList,postinDoc))
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
    testEntry = ['love','my','dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList,testEntry))
    print (testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))
    testEntry = ['stupid','garbage']
    thisDoc = array(setOfWords2Vec(myVocabList,testEntry))
    print (testEntry,'classified as :',classifyNB(thisDoc,p0V,p1V,pAb))
def bagOfWords2VecMN(vocabList,inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] +=1
    return returnVec
def textParse(bigString):
    import re
    listOfTokens = re.split(r'\W*',bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) >2]
def spamTest():
    docList = []; classList = [];fullText = []
    for i in range(1,26):
        wordList = textParse(open('E:/数据挖掘/MLiA_SourceCode/machinelearninginaction/Ch04/email/spam/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
     #   print('zhe li de i shi %d,',  i)
        wordList = textParse(open('E:/数据挖掘/MLiA_SourceCode/machinelearninginaction/Ch04/email/ham/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)
    trainingSet = list(range(50));testSet=[]
    for i in range(10):
        randIndex  = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat=[];trainClasses=[]
    for docIndex in trainingSet:
        trainMat.append(setOfWords2Vec(vocabList,docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))
    errorCount=0
    for docIndex in testSet:
        wordVector = setOfWords2Vec(vocabList,docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam) !=classList[docIndex]:
            errorCount +=1
    print ('the error rate is :',float(errorCount)/len(testSet))

机器学习实战之朴素贝叶斯进行文档分类（Python 代码版）的更多相关文章

04机器学习实战之朴素贝叶斯scikit-learn实现
In [8]: import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl from sklearn.pre ...
Python机器学习笔记：朴素贝叶斯算法
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...
【机器学习实战笔记(3-2)】朴素贝叶斯法及应用的python实现
文章目录 1.朴素贝叶斯法的Python实现 1.1 准备数据:从文本中构建词向量 1.2 训练算法:从词向量计算概率 1.3 测试算法:根据现实情况修改分类器 1.4 准备数据:文档词袋模型 2.示 ...
Python实现机器学习算法：朴素贝叶斯算法
''' 数据集:Mnist 训练集数量:60000 测试集数量:10000 ''' import numpy as np import time def loadData(fileName): ''' ...
机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归
朴素贝叶斯: 是使用概率论来分类的算法.其中朴素:各特征条件独立:贝叶斯:根据贝叶斯定理.这里,只要分别估计出,特征 Χi 在每一类的条件概率就可以了.类别 y 的先验概率可以通过训练集算出 k-近邻 ...
朴素贝叶斯算法源码分析及代码实战【python sklearn/spark ML】
一.简介贝叶斯定理是关于随机事件A和事件B的条件概率的一个定理.通常在事件A发生的前提下事件B发生的概率,与在事件B发生的前提下事件A发生的概率是不一致的.然而,这两者之间有确定的关系,贝叶斯定理就 ...
吴裕雄--天生自然python机器学习：使用朴素贝叶斯过滤垃圾邮件
使用朴素贝叶斯解决一些现实生活中的问题时,需要先从文本内容得到字符串列表,然后生成词向量. 准备数据:切分文本测试算法:使用朴素贝叶斯进行交叉验证文件解析及完整的垃圾邮件测试函数 def cre ...
python实现随机森林、逻辑回归和朴素贝叶斯的新闻文本分类
实现本文的文本数据可以在THUCTC下载也可以自己手动爬虫生成, 本文主要参考:https://blog.csdn.net/hao5335156/article/details/82716923 nb ...
详解基于朴素贝叶斯的情感分析及 Python 实现
相对于「基于词典的分析」,「基于机器学习」的就不需要大量标注的词典,但是需要大量标记的数据,比如: 还是下面这句话,如果它的标签是: 服务质量 - 中 (共有三个级别,好.中.差) ╮(╯-╰ ...

随机推荐

ALGO-143_蓝桥杯_算法训练_字符串变换
问题描述相信经过这个学期的编程训练,大家对于字符串的操作已经掌握的相当熟练了.今天,徐老师想测试一下大家对于字符串操作的掌握情况.徐老师自己定义了1,,,,5这5个参数分别指代不同的5种字符串操作, ...
python3实现mysql导出excel
Mysql中'employee'表内容如下: # __Desc__ = 从数据库中导出数据到excel数据表中 import xlwt import pymysql class MYSQL: def ...
vue聊天功能之滚动条自动定位到底部
一.问题描述首次进入聊天窗口,数据加载之后先显示最早消息,后显示最新消息,也就是数据加载完之后,延迟了一个时间滚动条才自动定位到最底部. 二.解决方案如果数据在刚好加载完的时候滚动条就定位到了最底 ...
vc++获取网页源码之使用import+接口方式
1.使用IWinHttpRequest获取网页源码首先要创建基于对话框的mfc应用程序 2.import+接口方式首先导入winhttp.dll,使用IWinHttpRequest接口 #impo ...
Java-Runoob-高级教程-实例-数组：14. Java 实例 – 在数组中查找指定元素
ylbtech-Java-Runoob-高级教程-实例-数组:14. Java 实例 – 在数组中查找指定元素 1.返回顶部 1. Java 实例 - 在数组中查找指定元素 Java 实例以下实例 ...
Linux下统计局域网流量
1:统计10.86.0.0/16网段的内网流量情况将下面脚本保存成文件traffic-lan.sh(运行后需要等待10秒抓包) tcpdump -nqt src net and dst net ! ...
进程优先和ACL
linux上进程有5种状态: 1. 运行(正在运行或在运行队列中等待) 2. 中断(休眠中, 受阻, 在等待某个条件的形成或接受到信号) 3. 不可中断(收到信号不唤醒和不可运行, 进程必须等待直到有 ...
windows下GitHub的安装、配置以及项目的上传过程详细介绍
概要本文主要介绍了在Win10系统中安装Github终端.如何配置安装好的Git终端以及如何利用Git终端将自己的项目上传到远程服务器中操作必备 win10系统电脑一台.良好的互联网连接.GitH ...
Jmeter（六）Jmeter脚本包含要素及书写习惯
Jmeter有丰富的组件,逻辑控制器.配置原件.Sampler.定时器.前置处理器.后置处理器.断言.监听器:而编写脚本一定要养成个人习惯,让人看到Jmeter的脚本目录结构树能够一目了然:因此,首先 ...
[UE4]Make Array创建数组，而不是定义数组
当不想新建一个数组对象的时候,就可以使用“Make Array”创建一个数组

机器学习实战之朴素贝叶斯进行文档分类（Python 代码版）

机器学习实战之朴素贝叶斯进行文档分类（Python 代码版）的更多相关文章

随机推荐

热门专题