1.公式

上式中左边D是需要预测的测试数据属性,h是需要预测的类;右边式子分子是属性的条件概率和类别的先验概率,可以从统计训练数据中得到,分母对于所有实例都一样,可以不考虑,所有只需 ,返回最大概率的那个类别。但是如果测试数据中没有那个属性,整个预测概率会是0;此外,此式针对离散型属性进行训练,针对连续的数值型属性可以考虑分段,也可以假设其满足某种分布,比如正态分布,利用概率密度函数求概率。

2.部分改进

(1).针对测试数据中没有那个属性,可以平滑一下,比如下(针对非数值型属性):

上式中n是某个类别下的实例数,nc是此类别下的属性个数,m是此属性的取值个数,p是此属性取值出现的概率。比如一个属性:性别,取值男或女,则 m=2,p=1/2。

(2).针对连续的数值型属性,可以分段比如年龄0-10为A,10-30为B等;还可以假设它服从高斯分布(正态分布),利分布函数计算概率:

其中uij是某列数值型属性的均值,Qij是某列数值型属性样本标准差,Xi是数值属性。训练的时候只需要统计均值,样本标准差就行了,预测的时候利用。

3.python实现

 #!/usr/bin/python
# -*- coding: utf-8 -*- import codecs
import math class BayesClassifier: def __init__(self,dataFormat):
self.prior = {}#类别的先验概率
self.conditional = {}#属性的条件概率
# 输入的数据格式,attr表示非数值型属性,num表示数值型属性,class表示类别
self.format=dataFormat.strip().split('\t') #读取数据
def readData(self,dataFile):
total = 0#所有实例数
self.classes = {}#统计类别
self.counts = {}#用来统计
totals={}#统计数值型每列的和
numericValues={}#数值型每列值 with codecs.open(dataFile,'r','utf-8') as f:
for line in f:
fields=line.strip().split('\t')
fieldSize=len(fields)
vector=[]
nums=[]
for i in range(fieldSize):
if self.format[i]=='num':
nums.append(float(fields[i]))
elif self.format[i]=='attr':
vector.append(fields[i])
elif self.format[i]=='class':
category=fields[i]
total+=1
self.classes.setdefault(category,0)
self.counts.setdefault(category,{})
totals.setdefault(category,{})
numericValues.setdefault(category,{})
self.classes[category]+=1
#统计一条非数值型实例的属性
col=0
for columnValue in vector:
col+=1
self.counts[category].setdefault(col,{})
self.counts[category][col].setdefault(columnValue,0)
self.counts[category][col][columnValue]+=1
col=0
for columnValue in nums:
col+=1
totals[category].setdefault(col,0)
totals[category][col]+=columnValue
numericValues[category].setdefault(col,[])
numericValues[category][col].append(columnValue) #以上统计完成,计算类别先验概率和属性条件概率
#计算类的先验概率=此类的实例数/总的实例数
for category,count in self.classes.items():
self.prior[category]=count/total
#计算属性的条件概率=此类中属性数/此类实例数
for category,columns in self.counts.items():
self.conditional.setdefault(category,{})
for col,valueCounts in columns.items():
self.conditional[category].setdefault(col,{})
colSize=len(valueCounts)#这一列属性的取值个数(如性别取值为男和女,则colSize=2)
for attr,count in valueCounts.items():
#平滑一下
self.conditional[category][col][attr]=(count+colSize*1/colSize)/(self.classes[category]+colSize)
#在数值型列中计算均值和样本标准差
#每列的均值
self.means={}
self.totals=totals
for category,columns in totals.items():
self.means.setdefault(category,{})
for col,colSum in columns.items():
self.means[category][col]=colSum/self.classes[category]
#每列的标准差
self.std={}
for category,columns in numericValues.items():
self.std.setdefault(category,{})
for col,values in columns.items():
ssd=0
mean=self.means[category][col]
for value in values:
ssd+=(value-mean)**2
self.std[category][col]=math.sqrt(ssd/(self.classes[category]-1)) #分类,返回分类结果
def classify(self,itemVector):
results=[]
for category,prior in self.prior.items():
prob=prior
col=1
for attrValue in itemVector:
if self.format[col]=='attr':
# 如果预测数据没有这个属性,则平滑一下,不是返回0(返回0会导致整个预测结果为0)
if not attrValue in self.conditional[category][col]:
colSize=len(self.counts[category][col])
prob=prob*(0+colSize*1/colSize)/(self.classes[category]+colSize)
else:
prob=prob*self.conditional[category][col][attrValue]
#针对数值型,我们先得到该列均值与样本标准差,利用正态分布得到概率(假设该列数值满足正态分布)
elif self.format[col]=='num':
mean=self.means[category][col]
std=self.std[category][col]
prob=prob*self.gaussian(mean,std,attrValue)
col+=1
results.append((prob,category))
return max(results)[1] #高斯分布
def gaussian(self,mean,std,x):
sqrt2pi = math.sqrt(2 * math.pi)
ePart=math.pow(math.e,-(x-mean)**2/(2*std**2))
prob=(1.0/sqrt2pi*std)*ePart
return prob # 十折验证读取数据,prefix为文件名前缀,i作为测试集编号
def tenFoldReadData(self,prefix,testNumber):
total = 0 # 所有实例数
self.classes = {} # 统计类别
self.counts = {} # 用来统计
totals = {} # 统计数值型每列的和
numericValues = {} # 数值型每列值 for i in range(1,11):
if i!=testNumber:
filename='%s-%02s' % (prefix,i)
with codecs.open(filename, 'r', 'utf-8') as f:
for line in f:
fields = line.strip().split('\t')
fieldSize = len(fields)
vector = []
nums = []
for i in range(fieldSize):
if self.format[i] == 'num':
nums.append(float(fields[i]))
elif self.format[i] == 'attr':
vector.append(fields[i])
elif self.format[i] == 'class':
category = fields[i]
total += 1
self.classes.setdefault(category, 0)
self.counts.setdefault(category, {})
totals.setdefault(category, {})
numericValues.setdefault(category, {})
self.classes[category] += 1
# 统计一条非数值型实例的属性
col = 0
for columnValue in vector:
col += 1
self.counts[category].setdefault(col, {})
self.counts[category][col].setdefault(columnValue, 0)
self.counts[category][col][columnValue] += 1
col = 0
for columnValue in nums:
col += 1
totals[category].setdefault(col, 0)
totals[category][col] += columnValue
numericValues[category].setdefault(col, [])
numericValues[category][col].append(columnValue) # 以上统计完成,计算类别先验概率和属性条件概率
# 计算类的先验概率=此类的实例数/总的实例数
for category, count in self.classes.items():
self.prior[category] = count / total
# 计算属性的条件概率=此类中属性数/此类实例数
for category, columns in self.counts.items():
self.conditional.setdefault(category, {})
for col, valueCounts in columns.items():
self.conditional[category].setdefault(col, {})
colSize = len(valueCounts) # 这一列属性的取值个数(如性别取值为男和女,则colSize=2)
for attr, count in valueCounts.items():
# 平滑一下
self.conditional[category][col][attr] = (count + colSize * 1 / colSize) / (
self.classes[category] + colSize)
# 在数值型列中计算均值和样本标准差
# 每列的均值
self.means = {}
self.totals = totals
for category, columns in totals.items():
self.means.setdefault(category, {})
for col, colSum in columns.items():
self.means[category][col] = colSum / self.classes[category]
# 每列的标准差
self.std = {}
for category, columns in numericValues.items():
self.std.setdefault(category, {})
for col, values in columns.items():
ssd = 0
mean = self.means[category][col]
for value in values:
ssd += (value - mean) ** 2
self.std[category][col] = math.sqrt(ssd / (self.classes[category] - 1)) #利用十折交叉验证,测试一个桶中的数据,prefix为统计文件名前缀,testNumber为要测试的一个桶中的数据
def testOneBucket(self,prefix,testNumber):
filename='%s-%02i' % (prefix,testNumber)
totals={}
with codecs.open(filename,'r','utf-8') as f:
for line in f:
data=line.strip().split('\t')
itemVector=[]
classInColumn=-1
for i in range(len(self.format)):
if self.format[i]=='num':
itemVector.append(float(data[i]))
elif self.format[i]=='attr':
itemVector.append(data[i])
elif self.format[i]=='class':
classInColumn=i
realClass=data[classInColumn]#真实的类
classifiedClass=self.classify(itemVector)#预测的类
totals.setdefault(realClass,{})
totals[realClass].setdefault(classifiedClass,0)
totals[realClass][classifiedClass]+=1
return totals #十折交叉验证,prefix为十个文件名字的前缀,dataForamt为数据格式
def tenfold(prefix,dataFormat):
results={}
for i in range(1,11):
classify=BayesClassifier(dataFormat)
classify.tenFoldReadData(prefix,i)
totals=classify.testOneBucket(prefix,i)
for key,value in totals.items():
results.setdefault(key,{})
for ckey,cvalue in value.items():
results[key].setdefault(ckey,0)
results[key][ckey]+=cvalue
#结果展示
classes=list(results.keys())
classes.sort()
print( '\n classes as: ')
header=' '
subheader=' +'
for cls in classes:
header+='% 10s '% cls
subheader+='--------+'
print(header)
print(subheader)
total=0.0
correct=0.0
for cls in classes:
row=' %10s |' % cls
for c2 in classes:
if c2 in results[cls]:
count=results[cls][c2]
else:
count=0
row+=' %5i |' % count
total+=count
if c2==cls:
correct+=count
print(row)
print(subheader)
print('\n%5.3f 正确率' % ((correct*100/total)))
print('总共 %i 实例'% total) if __name__=='__main__':
#classify=BayesClassifier('num,num,num,num,num,num,num,num,class')
#classify.readData('dataFile')
#print(classify.classify([2,120,54,0,0,26.8,0.455,27]))
tenfold('dataFilePrefix','num,num,num,num,num,num,num,num,class')#十折交叉验证

python实现一个朴素贝叶斯分类方法的更多相关文章

  1. python 类属性与方法

    Python 类属性与方法 标签(空格分隔): Python Python的访问限制 Python支持面向对象,其对属性的权限控制通过属性名来实现,如果一个属性有双下划线开头(__),该属性就无法被外 ...

  2. Python执行系统命令的方法 os.system(),os.popen(),commands

    os.popen():用python执行shell的命令,并且返回了结果,括号中是写shell命令 Python执行系统命令的方法: https://my.oschina.net/renwofei42 ...

  3. python 调用 shell 命令方法

    python调用shell命令方法 1.os.system(cmd) 缺点:不能获取返回值 2.os.popen(cmd) 要得到命令的输出内容,只需再调用下read()或readlines()等   ...

  4. python 面向对象、特殊方法与多范式、对象的属性及与其他语言的差异

    1.python 面向对象 文章内容摘自:http://www.cnblogs.com/vamei/archive/2012/06/02/2532018.html   1.__init__() 创建对 ...

  5. python 字典内置方法get应用

    python字典内置方法get应用,如果我们需要获取字典值的话,我们有两种方法,一个是通过dict['key'],另外一个就是dict.get()方法. 今天给大家分享的就是字典的get()方法. 这 ...

  6. [转] python程序的调试方法

    qi09 原文 python程序的调试方法 本文讨论在没有方便的IDE工具可用的情况下,使用pdb调试python程序 源码例子 例如,有模拟税收计算的程序: #!/usr/bin/python de ...

  7. Python prettytable的使用方法

    Python prettytable的使用方法 prettytable可以整齐地输出一个表格信息: +-----------+------+------------+----------------- ...

  8. Python多线程及其使用方法

    [Python之旅]第六篇(三):Python多线程及其使用方法   python 多线程 多线程使用方法 GIL 摘要: 1.Python中的多线程     执行一个程序,即在操作系统中开启了一个进 ...

  9. Python学习笔记4-如何快速的学会一个Python的模块、方法、关键字

    想要快速的学会一个Python的模块和方法,两个函数必须要知道,那就是dir()和help() dir():能够快速的以集合的型式列出该模块下的所有内容(类.常量.方法)例: #--encoding: ...

随机推荐

  1. Idea中通过Git将代码同步到GitHub

    一.Idea中配置Git 点击IntelliJ IDEA->Preferences...->Version Control->Git->Path to Git executab ...

  2. Java 中的动态代理

    一.概述 1. 什么是代理 我们大家都知道微商代理,简单地说就是代替厂家卖商品,厂家“委托”代理为其销售商品.关于微商代理,首先我们从他们那里买东西时通常不知道背后的厂家究竟是谁,也就是说,“委托者” ...

  3. six库 解决python2的项目如何能够完全迁移到python3

    six库 解决python2的项目如何能够完全迁移到python3 SIX是用于python2与python3兼容的库. 它存在的目的是为了拥有无需修改即可在Python 2和Python 3上同时工 ...

  4. Python_3day

    循环 循环是一种控制语句块重复执行的结构 while 适用于广度遍历 for 开发中经常使用   while 循环 当一个条件保持真的时候while循环重复执行语句 while 循环一定要有结束条件, ...

  5. leecode刷题(23)-- 合并两个有序链表

    leecode刷题(23)-- 合并两个有序链表 合并两个有序链表 将两个有序链表合并为一个新的有序链表并返回.新链表是通过拼接给定的两个链表的所有节点组成的. 示例: 输入:1->2-> ...

  6. 使用TableSnapshotInputFormat读取Hbase快照数据

    根据快照名称读取hbase快照中的数据,在网上查了好多资料,很少有资料能够给出清晰的方案,根据自己的摸索终于实现,现将代码贴出,希望能给大家有所帮助: public void read(org.apa ...

  7. 小程序存emoji表情 不改变数据库

    1.小程序:提交前先编码 encodeURIComponent(data) 2.服务端解码(PHP) urldecode(data) 3.如果有空格字符串的,保存之前先对空格进行处理,不然空格在页面会 ...

  8. scrapy爬取猫眼电影排行榜

    做爬虫的人,一定离不开的一个框架就是scrapy框架,写小项目的时候可以用requests模块就能得到结果,但是当爬取的数据量大的时候,就一定要用到框架. 下面先练练手,用scrapy写一个爬取猫眼电 ...

  9. Webpack loaderUtils.parseQuery()

    https://blog.256pages.com/webpack-loaderutils-parsequery/

  10. postMessage解决iframe跨域问题

    转:https://juejin.im/post/5b8359f351882542ba1dcc31 https://juejin.im/post/590c3983ac502e006531df11 ht ...