python实现一个朴素贝叶斯分类方法
1.公式
上式中左边D是需要预测的测试数据属性,h是需要预测的类;右边式子分子是属性的条件概率和类别的先验概率,可以从统计训练数据中得到,分母对于所有实例都一样,可以不考虑,所有只需 ,返回最大概率的那个类别。但是如果测试数据中没有那个属性,整个预测概率会是0;此外,此式针对离散型属性进行训练,针对连续的数值型属性可以考虑分段,也可以假设其满足某种分布,比如正态分布,利用概率密度函数求概率。
2.部分改进
(1).针对测试数据中没有那个属性,可以平滑一下,比如下(针对非数值型属性):
上式中n是某个类别下的实例数,nc是此类别下的属性个数,m是此属性的取值个数,p是此属性取值出现的概率。比如一个属性:性别,取值男或女,则 m=2,p=1/2。
(2).针对连续的数值型属性,可以分段比如年龄0-10为A,10-30为B等;还可以假设它服从高斯分布(正态分布),利分布函数计算概率:
其中uij是某列数值型属性的均值,Qij是某列数值型属性样本标准差,Xi是数值属性。训练的时候只需要统计均值,样本标准差就行了,预测的时候利用。
3.python实现
#!/usr/bin/python
# -*- coding: utf-8 -*- import codecs
import math class BayesClassifier: def __init__(self,dataFormat):
self.prior = {}#类别的先验概率
self.conditional = {}#属性的条件概率
# 输入的数据格式,attr表示非数值型属性,num表示数值型属性,class表示类别
self.format=dataFormat.strip().split('\t') #读取数据
def readData(self,dataFile):
total = 0#所有实例数
self.classes = {}#统计类别
self.counts = {}#用来统计
totals={}#统计数值型每列的和
numericValues={}#数值型每列值 with codecs.open(dataFile,'r','utf-8') as f:
for line in f:
fields=line.strip().split('\t')
fieldSize=len(fields)
vector=[]
nums=[]
for i in range(fieldSize):
if self.format[i]=='num':
nums.append(float(fields[i]))
elif self.format[i]=='attr':
vector.append(fields[i])
elif self.format[i]=='class':
category=fields[i]
total+=1
self.classes.setdefault(category,0)
self.counts.setdefault(category,{})
totals.setdefault(category,{})
numericValues.setdefault(category,{})
self.classes[category]+=1
#统计一条非数值型实例的属性
col=0
for columnValue in vector:
col+=1
self.counts[category].setdefault(col,{})
self.counts[category][col].setdefault(columnValue,0)
self.counts[category][col][columnValue]+=1
col=0
for columnValue in nums:
col+=1
totals[category].setdefault(col,0)
totals[category][col]+=columnValue
numericValues[category].setdefault(col,[])
numericValues[category][col].append(columnValue) #以上统计完成,计算类别先验概率和属性条件概率
#计算类的先验概率=此类的实例数/总的实例数
for category,count in self.classes.items():
self.prior[category]=count/total
#计算属性的条件概率=此类中属性数/此类实例数
for category,columns in self.counts.items():
self.conditional.setdefault(category,{})
for col,valueCounts in columns.items():
self.conditional[category].setdefault(col,{})
colSize=len(valueCounts)#这一列属性的取值个数(如性别取值为男和女,则colSize=2)
for attr,count in valueCounts.items():
#平滑一下
self.conditional[category][col][attr]=(count+colSize*1/colSize)/(self.classes[category]+colSize)
#在数值型列中计算均值和样本标准差
#每列的均值
self.means={}
self.totals=totals
for category,columns in totals.items():
self.means.setdefault(category,{})
for col,colSum in columns.items():
self.means[category][col]=colSum/self.classes[category]
#每列的标准差
self.std={}
for category,columns in numericValues.items():
self.std.setdefault(category,{})
for col,values in columns.items():
ssd=0
mean=self.means[category][col]
for value in values:
ssd+=(value-mean)**2
self.std[category][col]=math.sqrt(ssd/(self.classes[category]-1)) #分类,返回分类结果
def classify(self,itemVector):
results=[]
for category,prior in self.prior.items():
prob=prior
col=1
for attrValue in itemVector:
if self.format[col]=='attr':
# 如果预测数据没有这个属性,则平滑一下,不是返回0(返回0会导致整个预测结果为0)
if not attrValue in self.conditional[category][col]:
colSize=len(self.counts[category][col])
prob=prob*(0+colSize*1/colSize)/(self.classes[category]+colSize)
else:
prob=prob*self.conditional[category][col][attrValue]
#针对数值型,我们先得到该列均值与样本标准差,利用正态分布得到概率(假设该列数值满足正态分布)
elif self.format[col]=='num':
mean=self.means[category][col]
std=self.std[category][col]
prob=prob*self.gaussian(mean,std,attrValue)
col+=1
results.append((prob,category))
return max(results)[1] #高斯分布
def gaussian(self,mean,std,x):
sqrt2pi = math.sqrt(2 * math.pi)
ePart=math.pow(math.e,-(x-mean)**2/(2*std**2))
prob=(1.0/sqrt2pi*std)*ePart
return prob # 十折验证读取数据,prefix为文件名前缀,i作为测试集编号
def tenFoldReadData(self,prefix,testNumber):
total = 0 # 所有实例数
self.classes = {} # 统计类别
self.counts = {} # 用来统计
totals = {} # 统计数值型每列的和
numericValues = {} # 数值型每列值 for i in range(1,11):
if i!=testNumber:
filename='%s-%02s' % (prefix,i)
with codecs.open(filename, 'r', 'utf-8') as f:
for line in f:
fields = line.strip().split('\t')
fieldSize = len(fields)
vector = []
nums = []
for i in range(fieldSize):
if self.format[i] == 'num':
nums.append(float(fields[i]))
elif self.format[i] == 'attr':
vector.append(fields[i])
elif self.format[i] == 'class':
category = fields[i]
total += 1
self.classes.setdefault(category, 0)
self.counts.setdefault(category, {})
totals.setdefault(category, {})
numericValues.setdefault(category, {})
self.classes[category] += 1
# 统计一条非数值型实例的属性
col = 0
for columnValue in vector:
col += 1
self.counts[category].setdefault(col, {})
self.counts[category][col].setdefault(columnValue, 0)
self.counts[category][col][columnValue] += 1
col = 0
for columnValue in nums:
col += 1
totals[category].setdefault(col, 0)
totals[category][col] += columnValue
numericValues[category].setdefault(col, [])
numericValues[category][col].append(columnValue) # 以上统计完成,计算类别先验概率和属性条件概率
# 计算类的先验概率=此类的实例数/总的实例数
for category, count in self.classes.items():
self.prior[category] = count / total
# 计算属性的条件概率=此类中属性数/此类实例数
for category, columns in self.counts.items():
self.conditional.setdefault(category, {})
for col, valueCounts in columns.items():
self.conditional[category].setdefault(col, {})
colSize = len(valueCounts) # 这一列属性的取值个数(如性别取值为男和女,则colSize=2)
for attr, count in valueCounts.items():
# 平滑一下
self.conditional[category][col][attr] = (count + colSize * 1 / colSize) / (
self.classes[category] + colSize)
# 在数值型列中计算均值和样本标准差
# 每列的均值
self.means = {}
self.totals = totals
for category, columns in totals.items():
self.means.setdefault(category, {})
for col, colSum in columns.items():
self.means[category][col] = colSum / self.classes[category]
# 每列的标准差
self.std = {}
for category, columns in numericValues.items():
self.std.setdefault(category, {})
for col, values in columns.items():
ssd = 0
mean = self.means[category][col]
for value in values:
ssd += (value - mean) ** 2
self.std[category][col] = math.sqrt(ssd / (self.classes[category] - 1)) #利用十折交叉验证,测试一个桶中的数据,prefix为统计文件名前缀,testNumber为要测试的一个桶中的数据
def testOneBucket(self,prefix,testNumber):
filename='%s-%02i' % (prefix,testNumber)
totals={}
with codecs.open(filename,'r','utf-8') as f:
for line in f:
data=line.strip().split('\t')
itemVector=[]
classInColumn=-1
for i in range(len(self.format)):
if self.format[i]=='num':
itemVector.append(float(data[i]))
elif self.format[i]=='attr':
itemVector.append(data[i])
elif self.format[i]=='class':
classInColumn=i
realClass=data[classInColumn]#真实的类
classifiedClass=self.classify(itemVector)#预测的类
totals.setdefault(realClass,{})
totals[realClass].setdefault(classifiedClass,0)
totals[realClass][classifiedClass]+=1
return totals #十折交叉验证,prefix为十个文件名字的前缀,dataForamt为数据格式
def tenfold(prefix,dataFormat):
results={}
for i in range(1,11):
classify=BayesClassifier(dataFormat)
classify.tenFoldReadData(prefix,i)
totals=classify.testOneBucket(prefix,i)
for key,value in totals.items():
results.setdefault(key,{})
for ckey,cvalue in value.items():
results[key].setdefault(ckey,0)
results[key][ckey]+=cvalue
#结果展示
classes=list(results.keys())
classes.sort()
print( '\n classes as: ')
header=' '
subheader=' +'
for cls in classes:
header+='% 10s '% cls
subheader+='--------+'
print(header)
print(subheader)
total=0.0
correct=0.0
for cls in classes:
row=' %10s |' % cls
for c2 in classes:
if c2 in results[cls]:
count=results[cls][c2]
else:
count=0
row+=' %5i |' % count
total+=count
if c2==cls:
correct+=count
print(row)
print(subheader)
print('\n%5.3f 正确率' % ((correct*100/total)))
print('总共 %i 实例'% total) if __name__=='__main__':
#classify=BayesClassifier('num,num,num,num,num,num,num,num,class')
#classify.readData('dataFile')
#print(classify.classify([2,120,54,0,0,26.8,0.455,27]))
tenfold('dataFilePrefix','num,num,num,num,num,num,num,num,class')#十折交叉验证
python实现一个朴素贝叶斯分类方法的更多相关文章
- python 类属性与方法
Python 类属性与方法 标签(空格分隔): Python Python的访问限制 Python支持面向对象,其对属性的权限控制通过属性名来实现,如果一个属性有双下划线开头(__),该属性就无法被外 ...
- Python执行系统命令的方法 os.system(),os.popen(),commands
os.popen():用python执行shell的命令,并且返回了结果,括号中是写shell命令 Python执行系统命令的方法: https://my.oschina.net/renwofei42 ...
- python 调用 shell 命令方法
python调用shell命令方法 1.os.system(cmd) 缺点:不能获取返回值 2.os.popen(cmd) 要得到命令的输出内容,只需再调用下read()或readlines()等 ...
- python 面向对象、特殊方法与多范式、对象的属性及与其他语言的差异
1.python 面向对象 文章内容摘自:http://www.cnblogs.com/vamei/archive/2012/06/02/2532018.html 1.__init__() 创建对 ...
- python 字典内置方法get应用
python字典内置方法get应用,如果我们需要获取字典值的话,我们有两种方法,一个是通过dict['key'],另外一个就是dict.get()方法. 今天给大家分享的就是字典的get()方法. 这 ...
- [转] python程序的调试方法
qi09 原文 python程序的调试方法 本文讨论在没有方便的IDE工具可用的情况下,使用pdb调试python程序 源码例子 例如,有模拟税收计算的程序: #!/usr/bin/python de ...
- Python prettytable的使用方法
Python prettytable的使用方法 prettytable可以整齐地输出一个表格信息: +-----------+------+------------+----------------- ...
- Python多线程及其使用方法
[Python之旅]第六篇(三):Python多线程及其使用方法 python 多线程 多线程使用方法 GIL 摘要: 1.Python中的多线程 执行一个程序,即在操作系统中开启了一个进 ...
- Python学习笔记4-如何快速的学会一个Python的模块、方法、关键字
想要快速的学会一个Python的模块和方法,两个函数必须要知道,那就是dir()和help() dir():能够快速的以集合的型式列出该模块下的所有内容(类.常量.方法)例: #--encoding: ...
随机推荐
- 为什么 ConcurrentHashMap 的读操作不需要加锁?
现在人工智能非常火爆,很多朋友都想学,但是一般的教程都是为博硕生准备的,太难看懂了.最近发现了一个非常适合小白入门的教程,不仅通俗易懂而且还很风趣幽默.所以忍不住分享一下给大家 ConcurrentH ...
- 300英雄的危机(heroes)
题面 正解与图书馆馆长的考验一致,都是分层图SPFA: #include <iostream> #include <cstdio> #include <cstring&g ...
- ARM Cortex-M 系列 MCU 错误追踪库 心得
一. 感谢CmBacktrace开源项目,git项目网站:https://github.com/armink/CmBacktrace 二. 移植CmBacktrace 2.1 准备好CmBacktra ...
- Manacher模版
现在讲的也是一种处理字符串的方法,叫做Manacher,有点像“马拉车” 1179: [视频][Manacher]最长回文子串 时间限制: 1 Sec 内存限制: 128 MB提交: 209 解决 ...
- 二维数组中的查找——牛客剑指offer
题目描述: 在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序.请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整 ...
- js中onchange()的使用,实现功能,选择哪一张图片,显示哪一张
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
- C# 连接 Oracle数据库增删改查,事务
一. 前情提要 一般.NET环境连接Oracle数据库,是通过 TNS/SQL.NET 配置文件,而 TNS 必须要 Oracle 客户端(如果连接的是服务器的数据库,本地还要装一个 client , ...
- vue 组件基本使用
组件的基本使用 注册组件 注册组件就是利用Vue.component()方法,先传入一个自定义组件的名字,然后传入这个组件的配置.vue.component()注册的全局组件 Vue.componen ...
- js特效背景--点线随着鼠标移动而改变
https://blog.csdn.net/css33/article/details/89450852 https://www.cnblogs.com/qq597585136/p/7019755.h ...
- Nginx默认配置语法
Nginx默认配置语法 1. 我们进入 /etc/nginx/目录下,打开 nginx.conf文件 2. 我们来解析下 这里面标签和各模块的作用 # 设置nginx服务的系统使用用户 user ...