Python3 贝叶斯分类

 # -*- coding: utf-8 -*-

 """

 Created on Tue Jan 16 20:11:07 2018

 @author: markli

 """

 import numpy as np;

 import pandas as pd;

 """

 贝叶斯分类

 训练数据格式

 X = [x1,x2,...xm]; m*n

 xi = [xi1,xi2,...xin].T

 Y = [y1,y2,...ym];1*m

 """

 class Bayes:

     def __init__(self,lamda,region):

         """

         lamda 贝叶斯修正参数

         region 特征属性取值域，类标签取值域

         例如两个特征取值范围分别为，A1=[1,2,3],A2=['S','M','L']

         类标签取值：C=[1,-1]，region=[A1,A2,C]

         """

         self.lamda = lamda;

         #存放类标签域

         self.Y = region[-1];

         #存放特征取值域

         self.X = region[:-1];

         #存放先验概率 P(Y = Ck)

         self.PrioPro = np.zeros((1,len(region[-1])));

         #存放条件概率 P(Xj = ajl | Y = Ck)

         self.ConditionalPro = [];

         for i in range(len(region)-1):

             cp = np.zeros((len(region[-1]),len(region[i])));

             self.ConditionalPro.append(cp);

     def fit(self,TrainData):

         """

         计算先验概率和条件概率，建立模型

         TrainData 为二维数组

         TrainData 列的顺序与region中特征属性顺序一致

         TrainData 最后一列为类别

         """

         N = len(TrainData);

         K = len(self.Y);

         TrainData = TrainData.astype(np.str);

         NumofCk = pd.value_counts(TrainData[:,-1], sort=True); #Series 类型

         CountOfCk = [NumofCk[ck] for ck in self.Y]; #list类型

         self.PrioPro = [(ck+self.lamda) / (N + K * self.lamda) for ck in CountOfCk];

         j=0;

         for ck in self.Y:

             #选出类别为Ck的数据

             DataofCk = TrainData[np.where(TrainData[:,-1]==ck)];

             n = len(DataofCk);

             #选出第i个特征的数据

             for i in range(len(self.X)):

                 DataofCkandXi = DataofCk[:,i];

                 Numofaj = pd.value_counts(DataofCkandXi,sort=True); #为第i个特征的每个特征值计数

                 Countofaj = [Numofaj[aj] for aj in self.X[i]];

                 S = len(self.X[i]);

                 self.ConditionalPro[i][j] = [(aj+self.lamda) / (n+S * self.lamda) for aj in Countofaj];

             j = j+1;

     def predict(self,TestData):

         """

         预测实例，为其分类

         测试数据没有类别列，其余数据格式与训练数据格式一致

         """

         predictY = [];

         for i in range(len(TestData)):

             x = TestData[i];

             y = self.GetLable(x);

             predictY.append(y);

         return predictY;

     def GetLable(self,x):

         """

         输入一个测试实例x ，输出使其后验概率最大的类别y

         """

         pro = [];

         n = len(x);

         for j in range(len(self.Y)):

             p = 1;

             for i in range(n):

                 feature = self.ConditionalPro[i];

                 fi = self.X[i] #获得第i个特征的值域

                 index = fi.index(x[i]);

                 p = p * feature[j][index];

             p = p * self.PrioPro[j];

             pro.append(p);

         y = self.Y[np.argmax(pro)];

         return y;

测试代码

 # -*- coding: utf-8 -*-

 """

 Created on Wed Jan 17 15:29:14 2018

 @author: markli

 """

 import numpy as np;

 import pandas as pd;

 from BayesClass import Bayes

 A1 = ['','',''];

 A2 = ['S','M','L'];

 C = ['','-1'];

 Data = np.array([[1,'S',-1],[1,'M',-1],[1,'M',1],[1,'S',1],[1,'S',-1],

                  [2,'S',-1],[2,'M',-1],[2,'M',1],[2,'L',1],[2,'L',1],

                  [3,'L',1],[3,'M',1],[3,'M',1],[3,'L',1],[3,'L',-1]]);

 test = np.array([[2,'S']]);

 B = Bayes(0,[A1,A2,C]);

 B.fit(Data);

 y = B.predict(test);

 print(y);

Python3 贝叶斯分类的更多相关文章

利用朴素贝叶斯分类算法对搜狐新闻进行分类（python）
数据来源 https://www.sogou.com/labs/resource/cs.php介绍:来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL ...
机器学习之路： python 朴素贝叶斯分类器 MultinomialNB 预测新闻类别
使用python3 学习朴素贝叶斯分类api 设计到字符串提取特征向量欢迎来到我的git下载源代码: https://github.com/linyi0604/MachineLearning fro ...
python3 threading初体验
python3中thread模块已被废弃,不能在使用thread模块,为了兼容性,python3将thread命名为_thread.python3中我们可以使用threading进行代替. threa ...
Python3中的字符串函数学习总结
这篇文章主要介绍了Python3中的字符串函数学习总结,本文讲解了格式化类方法.查找 & 替换类方法.拆分 & 组合类方法等内容,需要的朋友可以参考下. Sequence Types ...
Mac-OSX的Python3.5虚拟环境下安装Opencv
Mac-OSX的Python3.5虚拟环境下安装Opencv 1 关键词关键词:Mac,OSX,Python3.5,Virtualenv,Opencv 2 概述本文是一篇环境搭建的基础 ...
Ubuntu部署python3.5的开发和运行环境
Ubuntu部署python3.5的开发和运行环境 1 概述由于最近项目全部由python2.x转向 python3.x(使用目前最新的 python3.5.1) ,之前的云主机的的默认python ...
Python3 登陆网页并保持cookie
网页登陆网页登陆的原理都是,保持一个sessionid在cookie然后,根据sessionid在服务端找到cookie进行用户识别 python实现由于python的简单以及丰富的类库是开发网络 ...
阿里云 SDK python3支持
最近的一个项目需要操作阿里云的RDS,项目使用python3,让人惊讶的是官方的SDK竟然只支持python2 在阿里云现有SDK上改了改,文件的修改只涉及aliyun/api/base.py,详见h ...
python3爬取1024图片
这两年python特别火,火到博客园现在也是隔三差五的出现一些python的文章.各种开源软件.各种爬虫算法纷纷开路,作为互联网行业的IT狗自然看的我也是心痒痒,于是趁着这个雾霾横行的周末瞅了两眼,作 ...

随机推荐

ASP.NET调用cmd命令提示符拒绝访问解决方案
using System.Diagnostics; public class CmdHelper { private static string CmdPath = @"C:\Windows ...
3: $.ajax()方法详解
1.url: 要求为String类型的参数,(默认为当前页地址)发送请求的地址. 2.type: 要求为String类型的参数,请求方式(post或get)默认为get.注意其他http请求方法,例如 ...
angularJs的各种服务和指令的使用场景
$location服务,获取页面跳转带的参数比如说页面是这样的 localhost:9102/admin/goods.html#?id=123 如何获取这个id=123的值呢?????(注意: ...
前端必须掌握的30个CSS选择器
也许你已经学会了CSS的三个简单常用的选择器:#ID,.class,标签选择器,可是这些就足够了吗?随着CSS3的到来,作为前端开发者需要掌握下面三十个基本的选择器,这样才可以在平时开发中得心用手. ...
Codeforces Round #519 题解
A. Elections 题意概述给出 $a_1, \ldots, a_n$,求最小的 $k (k \ge \max a_i)$, 使得 \(\sum_{i=1}^n a_i < \s ...
ngx_lua_API 指令详解（四）ngx.exec指令
https://github.com/openresty/lua-nginx-module#ngxexec 参照:http://blog.csdn.net/weiyuefei/article/deta ...
JD m站自我解析理解
第一步:从首页着手文档部分:应用的是H5默认文档开头即:<!DOCUMENT html> head部分:放了一些相关的JS,title描述,然后就是meta表述了.比较有参考的如下 & ...
【洛谷 P2726】 [SHOI2005]树的双中心（树的重心）
先考虑一个$O(N^2)$做法. 设选的两个点为$x,y$,则一定可以将树分成两个集合$A,B$,使得$A$集合所有点都去$x$,$B$集合所有点都去$y$,而这两个集合的 ...
[译]使用chage来管理Linux密码过期时间的七个例子
本文译自 7 Examples to Manage Linux Password Expiration and Aging Using chage 本文主要介绍命令chage的使用,译文会对原文内容会 ...
Spark笔记之累加器（Accumulator）
一.累加器简介在Spark中如果想在Task计算的时候统计某些事件的数量,使用filter/reduce也可以,但是使用累加器是一种更方便的方式,累加器一个比较经典的应用场景是用来在Spark St ...

Python3 贝叶斯分类

Python3 贝叶斯分类的更多相关文章

随机推荐

热门专题