数据分析与挖掘 - R语言：贝叶斯分类算法（案例二）

接着案例一，我们再使用另一种方法实例一个案例

直接上代码：

#!/usr/bin/Rscript

library(plyr)

library(reshape2)

#1、根据训练集创建朴素贝叶斯分类器

#1.1、生成类别的概率

##计算训练集合D中类别出现的概率，即P{c_i}

##输入：trainData 训练集，类型为数据框

##      strClassName 指明训练集中名称为    strClassName列为分类结果

##输出：数据框，P{c_i}的集合，类别名称|概率（列名为 prob）

class_prob <- function(trainData, strClassName){

    #训练集样本数

    #nrow返回行数

    length.train <- nrow(trainData)

    dTemp <- ddply(trainData, strClassName, "nrow")

    dTemp <- ddply(dTemp, strClassName, mutate, prob = nrow/length.train)

    dTemp[,-2]

}

##1.2、生成每个类别下，特征取不同值的概率

##计算训练集合D中,生成每个类别下，特征取不同值的概率，即P{fi|c_i}

##输入：trainData 训练集，类型为数据框

##      strClassName 指明训练集中名称为strClassName列为分类结果，其余的全部列认为是特征值

##输出：数据框，P{fi|c_i}的集合，类别名称|特征名称|特征取值|概率（列名为 prob）

feature_class_prob <- function(trainData, strClassName){

    # 横表转换为纵表

    data.melt <- melt(trainData,id=c(strClassName))

    # 统计频数

    aa <- ddply(data.melt, c(strClassName,"variable","value"), "nrow")

    # 计算概率

    bb <- ddply(aa, c(strClassName,"variable"), mutate, sum = sum(nrow), prob = nrow/sum)

    # 增加列名

    colnames(bb) <- c("class.name",

                    "feature.name",

                    "feature.value",

                    "feature.nrow",

                    "feature.sum",

                    "prob")

    # 返回结果

    bb[,c(1,2,3,6)]

}

## 以上创建完朴素贝叶斯分类器



## 2、使用生成的朴素贝叶斯分类器进行预测

##使用生成的朴素贝叶斯分类器进行预测P{fi|c_i}

##输入：oneObs 数据框，待预测的样本，格式为 特征名称|特征值

##      pc 数据框，训练集合D中类别出现的概率，即P{c_i}  类别名称|概率

##      pfc 数据框，每个类别下，特征取不同值的概率，即P{fi|c_i}

##                  类别名称|特征名称|特征值|概率

##输出：数据框，待预测样本的分类对每个类别的概率，类别名称|后验概率（列名为 prob）

pre_class <- function(oneObs, pc,pfc){

    colnames(oneObs) <- c("feature.name", "feature.value")

    colnames(pc) <- c("class.name","prob")

    colnames(pfc) <- c("class.name","feature.name","feature.value","prob")

    # 取出特征的取值的条件概率

    feature.all <- join(oneObs,pfc,by=c("feature.name","feature.value"),type="inner")

    # 取出特征取值的条件概率连乘

    feature.prob <- ddply(feature.all,.(class.name),summarize,prob_fea=prod(prob))  #prod为连乘函数

    #取出类别的概率

    class.all <- join(feature.prob,pc,by="class.name",type="inner")

    #输出结果

    ddply(class.all,.(class.name),mutate,pre_prob=prob_fea*prob)[,c(1,4)]

}

##3、数据测试

##用上面苹果的数据作为例子进行测试

#训练集

train.apple <-data.frame(

    size=c("大","小","大","大","小","小"),

    weight=c("轻","重","轻","轻","重","轻"),

    color=c("红","红","红","绿","红","绿"),

    taste=c("good","good","bad","bad","bad","good")

)

#待预测样本

oneObs<-data.frame(

    feature.name =c("size", "weight", "color"),

    feature.value =c("大","重","红")

)

#预测分类

pc <- class_prob(train.apple,"taste")

pfc <- feature_class_prob(train.apple,"taste")

pre_class(oneObs, pc, pfc)

预测结果为：

class.name pre_prob

1 bad 0.07407407

2 good 0.03703704

可见该苹果的口味为：bad

*********************************************这里是分割线****************************************************

我们使用这个方法再预测一下案例一中的数据集。

#数据集样本

data <- data.frame(c("sunny","hot","high","weak","no",

                 "sunny","hot","high","strong","no",

                 "overcast","hot","high","weak","yes",

                 "rain","mild","high","weak","yes",

                 "rain","cool","normal","weak","yes",

                 "rain","cool","normal","strong","no",

                 "overcast","cool","normal","strong","yes",

                 "sunny","mild","high","weak","no",

                 "sunny","cool","normal","weak","yes",

                 "rain","mild","normal","weak","yes",

                 "sunny","mild","normal","strong","yes",

                 "overcast","mild","high","strong","yes",

                 "overcast","hot","normal","weak","yes",

                 "rain","mild","high","strong","no"),

                 byrow = TRUE,

                 dimnames = list(day = c(),condition = c("outlook","temperature","humidity","wind","playtennis")),

                 nrow=14,

                 ncol=5);  

#待预测样本

ddata<-data.frame(

    feature.name =c("outlook", "temperature","humidity","wind"),

    feature.value =c("overcast","mild","normal","weak")

)

#预测分类

pc <- class_prob(data,"playtennis")

pfc <- feature_class_prob(data,"playtennis")

pre_class(ddata, pc, pfc)

预测结果为：

class.name   pre_prob

1         no 0.02666667

2        yes 0.13168724

预测结果为：yes，可见与案例一的结果一样。

数据分析与挖掘 - R语言：贝叶斯分类算法（案例二）的更多相关文章

数据分析与挖掘 - R语言：贝叶斯分类算法（案例一）
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 名词解释: 先验概率:由以往的数据分析得到的概率, 叫做先验概率. 后验概率:而在 ...
零基础数据分析与挖掘R语言实战课程（R语言）
随着大数据在各行业的落地生根和蓬勃发展,能从数据中挖金子的数据分析人员越来越宝贝,于是很多的程序员都想转行到数据分析, 挖掘技术哪家强?当然是R语言了,R语言的火热程度,从TIOBE上编程语言排名情况 ...
数据分析与挖掘 - R语言：贝叶斯分类算法（案例三）
案例三比较简单,不需要自己写公式算法,使用了R自带的naiveBayes函数. 代码如下: > library(e1071)> classifier<-naiveBayes(iris ...
数据分析与挖掘 - R语言：KNN算法
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. KNN算法步骤:需对所有样本点(已知分类+未知分类)进行归一化处理.然后,对未知分 ...
数据分析与挖掘 - R语言：K-means聚类算法
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 1.分析题目--有一个用户点击数据样本(husercollect)--按用户访问的 ...
数据分析与挖掘 - R语言：多元线性回归
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 线性回归主要用来做预测模型. 1.准备数据集: X Y 0.10 42.0 0.1 ...
R语言分类算法之随机森林
R语言分类算法之随机森林 1.原理分析: 随机森林是通过自助法(boot-strap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练集样本集合,然后根据自助样本集生成k个决策 ...
R语言神经网络算法
人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型.神经网络由大量的人工神经元联结进行计算.大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自 ...
R语言、02 案例2-1 Pelican商店、《商务与经济统计》案例题
编程教材 <R语言实战·第2版>Robert I. Kabacoff 课程教材<商务与经济统计·原书第13版> (安德森) P48.案例2-1 Pelican 商店 PS C: ...

随机推荐

企业级iptables防火墙实战
iptables生产中在内网一般是关闭的,外围需要开启大并发情况下,不能开启iptables,会影响性能,使用硬件外网防火墙学好iptables的基础 1,OSI7层模型以及不同层对应哪些协议 2 ...
初探Spring Cloud Config
Spring Cloud Config提供了分布式系统中配置功能的服务端与客户端支持.对于不同环境的应用程序它的服务端提供了一种中心化的配置管理方式.并且其不仅适用于Spring的应用程序,其它语言开 ...
Cnblog Markdown编辑器
第一次使用Cnblog Markdown编辑器 1.在博客园使用 Markdown 与 LATEX[1] 1.1.开启MarkDown编辑器选择 Markdown 撰写博文:在博客园管理-选项中,将 ...
关于mysql远程连接
windows环境下简单,这里讲linux环境下的首先,linux系统有一道防火墙我用的是ubutun16.04LTS 要用ufw工具(命令)开启3306端口(ufw allow ) (如果安装的 ...
sklearn.utils.shuffle-训练数据打乱的最佳方法
在进行模型训练前,我们要将数据打乱,以获得更好的训练效果.可以使用sklearn.utils中的shuffle,获得打乱后的数据索引,最后,迭代生成打乱后的batch数据,一个写好的模块如下. 思路是 ...
运行或开发.NET Core 的先决条件（支持项目、依赖项）
Windows 上 .NET Core 的先决条件 https://docs.microsoft.com/zh-cn/dotnet/core/windows-prerequisites?tabs=ne ...
DBCHART
dbchart1.Series[0].DataSource := adoquery1; dbchart1.Series[0].XLabelsSource := 'aaaa'; dbchart1.Ser ...
js中的事件轮询(event loop)机制
异步任务指的是,不进入主线程.而进入"任务队列"(task queue)的任务,只有"任务队列"通知主线程,某个异步任务可以执行了,该任务才会进入主线程执行. ...
qtcreator添加绿色版VC编译器
在不装VS的情况下为qtcreator添加VC编译器和调试器首先假设在D盘有VC6,VC2002,VC2003,VC2005,VC2008,VC2010,VC2013等绿色版的VC编译器,编译器的的 ...
Git 常用命令和统计代码量
摘要分享Git日常操作中常用的命令,分享如何统计在项目中贡献的代码量. 下面列出Git bash常用命令. 1. git clone **(项目地址) 克隆一个git项目到本地,将git项目拉取到本 ...

数据分析与挖掘 - R语言：贝叶斯分类算法（案例二）

数据分析与挖掘 - R语言：贝叶斯分类算法（案例二）的更多相关文章

随机推荐

热门专题