R语言中rpart分类随机森林

2024-11-05

【R语言学习笔记】 Day1 CART 逻辑回归、分类树以及随机森林的应用及对比

1. 目的:根据人口普查数据来预测收入(预测每个个体年收入是否超过$50,000) 2. 数据来源:1994年美国人口普查数据,数据中共含31978个观测值,每个观测值代表一个个体 3. 变量介绍: (1)age: 年龄(以年表示) (2)workclass: 工作类别/性质 (e.g., 国家机关工作人员.当地政府工作人员.无收入人员等) (3)education: 受教育水平 (e.g., 小学.初中.高中.本科.硕士.博士等) (4)maritalstatus: 婚姻状态(e.g., 未婚

R语言之Random Forest随机森林

什么是随机森林? 随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法.随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”.“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想--集成思想的体现. 随机森林算法的实质是基于决策树的分类器集成算法,其中每一棵树都依赖于一个随机向量,随机森林的所有向量都是独立同分布

掌握R语言中的apply函数族（转）

转自:http://blog.fens.me/r-apply/ 前言刚开始接触R语言时,会听到各种的R语言使用技巧,其中最重要的一条就是不要用循环,效率特别低,要用向量计算代替循环计算. 那么,这是为什么呢?原因在于R的循环操作for和while,都是基于R语言本身来实现的,而向量操作是基于底层的C语言函数实现的,从性能上来看,就会有比较明显的差距了.那么如何使用C的函数来实现向量计算呢,就是要用到apply的家族函数,包括apply, sapply, tapply, mapply, lapp

R语言中的factor

对于初学者来说,R语言中的factor有些难以理解.如果直译factor为“因子”,使得其更加难以理解.我倾向于不要翻译,就称其为factor,然后从几个例子中理解: <span style="font-size:12px;">data <- c(1,2,2,3,1,2,3,3,1,2,3,3,1) data </span> 显示结果: <span style="font-size:12px;"> [1] 1 2 2 3 1

R语言中apply函数

前言刚开始接触R语言时,会听到各种的R语言使用技巧,其中最重要的一条就是不要用循环,效率特别低,要用向量计算代替循环计算. 那么,这是为什么呢?原因在于R的循环操作for和while,都是基于R语言本身来实现的,而向量操作是基于底层的C语言函数实现的,从性能上来看,就会有比较明显的差距了.那么如何使用C的函数来实现向量计算呢,就是要用到apply的家族函数,包括apply, sapply, tapply, mapply, lapply, rapply, vapply, eapply等. 目录

R语言中的MySQL操作

R语言中,针对MySQL数据库的操作执行其实也有很多中方式.本人觉得,熟练掌握一种便可,下面主要就个人的学习使用情况,总结其中一种情况-----使用RMySQL操作数据库. 1.下载DBI和RMySQL包 install.packages(c("DBI","RMySQL")) 2.载入DBI和RMySQL包 library(DBI) library(RMySQL) 3.创建连接和设置字符集获取编码格式 # 创建数据库连接 con <- dbConnect(My

R语言中Fisher判别的使用方法

最近编写了Fisher判别的相关代码时,需要与已有软件比照结果以确定自己代码的正确性,于是找到了安装方便且免费的R.这里把R中进行Fisher判别的方法记录下来. 1. 判别分析与Fisher判别不严谨但是通俗的说法,判别分析(Discriminant Analysis)是一种多元(多个变量)统计分析方法,它根据样本的多个已知变量的值对样本进行分类的方法.一般来说,判别分析由两个阶段构成——学习(训练)和判别.在学习阶段,给定一批已经被分类好的样本,根据它们的分类情况和样本的多个变量的值来学习

R语言randomForest包实现随机森林——iris数据集和kyphosis数据集

library(randomForest)model.forest<-randomForest(Species~.,data=iris)pre.forest<-predict(model.forest,iris)table(pre.forest,iris$Species) library(rpart)library(randomForest)model.forest<-randomForest(Kyphosis~.,data=kyphosis)pre.forest<-predict

关于R语言中dnorm,pnorm,qnorm,rnorm的用法

dnorm,pnorm,qnorm,rnorm的表达式: 其中x和q是由数值型变量构成的向量,p是由概率构成的向量,n是随机产生的个数 mean是要计算正态分布的均值,缺省值为0,sd是计算正态分布的标准差, 缺省值为1 其中dnorm返回值是正态分布的概率密度函数其中pnorm返回的是正态分布的分布函数其中qnorm返回的是给定概率p后的下分位点其中rnorm返回的是由n个正态分布随机数构成的向量

R语言中 fitted()和predict()的区别

fitted是拟合值,predict是预测值.模型是基于给定样本的值建立的,在这些给定样本上做预测就是拟合.在新样本上做预测就是预测. 你可以找一组数据试试,结果如何. fit<-lm(weight~height,data=women) fitted(fit) predict(fit,newdata=data.frame(height=90))##将90代入看结果如何这是R in action中的例子

R语言中的Apriori关联规则的使用

1.下载Matrix和arules包 install.packages(c("Matrix","arules")) 2.载入引入Matrix和arules包 # 引入Matrix和arules包 library(Matrix) library(arules) 3.读取数据 # 读入数据 dataset <- mysql_find(sql) 4.数据转换 # 将数据框转为矩阵 dataset2 <- as.matrix(dataset) # 转换为交易流数

R 语言中 data table 的相关，内存高效的增量式 data frame

面对的是这样一个问题,不断读入一行一行数据,append到data frame上,如果用dataframe, rbind() ,可以发现数据大的时候效率明显变低. 原因是每次bind 都是一次重新整个数据集的重新拷贝这个链接有人测试了各种方案,似乎给出了最优方案 http://stackoverflow.com/questions/11486369/growing-a-data-frame-in-a-memory-efficient-manner library(data.table) d

rugarch包与R语言中的garch族模型

来源:http://www.dataguru.cn/article-794-1.html rugarch包是R中用来拟合和检验garch模型的一个包.该包最早在http://rgarch.r-forge.r-project.org上发布,现已发布到CRAN上.简单而言,该包主要包括四个功能: 拟合garch族模型 garch族模型诊断 garch族模型预测模拟garch序列拟合序列分布下面分别说一下. 一.拟合garch族模型拟合garch族模型分三个步骤:(1)通过ugarchspec

关于R语言中set.seed()

在r中取sample时候,经常会有set.seed(某数),经常看见取值很大,其实这里无论括号里取值是多少,想要上下两次取值一样,都需要在每次取值前输入同样的set.seed(某数),才能保证两次取值相同,从而保证让样本可重复. > set.seed(100) > x <- rnorm(5) > y <- rnorm(5) > x==y [1] FALSE FALSE FALSE FALSE FALSE > set.seed(1000) > x <-

R语言中的read.table()

参考资料:http://www.cnblogs.com/xianghang123/archive/2012/06/06/2538274.html read.table(file, header = FALSE, sep = "", quote = "\"'", dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"

R语言中的logical(0)和numeric(0)以及赋值问题

logical(0) 不等于 numeric(0).两者都不等于NULL值,即is.null(logical(0))和is.null(numeric(0))返还值都是FALSE.这很有意思,说明长度为零的值有时却不会别算为空值,但空值的定义却是函数中没有被赋值的参数,特征就是没有值.如何区分NULL和NA?很简单,后者的logical length是1,而前者的logical length是0,意思是假如用is.logical判断NA的逻辑值,得到的结果是TRUE.NA可以为正无穷或负无穷,但N

R语言中strptime返回值永远为NA的问题

调用前加上以下代码,即可解决 Sys.setlocale("LC_TIME", "C");

R语言中的if-else语句写法

结构 1 : if() xx else yy 一行: 结构 2: if() {xx} else {yy} 或者 if(){ xx }else #此处不能两行写 yy 结构3: { if else } 结构三括号中可以任意写

R语言中abline和lines的区别

函数lines()其作用是在已有图上加线,命令为lines(x,y),其功能相当于plot(x,y,type="1")函数abline()可以在图上加直线,其使用方法有四种格式.(1)abline(a,b)表示画一条y=a+bx的直线(2)abline(h=y)表示画出一条过所有点得水平直线(3)abline(v=x)表示画出一条过所有点的竖直直线(4)abline(lm.obj)表示绘出线性模型得到的线性方程

R语言中的Single link和Complete link

下图表示A.B.C.D.E各点相互之间的距离一.Single link结果: 1.找A.B.C.D.E各点之间距离最短的 A和B为4,即AB连在一起(之后把它俩看成一个整体): 2.找除(第一步)以外的A.B.C.D.E各点之间距离最短的 D和E为8,即即DE连在一起(之后把它俩看成一个整体): 3.找除(第一.二步)以外的A.B.C.D.E各点之间距离最短的 B和C为8.1,即AB和C连在一起(之后把它三个看成一个整体): 4.最后把ABC和DE连在一起二.Complete-link 1.

R语言︱决策树族——随机森林算法

每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:有一篇<有监督学习选择深度学习还是随机森林或支持向量机?>(作者Bio:SebastianRaschka)中提到,在日常机器学习工作或学习中,当我们遇到有监督学习相关问题时,不妨考虑下先用简单的假设空间(简单模型集合),例如线性模型逻辑回归.若效果不好,也即并没达到你的预期或评判效果基准时,再进行下换其他更复杂模型来实验. ----

R语言中rpart分类随机森林

热门专题