R语言：利用caret包中的dummyVars函数进行虚拟变量处理

dummyVars函数:dummyVars creates a full set of dummy variables (i.e. less than full rank parameterization----建立一套完整的虚拟变量

先举一个简单的例子：

survey<-data.frame(service=c("very unhappy","unhappy","neutral","happy","very happy"))

survey

##        service

## 1 very unhappy

## 2      unhappy

## 3      neutral

## 4        happy

## 5   very happy

# 我们可以直接增加一列rank，用数字代表不同情感

survey<-data.frame(service=c("very unhappy","unhappy","neutral","happy","very happy"),rank=c(1,2,3,4,5))

survey

##        service rank

## 1 very unhappy    1

## 2      unhappy    2

## 3      neutral    3

## 4        happy    4

## 5   very happy    5

显然，对于单个变量进行如上处理并不困难，但是如果面对多个因子型变量都需要进行虚拟变量处理时，将会花费大量的时间。

下面用caret包中的dummyVars函数对因子变量进行哑变量处理。

library(caret)

## Loading required package: lattice

## Loading required package: ggplot2

customers<-data.frame(id=c(10,20,30,40,50),gender=c("male","female","female","male","female"),

                      mood=c("happy","sad","happy","sad","happy"),outcome=c(1,1,0,0,0))

customers

##   id gender  mood outcome

## 1 10   male happy       1

## 2 20 female   sad       1

## 3 30 female happy       0

## 4 40   male   sad       0

## 5 50 female happy       0

# 利用dummyVars函数对customers数据进行哑变量处理

dmy<-dummyVars(~.,data=customers)

# 对自身变量进行预测，并转换成data.frame格式

trsf<-data.frame(predict(dmy,newdata=customers))

trsf

##   id gender.female gender.male mood.happy mood.sad outcome

## 1 10             0           1          1        0       1

## 2 20             1           0          0        1       1

## 3 30             1           0          1        0       0

## 4 40             0           1          0        1       0

## 5 50             1           0          1        0       0

从结果看，outcome并没有进行哑变量处理。

我们查看customers的数据类型

str(customers)

## 'data.frame':    5 obs. of  4 variables:

##  $ id     : num  10 20 30 40 50

##  $ gender : Factor w/ 2 levels "female","male": 2 1 1 2 1

##  $ mood   : Factor w/ 2 levels "happy","sad": 1 2 1 2 1

##  $ outcome: num  1 1 0 0 0

可见，outcome的默认类型是numeric，现在这不是我们想要的。接下来将变量outcome转换成factor类型。

customers$outcome<-as.factor(customers$outcome)

str(customers)

## 'data.frame':    5 obs. of  4 variables:

##  $ id     : num  10 20 30 40 50

##  $ gender : Factor w/ 2 levels "female","male": 2 1 1 2 1

##  $ mood   : Factor w/ 2 levels "happy","sad": 1 2 1 2 1

##  $ outcome: Factor w/ 2 levels "0","1": 2 2 1 1 1

customers中的变量outcome类型转换后，我们再次用dmy对该数据进行预测，并查看最终结果。

trsf<-data.frame(predict(dmy,newdata=customers))

trsf

##   id gender.female gender.male mood.happy mood.sad outcome0 outcome1

## 1 10             0           1          1        0        0        1

## 2 20             1           0          0        1        0        1

## 3 30             1           0          1        0        1        0

## 4 40             0           1          0        1        1        0

## 5 50             1           0          1        0        1        0

可见，outcome也已经进行了虚拟变量处理。

当然，也可以针对数据中的某一个变量进行虚拟变量（哑变量）处理。如我们需要对customers数据中的变量gender进行哑变量处理，可以执行以下操作：

dmy<-dummyVars(~gender,data=customers)

trfs<-data.frame(predict(dmy,newdata=customers))

trfs

##   gender.female gender.male

## 1             0           1

## 2             1           0

## 3             1           0

## 4             0           1

## 5             1           0

对于两分类的因子变量，我们在进行虚拟变量处理后可能不需要出现代表相同意思的两列（例如：gender.female和gender.male)。这时候我们可以利用dummyVars函数中的fullRank参数，将此参数设置为TRUE。

dmy<-dummyVars(~.,data=customers,fullRank=T)

trfs<-data.frame(predict(dmy,newdata=customers))

trfs

##   id gender.male mood.sad outcome.1

## 1 10           1        0         1

## 2 20           0        1         1

## 3 30           0        0         0

## 4 40           1        1         0

## 5 50           0        0         0

R语言：利用caret包中的dummyVars函数进行虚拟变量处理的更多相关文章

R语言：recommenderlab包的总结与应用案例
R语言:recommenderlab包的总结与应用案例 1. 推荐系统:recommenderlab包整体思路 recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算 ...
R语言︱H2o深度学习的一些R语言实践——H2o包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言H2o包的几个应用案例笔者寄语:受启发 ...
用R语言提取数据框中日期对应年份（列表转矩阵）
用R语言提取数据框中日期对应年份(列表转矩阵) 在数据处理中常会遇到要对数据框中的时间做聚类处理,如从"%m/%d/%Y"中提取年份. 对应操作为:拆分成列表——列表转矩阵——利用 ...
R语言利用ROCR评测模型的预测能力
R语言利用ROCR评测模型的预测能力说明受试者工作特征曲线(ROC),这是一种常用的二元分类系统性能展示图形,在曲线上分别标注了不同切点的真正率与假正率.我们通常会基于ROC曲线计算处于曲线下方的 ...
R语言中文分词包jiebaR
R语言中文分词包jiebaR R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据 ...
使用R语言的RTCGA包获取TCGA数据--转载
转载生信技能树 https://mp.weixin.qq.com/s/JB_329LCWqo5dY6MLawfEA TCGA数据源 - R包RTCGA的简单介绍 - 首先安装及加载包 - 指定任意基因 ...
R语言文本挖掘 tm包使用
#清除内存空间 rm(list=ls()) #导入tm包 library(tm) library(SnowballC) #查看tm包的文档 #vignette("tm") ##1. ...
R语言使用 multicore 包进行并行计算
R语言是单线程的,如果数据量比较大的情况下最好用并行计算来处理数据,这样会获得运行速度倍数的提升.这里介绍一个基于Unix系统的并行程序包:multicore. 我们用三种不同的方式来进行一个简单的数 ...
用R语言的quantreg包进行分位数回归
什么是分位数回归分位数回归(Quantile Regression)是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位.十分位.百分位等)来得到被解释变量的条件分布的相应的分位数 ...

随机推荐

MFC使用SQLite 学习系列一： SQLITE_MISUSE错误
一为什么要选择SQLite 由于使用文本文件来记录测试数据,速度越来越慢的问题,经过园友推荐,使用了SQLite来进行数据的存储,再次感谢园友@LightSmaile. 关于这个问题,可以参考一下上 ...
读书笔记 effective c++ Item 47 使用traits class表示类型信息
STL主要由为容器,迭代器和算法创建的模板组成,但是也有一些功能模板.其中之一叫做advance.Advance将一个指定的迭代器移动指定的距离: template<typename IterT ...
Linux上常用的文件传输方式以及比较
tp ftp 命令使用文件传输协议(File Transfer Protocol, FTP)在本地主机和远程主机之间或者在两个远程主机之间进行文件传输. FTP 协议允许数据在不同文件系统的主机之间传 ...
Spark源码分析之分区器的作用
最近因为手抖,在Spark中给自己挖了一个数据倾斜的坑.为了解决这个问题,顺便研究了下Spark分区器的原理,趁着周末加班总结一下~ 先说说数据倾斜数据倾斜是指Spark中的RDD在计算的时候,每个 ...
(转载)Google的PageRank算法
本文由张洋(敲代码的张洋)投稿于伯乐在线. 本文转载于:http://blog.jobbole.com/23286/ 很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的 ...
AngularJS的过滤器$filter
过滤器(filter)主要用于数据的格式上,通过某个规则,把值处理后返回结果.例如获得数据集,可排序后再返回. ng内置的共有九种过滤器: currency 货币使用currency可以将数字格式化 ...
AngularJS创建新指令 - 基本功能
指令(Directives)是所有AngularJS应用最重要的部分.尽管AngularJS已经提供了非常丰富的指令,但还是经常需要创建应用特定的指令. AngularJS原有的指令 ng-init ...
html、css、js实现简易计算器
学习HTML,CSS,JS一个月后,想着能自己是否能写出一个简单的东西,故编写了简易的计算器,之前也写过一个坦克大战,坦克大战的有些基本功能没有实现, 故也没有记录下来,想来,对这行初来咋到的,还是需 ...
Linux安装redis及redis的php扩展。
------ redis安装,启动服务,开机启动,打开redis客户端 ------ yum install -y redis systemctl start redis systemctl enab ...
【珍藏】linux 同步IO: sync、fsync与fdatasync
传统的UNIX实现在内核中设有缓冲区高速缓存或页面高速缓存,大多数磁盘I/O都通过缓冲进行.当将数据写入文件时,内核通常先将该数据复制到其中一个缓冲区中,如果该缓冲区尚未写满,则并不将其排入输出队列, ...

R语言：利用caret包中的dummyVars函数进行虚拟变量处理

R语言：利用caret包中的dummyVars函数进行虚拟变量处理的更多相关文章

随机推荐

热门专题