R(8): tidyr

tidy（整洁），Tidyr包是由Hadely Wickham创建，这个包提高了整理原始数据的效率，tidyr包的4个常用的函数及其用途如下：

gather()——它把多列放在一起，然后转化为key:value对。这个函数会把宽格式的数据转化为长格式。它是reshape包中melt函数的一个替代
spread()——它的功能和gather相反，把key:value对转化成不同的列
separate()——它会把一列拆分为多列
unite()——它的功能和separate相反，把多列合并为一列

长形表和宽形表，简单的说，长形表就是一个观测对象可由多行组成，而宽形表则是一个观测仅由一行组成。

初始

安装载入包

install.packages("tidyr")

library(tidyr)

组织数据

> name <- c("A","B","C")

> gender <- c("F","F","M")

> province <- c("JS","SH","HN")

> age <- c(18,22,19)

> df_wide <- data.frame(name = name, gender = gender, province = province, age = age)

> df_wide

  name gender province age

1    A      F       JS  18

2    B      F       SH  22

3    C      M       HN  19

gather()

Usage： gather(data, key, value, ..., na.rm = FALSE, convert = FALSE, factor_key = FALSE)

1. data：需要被转换的宽形表
2. key：将原数据框中的所有列赋给一个新变量key
3. value：将原数据框中的所有值赋给一个新变量value
4. …：可以指定哪些列聚到一列中
5. na.rm：是否删除缺失值

默认将所有列存放到key中，如下例

> df_gather <- gather(data = df_wide, key = variable, value = value)

Warning message:

attributes are not identical across measure variables; they will be dropped

> df_gather

   variable value

1      name     A

2      name     B

3      name     C

4    gender     F

5    gender     F

6    gender     M

7  province    JS

8  province    SH

9  province    HN

10      age    18

11      age    22

12      age    19

指定需要被聚为一列的字段

> df_wide %>% gather(key=vars,value=value,gender:age)

  name     vars value

1    A   gender     F

2    B   gender     F

3    C   gender     M

4    A province    JS

5    B province    SH

6    C province    HN

7    A      age    18

8    B      age    22

9    C      age    19

上面的代码等价于：df_wide %>% gather(key=vars,value=value,-name)

spread()

Usage：spread(data, key, value, fill = NA, convert = FALSE, drop = TRUE, sep = NULL)

1. data：为需要转换的长形表
2. key：需要将变量值拓展为字段的变量
3. value：需要分散的值
4. fill：对于缺失值，可将fill的值赋值给被转型后的缺失值

功能：将一列分离为多列

示例数据

> name <- c("A","A","A","B","B")

> product <- c("P1","P2","P3","P1","P4")

> price <- c(100,130,55,100,78)

> df_long <- data.frame(name = name, product = product, price = price)

> df_long

  name product price

1    A      P1   100

2    A      P2   130

3    A      P3    55

4    B      P1   100

5    B      P4    78

列分离

> df_long_expand <- spread(data = df_long, key = product, value = price)

> df_long_expand

  name  P1  P2 P3 P4

1    A 100 130 55 NA

2    B 100  NA NA 78

被转型后的数据框中存在缺失值，如果想给缺失值传递一个指定值的话，就需要fill参数的作用。

> spread(data = df_long, key = product, value = price,fill = 0)

  name  P1  P2 P3 P4

1    A 100 130 55  0

2    B 100   0  0 78

separate()

Usage：separate(data, col, into, sep = "[^[:alnum:]]+", remove = TRUE,convert = FALSE, extra = "warn", fill = "warn", ...)

1. data：为数据框
2. col：需要被拆分的列
3. into：新建的列名，为字符串向量
4. sep：被拆分列的分隔符
5. remove：是否删除被分割的列

示例数据

> id <- c(1,2)

> datetime <- c(as.POSIXlt("2015-12-31 13:23:44"), as.POSIXlt("2016-01-28 21:14:12"))

> df <- data.frame(id = id, datetime = datetime)

> df

  id            datetime

1  1 2015-12-31 13:23:44

2  2 2016-01-28 21:14:12

使用separate()函数将日期时间值分割为年、月、日、时、分、秒

> #拆成日期和时间

> separate1 <- separate(df,col="datetime",into=c("date","time"),sep=" ",remove=FALSE)

> separate1

  id            datetime       date     time

1  1 2015-12-31 13:23:44 2015-12-31 13:23:44

2  2 2016-01-28 21:14:12 2016-01-28 21:14:12

>

> separate2 <- separate(separate1,col="date",into=c("year","month","day"),sep="-",remove=FALSE)

> separate2

  id            datetime       date year month day     time

1  1 2015-12-31 13:23:44 2015-12-31 2015    12  31 13:23:44

2  2 2016-01-28 21:14:12 2016-01-28 2016    01  28 21:14:12

>

> separate3 <- separate(separate2,col="time",into=c("hh","mm","ss"),sep=":",remove=TRUE)

> separate3

  id            datetime       date year month day hh mm ss

1  1 2015-12-31 13:23:44 2015-12-31 2015    12  31 13 23 44

2  2 2016-01-28 21:14:12 2016-01-28 2016    01  28 21 14 12l

连接串写法

> df %>% separate(.,col="datetime",into=c("date","time"),sep=" ",remove=TRUE) %>% separate(.,col="date",into=c("year","month","day"),sep="-",remove=TRUE)%>% separate(.,col="time",into=c("hh","mm","ss"),sep=":",remove=TRUE)

  id year month day hh mm ss

1  1 2015    12  31 13 23 44

2  2 2016    01  28 21 14 12

unite()

与separate()函数相反，它将多列合并为一列
Usage: unite(data, col, ..., sep = "_", remove = TRUE)

1. data：为数据框
2. col：被组合的新列名称
3. …：指定哪些列需要被组合
4. sep：组合列之间的连接符，默认为下划线
5. remove：是否删除被组合的列

示例

> df1

  id year month day hh mm ss

1  1 2015    12  31 13 23 44

2  2 2016    01  28 21 14 12

> df1 %>% unite(.,col="date",year,month,day,sep="-")%>% unite(.,col="time",hh,mm,ss,sep=":")%>% unite(.,col="datetime",date,time,sep=" ")

  id            datetime

1  1 2015-12-31 13:23:44

2  2 2016-01-28 21:14:12

R(8): tidyr的更多相关文章

R语言-tidyr和dplyr
一.安装和加载 1.安装并加载tidyr和dplyr包 install.packages("tidyr") library(tidyr) install.packages(&quo ...
R语言进行数据预处理wranging
R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with R packages:tidyr dplyr Ground rules ...
R语言进行数据预处理
R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with Rpackages:tidyr dplyr Ground rules l ...
[原]CentOS7安装Rancher2.1并部署kubernetes (二)---部署kubernetes
################## Rancher v2.1.7 + Kubernetes 1.13.4 ################ ##################### ...
利用python进行数据分析2_数据采集与操作
txt_filename = './files/python_baidu.txt' # 打开文件 file_obj = open(txt_filename, 'r', encoding='utf-8' ...
Django项目：CRM(客户关系管理系统)--81--71PerfectCRM实现CRM项目首页
{#portal.html#} {## ————————46PerfectCRM实现登陆后页面才能访问————————#} {#{% extends 'king_admin/table_index.h ...
R语言中的数据处理包dplyr、tidyr笔记
R语言中的数据处理包dplyr.tidyr笔记 dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了 ...
R语言数据处理包dplyr、tidyr笔记
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...
【翻译】Awesome R资源大全中文版来了，全球最火的R工具包一网打尽，超过300+工具，还在等什么？
0.前言虽然很早就知道R被微软收购,也很早知道R在统计分析处理方面很强大,开始一直没有行动过...直到直到12月初在微软技术大会,看到我软的工程师演示R的使用,我就震惊了,然后最近在网上到处了解和 ...

随机推荐

Python 优化第一步: 性能分析实践使用cporfile+gprof2dot可视化
拿来主义: python -m cProfile -o profile.pstats to_profile.py gprof2dot -f pstats profile.pstats |dot -Tp ...
delete symlink in subversion using svn delete command
# svn delete etc/systemd/system/getty.target.wants/serial-getty@ttyS3.service@ D etc/systemd ...
快速切题sgu126. Boxes
126. Boxes time limit per test: 0.25 sec. memory limit per test: 4096 KB There are two boxes. There ...
快速切题 sgu105. Div 3 数学归纳数位+整除难度:0
105. Div 3 time limit per test: 0.25 sec. memory limit per test: 4096 KB There is sequence 1, 12, 12 ...
经典T-SQL代码
1. N到M条记录(要有主索引ID)SelectTop M-N *From [Table] Where ID in (SelectTop M ID From [Table]) Orderby ID ...
使用emma时遇到的一些问题
今天在用使用emma的过程中遇到了几个问题,记录一下. 1.跑junit过程中没办法产生coverage data文件,导致最后没办法出emma报告,上官网查了一下原因如下: I have instr ...
hibernate 各种主键生成策略(转）
http://www.cnblogs.com/kakafra/archive/2012/09/16/2687569.html 1.assigned 主键由外部程序负责生成,在 save() 之前必须指 ...
Hibernate和Spring整合出现懒加载异常：org.hibernate.LazyInitializationException: could not initialize proxy - no Session
出现问题: SSH整合项目里,项目目录结构如下: 在EmployeeAction.java的list()方法里将employees的list放入到request的Map中. EmployeeActi ...
java.lang.IllegalStateException: Zip File is closed
最近在研究利用sax读取excel大文件时,出现了以下的错误: java.lang.IllegalStateException: Zip File is closed at org.apache.po ...
winform 窗体换皮肤，IrisSkin2.dll的用法
1. 先把IrisSkin2.dll文件添加到当前项目引用(解决方案资源管理器->当前项目->引用->右键->添加引用,找到IrisSkin2.dll文件.....之后就不用我 ...

R(8): tidyr

R(8): tidyr的更多相关文章

随机推荐

热门专题