基于R数据分析之常用Package讲解系列--1. data.table

利用data.table包变形数据

一. 基础概念

data.table 这种数据结构相较于R中本源的data.frame 在数据处理上有运算速度更快，内存运用更高效，可认为它是data.frame 的升级版。同时，data.table 包具备更多更强的功能，它基本工作形式是，

dt [i, j, by]

dt 为data.table 结构

i 为行，j 为列，by 为分组

二. 创建 data.table

和data.frame一样，如下：

data.table(a=c(1, 2), b=c("a", "b"))

a b
1: 1 a
2: 2 b

转化data frame 或list 为 data.table，使用 setDT(df) （仅限于data.frame 和 list），as.data.table(df)(使用范围更广)

三. 取子集

3.1 行向（rows）：

3.1.1. 以row numbers，dt [1:2, ]

3.1.2. 以条件（本质上是逻辑值 TRUE OR FALSE）, dt [a>5, ]

有如下逻辑操作符：

<　　<=　　is.na()　　%in% 　　|　　%like%

>　　>=　　!is.na()　　!　　 &　　%between%　　

3.2 列向（columns）：

3.2.1. 抽提（同行，与data.frame一致）

dt [, c(2)]

dt [, .(b, c)]

3.2.2. 归纳

dt [, .(x=sum(a))] -- 创建一个新data.table 用a列的和

其他函数如：mean，median， min， max等等

3.2.3. 计算列 (在:= 接上计算表达式)

dt [, c:=1+2]

dt[a == 1, c := 1 + 2]

dt[,`:=`(c = 1 , d = 2)] -- 计算分开计算多列

a b c d
1: 1 a 1 2
2: 2 b 1 2

3.2.4. 删除某列

dt[,c := NULL]

3.2.5. 转换某列

dt[,b := as.integer(b)] – 如as.integer(), as.numeric(),as.character(), as.Date()等函数

四. 分组（by）

dt[, j, by = .(a)] -- 由a列内容进行分组

dt[, j, keyby= .(a)] -- 由a列内容进行分组，同时分类排序

常规分组操作：

dt[, .(c = sum(b)), by = a] – 以a列分组来计算b列和
dt[,c := sum(b), by = a] – 创建新列c来储存按a列分组来计算b列和的结果
dt[, .SD[1], by = a] – 抽提a列分组的第一行
dt[, .SD[.N], by = a] – 抽提a列分组的最后一行

五. 链式操作

dt[…][…]

六. data.table的功能函数（重点）

6.1 重排

setorder(dt, a, -b) -- a列升序，b列降序（-）

注意：data.table中以“set”为前缀的功能函数以及操作符“:=”行使功能时，在内存中不创建副本，因此 setDT(df) 比 df <- as.data.table(df)更高效。

6.2 去重

unique(dt, by = c("a", "b")) -- 依次去重a， b列

uniqueN(dt, by = c("a", "b")) -- 计数去重后的行数

6.3 修改列名

setnames(dt, c("a","b"), c("x", "y"))

6.4 设置键（SET KEYS）

setkey(dt, a, b) -- 设置键是为快速重复查找特殊列用dt[.(value), ]，或者是为了合并列用dt_a[dt_b]

七. 合并 data.tables

7.1 按列合并

dt_a[dt_b,on = .(b = y)] -- 用于两个data.table有相同列的合并，如dt_a的b列与dt_b的y列相同

dt_a[dt_b,on = .(b = y, c > z)] -- 上式的扩展，不仅用于相同列，更用于带有条件的合并，如不仅满足dt_a的b列与dt_b的y列相同，而且要满足dt_a的c列大于dt_b的z列

7.2 滚动合并

dt_a[dt_b, on = .(id = id, date = date), roll = TRUE] -- 不仅按id，data进行匹配，同时保持向最近一行进行匹配

7.3 全合并

rbind(dt_a, dt_b) -- 行合并

cbind(dt_a, dt_b) -- 列合并

八. 重构data.table（与reshape2包相似）

长数据变宽数据

dcast(dt, id ~ y, value.var= c("a", "b"))

宽数据变长数据

melt(dt,
id.vars= c("id"),
measure.vars= patterns("^a", "^b"),
variable.name = "y",
value.name = c("a", "b"))

九. 应用Apply 函数

dt[, lapply(.SD, mean), .SDcols = c("a", "b")] ---

e.g. mean(), as.character(),
which.max()。

cols <-c("a")
dt[, paste0(cols, "_m") := lapply(.SD, mean),
.SDcols = cols] --- 重命名运算后的列

十. 对连续行计数

dt[, c := 1:.N, by = b] -- 分组后，计数行数，即计算每组有多少行

dt[, c := shift(a, 1), by = b]

十一. 读取和写入文件

fread("file.csv")

fread("file.csv", select = c("a", "b")) 这个函数很强大，除了读文件以外，可以直接读网址

fwrite(dt, "file.csv") 写入文件

基于R数据分析之常用Package讲解系列--1. data.table的更多相关文章

R语言学习笔记（十七）：data.table包中melt与dcast函数的使用
melt函数可以将宽数据转化为长数据 dcast函数可以将长数据转化为宽数据 > DT = fread("melt_default.csv") > DT family_ ...
Create and format Word documents using R software and Reporters package
http://www.sthda.com/english/wiki/create-and-format-word-documents-using-r-software-and-reporters-pa ...
基于java平台的常用资源整理
这里整理了基于java平台的常用资源翻译 from :akullpp | awesome-java 大家一起学习,共同进步. 如果大家觉得有用,就mark一下,赞一下,或评论一下,让更多的人知道.t ...
RDIFramework.NET — 基于.NET的快速信息化系统开发框架 — 系列目录
RDIFramework.NET — 基于.NET的快速信息化系统开发框架 — 系列目录 RDIFramework.NET,基于.NET的快速信息化系统开发.整合框架,给用户和开发者最佳的.Net框架 ...
这里整理了基于java平台的常用资源
这里整理了基于java平台的常用资源翻译 from :akullpp | awesome-java 大家一起学习,共同进步. 如果大家觉得有用,就mark一下,赞一下,或评论一下,让更多的人知道.t ...
R语言中常用包（二）
数据导入以下R包主要用于数据导入和保存数据 feather:一种快速,轻量级的文件格式.在R和python上都可使用readr:实现表格数据的快速导入.中文介绍可参考这里readxl:读取Micro ...
R语言数据分析利器data.table包—数据框结构处理精讲
R语言数据分析利器data.table包-数据框结构处理精讲 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代 ...
Linux学习之路--常用命令讲解
Linux常用命令讲解 1.命令格式:命令 [-选项] [参数] 超级用户的提示符是# 一般用户的提示符是$ 如:ls -la /usr说明: 大部分命令遵从该格式多个选项时,可以一起写 eg:ls ...
R数据分析：潜类别轨迹模型LCTM的做法，实例解析
最近看了好多潜类别轨迹latent class trajectory models的文章,发现这个方法和我之前常用的横断面数据的潜类别和潜剖面分析完全不是一个东西,做纵向轨迹的正宗流派还是这个方法,当 ...

随机推荐

Cocos2d-x 学习笔记(11.2) RotateBy RotateTo
1. RotateBy RotateTo 两个旋转方法.RotateBy是在当前角度上旋转设置的角度.RotateTo是直接旋转到设置的角度,方向遵循“就近原则”.两者没有相互继承关系. 1.1 成员 ...
ANSI最全介绍linux终端字体改变颜色等
ANSI转义序列维基百科,自由的百科全书由于国内不能访问wiki而且国内关于ANSI的介绍都是简短的不能达到,不够完整所以转wiki到此博客,方便国内用户参考,原地址(https://zh.wik ...
近万字案例：Rancher + VMware PKS实现全球数百站点K8S集群管理
Sovereign Systems是一家成立于2007年的技术咨询公司,帮助客户将传统数据中心技术和应用程序转换为更高效的.基于云的技术平台,以更好地应对业务挑战.曾连续3年提名CRN,并且在2012 ...
百万年薪python之路 -- 并发编程之多线程二
1. 死锁现象与递归锁进程也有死锁与递归锁,进程的死锁和递归锁与线程的死锁递归锁同理. 所谓死锁: 是指两个或两个以上的进程或线程在执行过程中,因为争夺资源而造成的一种互相等待的现象,在无外力的作用 ...
课堂练习 Word count
1. 团队介绍团队成员:席梦寒,胡琦 2. 项目计划我们选第一.二个功能点进行编程. 具体计划: (1).首先爬取网站内容及网页长度: (2).对爬取的文件内容进行word count操作: 3. ...
使用animate.css
今天有个一前辈来看了一下我的小程序啊,说写的还行就是可以不用只按照ui给的图写界面,自己可以添加一些动态的炫酷效果,不用不知道一用吓一跳啊,用之前觉得好好一个界面为什么要搞那些花里胡哨的东西,单纯一点 ...
彻底解决 Mechanism level: Failed to find any Kerberos tgt
错误描述 Secure Client Cannot Connect ([Caused by GSSException: No valid credentials provided(Mechanism ...
面对对象高阶+反射+魔法方法+单例(day22)
目录昨日内容组合封装 property装饰器多态鸭子类型今日内容 classmethod staticmethod 面对对象高级 isinstance issubclass 反射(重要) ...
Dubbo学习系列之十六（ELK海量日志分析框架）
外卖公司如何匹配骑手和订单?淘宝如何进行商品推荐?或者读者兴趣匹配?还有海量数据存储搜索.实时日志分析.应用程序监控等场景,Elasticsearch或许可以提供一些思路,作为业界最具影响力的海量搜索 ...
Java新特性 5、6、7、8、9、10、11、12、13
文章转载于:https://www.cnblogs.com/hepengju/p/11595102.html 项目地址:https://github.com/hepengju/java-new-fea ...

基于R数据分析之常用Package讲解系列--1. data.table

基于R数据分析之常用Package讲解系列--1. data.table的更多相关文章

随机推荐

热门专题