ggplot2(9) 数据操作
9.1 plyr包简介
ddply {plyr}: Split data frame, apply function, and return results in a data frame.
ddply(.data, .variables, .fun = NULL, ..., .progress = "none", .inform = FALSE, .drop = TRUE, .parallel = FALSE, .paropts = NULL)
- .data:用来作图的数据。
- .variables:对数据取子集的分组变量,形式是 .(var1, var2) ,为了与图形保持一致,该变量必须包含所有在画图过程中用到的分组变量和分面变量。
- .fun:要在各个子集上运行的统计汇总函数。
- .inform:产生信息丰富的错误消息?这在默认情况下是关闭的,因为它大大降低了处理速度,但是对于调试非常有用。
# 选取各个颜色里最小的钻石
ddply(diamonds, .(color), subset, carat == min(carat))
# 选取最小的两颗钻石
ddply(diamonds, .(color), subset, order(carat) <= 2)
# 选取每组里大小为前1%的钻石
ddply(diamonds, .(color), subset, carat > quantile(carat, 0.99))
# 选出所有比组平均值大的钻石
ddply(diamonds, .(color), subset, price > mean(price))
transform {base}: Transform an Object, for Example a Data Frame.
transform(`_data`, ...)
transform()是进行数据变换的函数,与ddply()结合可以计算分组统计量。
# 把每个颜色组里钻石的价格标准化,使其均值为0,方差为1
ddply(diamonds, .(color), transform, price = scale(price))
colwise {plyr}: Column-wise function.
colwise用来向量化一个函数,能把原本只接受向量输入的函数变成可以接受数据框输入的函数。
要注意colwise返回的是一个新的函数,而不是函数运行的结果。
下面例子中nmissing()计算向量里缺失值的数目,用colwise()向量化后,可以应用到数据框,计算数据框中各列的缺失值数目。
nmissing <- function(x) sum(is.na(x)) nmissing_df <- colwise(nmissing)
nmissing_df(msleep) # This is shorthand for the previous two steps
colwise(nmissing)(msleep)
numcolwise()和catcolwise()是colwise()的特殊版本,功能类似,但numcolwise()只对数值类型的列操作,catcolwise()只对分类类型的列操作。
我们也可以编写编写的函数,只要他能够接受、输出数据框就可以。下面的例子计算价格和克拉的秩相关关系。
my_summary <- function(df) {
with(df, data.frame(pc_cor = cor(price, carat, method = "spearman"), lpc_cor = cor(log(price),
log(carat))))
}
ddply(diamonds, .(cut), my_summary) ddply(diamonds, .(color), my_summary)
拟合多个模型:
dense <- subset(diamonds, carat < 2)
qplot(carat, price, data = dense, geom = "smooth", colour = color, fullrange = TRUE)
library(mgcv)
library(plyr)
smooth <- function(df) {
mod <- gam(price ~ s(carat, bs = "cs"), data = df)
grid <- data.frame(carat = seq(0.2, 2, length = 50))
pred <- predict(mod, grid, se = T)
grid$price <- pred$fit
grid$se <- pred$se.fit
grid
}
smoothes <- ddply(dense, .(color), smooth)
qplot(carat, price, data = smoothes, colour = color, geom = "line")
qplot(carat, price, data = smoothes, colour = color, geom = "smooth", ymax = price +
2 * se, ymin = price - 2 * se)
9.2 数据化“宽”为“长”
melt {reshape2}: Convert an object into a molten data frame.
melt(data, ..., na.rm = FALSE, value.name = "value")
- data:待变形的原数据;
- id.vars:依旧放在列上、位置保持不变的变量;
- measure.vars:需要被放进同一列的变量。
示例:
https://www.cnblogs.com/dingdangsunny/p/12482067.html#_label3
多重时间序列:
emp <- melt(economics, id = "date", measure = c("unemploy", "uempmed"))
qplot(date, value, data = emp, geom = "line") + facet_grid(variable ~ ., scales = "free_y")
ggplot2不允许绘制带有两个不同坐标轴的图,因为这样的图具有误导性。可以使用自由标度的分面图形表达有量级差的变量。
总结
ggplot2(9) 数据操作的更多相关文章
- StackExchange.Redis帮助类解决方案RedisRepository封装(字符串类型数据操作)
本文版权归博客园和作者本人共同所有,转载和爬虫请注明原文链接 http://www.cnblogs.com/tdws/tag/NoSql/ 目录 一.基础配置封装 二.String字符串类型数据操作封 ...
- hive数据操作
mdl是数据操作类的语言,包括向数据表加载文件,写查询结果等操作 hive有四种导入数据的方式 >从本地加载数据 LOAD DATA LOCAL INPATH './examples/files ...
- Dapper 数据操作框架
数据操作DapperFrom NuGet:Install-Package DapperorInstall-Package Dapper.StrongName微型ORM:PetaPoco获得PetaPo ...
- Django数据操作F和Q、model多对多操作、Django中间件、信号、读数据库里的数据实现分页
models.tb.objects.all().using('default'),根据using来指定在哪个库里查询,default是settings中配置的数据库的连接名称. 外话:django中引 ...
- coreData数据操作
// 1. 建立模型文件// 2. 建立CoreDataStack// 3. 设置AppDelegate 接着 // // CoreDataStack.swift // CoreDataStackDe ...
- Entity Framework 5.0系列之数据操作
Entity Framework将概念模型中定义的实体和关系映射到数据源,利用实体框架可以将数据源返回的数据具体化为对象:跟踪对象所做的更改:并发处理:将对象更改传播到数据源等.今天我们就一起讨论如何 ...
- 数据操作语言DML与运算符
数据操作语言DML(添加,修改,删除) 1.添加数据 insert into insert into 表名 (字段列表) values (值列表),值列表要和字段列表按顺序匹配. insert int ...
- SQL不同服务器数据库之间的数据操作整理(完整版)
---------------------------------------------------------------------------------- -- Author : htl25 ...
- C#利用SqlDataAdapte对DataTable进行批量数据操作
C#利用SqlDataAdapte对DataTable进行批量数据操作,可以让我们大大简化操作数据的代码量,我们几乎不需要循环和不关心用户到底是新增还是修改,更不用编写新增和修改以及删除的SQL语句, ...
- 使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
随机推荐
- Word Flow:创造吉尼斯世界纪录的触屏文本输入的全新体验——微软Windows Phone 8.1系统倾情巨献
Flow:创造吉尼斯世界纪录的触屏文本输入的全新体验--微软Windows Phone 8.1系统倾情巨献" title="Word Flow:创造吉尼斯世界纪录的触屏文本输入的全 ...
- python学习笔记(0)python基础概念
一.字符集 说字符集之前,先说下2进制的故事,计算机比较傻只认识2进制,什么是2进制,就是0,1,计算机只认识这俩数字,其他的都不认识,这样的0或1为一"位",规定8位为一个字节, ...
- deeplearning.ai 神经网络和深度学习 week2 神经网络基础
1. Logistic回归是用于二分分类的算法. 对于m个样本的训练集,我们可能会习惯于使用for循环一个个处理,但在机器学习中,是把每一个样本写成一个列向量x,然后把m个列向量拼成一个矩阵X.这个矩 ...
- WebFilter 在springBoot工程中不起作用
[1]@ServletComponentScan 必须有一个注解将带有@WebFilter的类包含进去. [2]自定义 FiltersConfig extends WebMvcConfigurerAd ...
- 吴裕雄--天生自然 python开发学习笔记:一劳永逸解决绘图出现中文乱码问题方法
import numpy as np import matplotlib.pyplot as plt x = np.random.randint(0,20,10) y = np.random.rand ...
- 吴裕雄--天生自然python学习笔记:Python3 JSON 数据解析
JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式.它基于ECMAScript的一个子集. Python3 中可以使用 json 模块来对 JSON 数据进 ...
- 为什么jdk1.8 HashMap的容量一定要是2的n次幂
一.jdk1.8中,对“HashMap的容量一定要是2的n次幂”做了严格控制 1.默认初始容量: [Java] 纯文本查看 复制代码 ? 1 2 3 4 /** * The default init ...
- OpenWrt编译后生成的bin文件:jffs2与squashfs、factory与sysupgrade
OpenWrt编译后会生成多个bin文件,比如 openwrt-ar71xx-generic-tl-wr841nd-jffs2-factory.bin 8126464 openwrt-ar71xx-g ...
- Magic Methods 5
描述符 : 将某种特殊类型的类的实例指派给另一个类的属性. 特殊类型为以下方法的1-3个 : __get__(self, instance, owner):用于访问属性,它返回属性的值 __set__ ...
- Angular4——7.表单处理
在Angular中存在两种表单处理方式: 模版驱动式表单 表单的数据模型是通过组件模版中的相关指令来定义的.由于使用这种方式定义表单的数据模型时,我们会受限于HTML的语法,所以,模版驱动方式只适用于 ...