使用R进行分组统计

分组统计数据集是很常见的需求，R中也有相应的包支持数据集的分组统计。自己尝试了写了段R代码来完成分组统计数据集，支持公式，感觉用起来还算方便。代码分享在文章最后。

使用方式:

step 1: source('AggregateSummary.R')

step 2: pastecs_summary(mpg+hp+wt~am,data=mtcars)

执行结果如下：

AggregateSummary.R的源码：

library(plyr)

library(stringr)

library(pastecs)

parseformula <- function(formula = "...  ~ variable", varnames, value.var = "value") {

  remove.placeholder <- function(x) x[x != "."]

  replace.remainder <- function(x) {

    if (any(x == "...")) c(x[x != "..."], remainder) else x

  }

  if (is.formula(formula)) {

    formula <- str_c(deparse(formula, 500), collapse = "")

  }

  if (is.character(formula)) {

    dims <- str_split(formula, fixed("~"))[[1]]

    formula <- lapply(str_split(dims, "[+*]"), str_trim)

    formula <- lapply(formula, remove.placeholder)

    all_vars <- unlist(formula)

    if (any(all_vars == "...")) {

      remainder <- setdiff(varnames, c(all_vars, value.var))

      formula <- lapply(formula, replace.remainder)

    }

  }

  if (!is.list(formula)) {

    stop("Don't know how to parse", formula, call. = FALSE)

  }

  lapply(formula, as.quoted)

}

evalFormula <- function(formula,data){

  fo<-parseformula(formula)

  lapply(fo,eval.quoted,envir=data)

}

pastecs_Summary<- function(formula,data){

  tmplist<-evalFormula(formula,data)

  df1<-as.data.frame(tmplist[1])

  uni<-unique(tmplist[[2]][[1]])

  lst<-list()

  for(i in uni){

    lst[[paste(names(tmplist[[2]]),i)]]<-stat.desc(df1[which(tmplist[[2]][[1]]==i),])

  }

  return(lst)

}

使用R进行分组统计的更多相关文章

R语言-分组统计
分组统计 1.假定有一组成绩数据,要求根据性别进行分组统计: > score ID score1 score2 Gender1 101 11.35321 0.9 male2 ...
R语言︱数据分组统计函数族——apply族用法与心得
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:apply族功能强大,实用,可以代替 ...
R中利用apply、tapply、lapply、sapply、mapply、table等函数进行分组统计
apply函数(对一个数组按行或者按列进行计算): 使用格式为: apply(X, MARGIN, FUN, ...) 其中X为一个数组:MARGIN为一个向量(表示要将函数FUN应用到X的行还是列) ...
DataTable、List使用groupby进行分组和分组统计；List、DataTable查询筛选方法
DataTable分组统计: .用两层循环计算,前提条件是数据已经按分组的列排好序的. DataTable dt = new DataTable(); dt.Columns.AddRange(new ...
XtraGrid使用心得(折叠式主细档、分组统计)
XtraGrid的关键类就是:GridControl和GridView.GridControl本身不显示数据,数据都是显示在GridView/CardView/XXXXView中.GridContro ...
Oracle按不同时间分组统计
Oracle按不同时间分组统计 Oracle按不同时间分组统计的sql 如下表table1: 日期(exportDate) 数量(amount) -------------- ----------- ...
【.Net】大文件可使用的文本分组统计工具（附带源码，原创）
本工具可实现的效果: 1.读取大文件(大于1GB) 2.根据分隔符分割后的列分组 3.速度快. 4.处理过程中,可以随时停止处理,操作不卡死. 5.有对当前内存的实时监测,避免过多占用内存,影响系统运 ...
数据分组统计函数族——apply族用法与心得
笔者寄语:apply族功能强大,实用,可以代替很多循环语句,R语言中不要轻易使用循环语句. 原文链接: https://blog.csdn.net/sinat_26917383/article/det ...
Linq to SQL 语法查询(链接查询，子查询 & in操作 & join，分组统计等)
Linq to SQL 语法查询(链接查询,子查询 & in操作 & join,分组统计等) 子查询描述:查询订单数超过5的顾客信息查询句法: var 子查询 = from c i ...

随机推荐

2018.10.08 NOIP模拟栅栏（树状数组+rand）
传送门今天的送分题. 首先考虑每次给要围上栅栏的矩阵里的整体加上1,如果栅栏被撤销就整体减1,最后比较两个点的值是否相同来进行判断. 然而这样的效果并不理想,很容易卡掉. 进一步思考,我们第iii次 ...
PHP二个高精确度数字相加减
1.相加 string bcadd(string left operand, string right operand, int [scale]); 2.相减 string bcsub(string ...
Scrapy学习篇（十三）之scrapy-splash
之前我们学习的内容都是抓取静态页面,每次请求,它的网页全部信息将会一次呈现出来. 但是,像比如一些购物网站,他们的商品信息都是js加载出来的,并且会有ajax异步加载.像这样的情况,直接使用scrap ...
破解Unity5.3.4f1
破解的目的是将受限的个人版变为全功能的Pro版,破解后就可以使用所有功能了,界面也变成了黑色的主题. 破解网址(支持最新版的5.3.4f1): http://www.ceeger.com/forum/ ...
html转jsp部分css不可用
解决方法 <%String path = request.getContextPath();String basePath = request.getScheme()+"://&quo ...
Android 3D游戏开发
OpenGL ES(OpenGL Embedded System) Android 3D游戏开发技术宝典:OpenGL ES 2.0(android 3d游戏开发技术宝典 -opengl es 2.0 ...
Ubuntu 16.04下安装网络流量分析工具 Wireshark
本文链接地址:https://www.linuxidc.com/Linux/2016-08/134526.htm 切勿用商业用途 sudo apt-add-repository ppa:wiresha ...
cmder简单使用
window命令行的替代工具cmder.至于为什么要找个替代cmd的工具,你懂得! 一官网下载 http://gooseberrycreative.com/cmder/ 二安装 1 直接解压 2 ...
Office - Outlook
将邮件存到本地服务器容量有限,避免丢失和经常提示容量不足步骤在File->Account Settings->Account Settings下面在Data Files标签页新建一 ...
VisualStudio、NETFramework及C#版本关系
1.Visual Studio..NET Framework 及C#版本搭载关系介绍 Visual Studio版本 .NET Framework版本 C#版本增加功能 Visual Studio ...

使用R进行分组统计

使用R进行分组统计的更多相关文章

随机推荐

热门专题