melt函数可以将宽数据转化为长数据 dcast函数可以将长数据转化为宽数据 > DT = fread("melt_default.csv") > DT family_id age_mother dob_child1 dob_child2 dob_child3 1: 1 30 1998-11-26 2000-01-29 NA 2: 2 27 1996-06-22 NA NA 3: 3 26 2002-07-11 2004-04-05 2007-09-02 4: 4 32 2…
R语言中提供了许多用来整合和重塑数据的强大方法. 整合 aggregate 重塑 reshape 在整合数据时,往往将多组观测值替换为根据这些观测计算的描述统计量. 在重塑数据时,则会通过修改数据的结构(行与列)来决定数据的组织方式. 样例数据:mtcars 从Motor Trend杂志(1974)提取的,它描述了34种车型的设计和性能特点(气缸数.排量.马力.每加仑汽油行驶的英里数,等等,详细可使用help(mtcars). 一.转置 反转行和列,使用函数t()即可对一个矩阵或数据框进行转置.…
一般在跑耗时较长的程序时,我们不知道程序到底有没有正常跑着,或者在爬虫的时候不知道爬到什么时候断了.因此可以添加进度条来显示当前进度,观察进度是否有进展.当进度条卡住的时候,可以判断程序断线,从而可以进行断点重跑. 在R语言中使用 library(tcltk) 加载 tcltk 包可以实现进度条展示. # 进度条 library(tcltk) u <- 1:2000 # 开启进度条 pb <- tkProgressBar("进度","已完成 %", 0,…
1   从该链接中下载测试数据,http://pan.baidu.com/share/link?shareid=3322971616&uk=3862050759   2   把测试文件Analysis.txt拷贝到R默认的目录下,,目录可在chang dir下选择     3   在R环境中输入程序 algae <- read.table('Analysis.txt', header=F, dec='.', col.names=c('season','size','speed','mxPH'…
一.总结 组合数:choose(n,k) —— 从n个中选出k个 阶乘:factorial(k) —— k! 排列数:choose(n,k) * factorial(k) 幂:^ 余数:%% 整数商:%/% 列出所有组合数矩阵:combn(x,n) t(combn(x,n)) 转置 二.具体例子 choose(5,3) # 10 factorial(5) # 120 choose(5,3)*factorial(3) # 60 2^10 # 1024 10 %% 3 # 1 10 %/% 3 #…
选取预测概率的分割点 cutoff<- function(n,p){ pp<-1 i<-0 while (pp>=0.02) { model.predfu<-rep("failure",n) model.predfu[model4.prob > 0.2 + i*0.001]<-"victory" pp<- abs(p-sum(model.predfu=="failure")/n) i<-i+1…
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html ---- 前言: 应用背景兼吐槽 继续延续之前每个月至少一次更新博客,归纳总结学习心得好习惯. 这次的主题是论R与excel的结合,又称 论如何正确把EXCEL文件喂给R处理 分为: 1. xlsx包安装及注意事项 2.用vba实现xlsx批量转化csv 以及,这个的对象,针对跟我一样那些从R开始接触编程的,一直以来都是用excel做数据分析的人……编程大牛请轻拍 之所以要研究这个,是因为最近…
在数据分析中,整理数据的本质可以归纳为:对数据进行分割(Split),然后应用(Apply)某些处理函数,最后将结果重新组合(Combine)成所需的格式返回,简单描述为:Split - Apply - Combine.这个过程可以通过Basic包的apply家族函数来实现,apply家族函数包括了apply.sapply.lapply.tapply.aggregate等,可以应用于数据分析的各个阶段.plyr包是apply家族函数的升级,使用plyr包可以实现:在一个函数内同时完成“Split…
R语言,一种自由软件编程语言与操作环境,主要用于统计分析.绘图.数据挖掘.R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心团队”负责开发.R是基于S语言的一个GNU计划项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行.R的语法是来自Scheme. R的源代码可自由下载使用,亦有已编译的可执行文件版本可以下载,可在多种平台下运行,包括UNIX(也包括FreeBSD和Linux).…
包(Package)是实现特定功能的.预先写好的代码库(library),通俗地说,包是含有函数.数据等的功能模块.R拥有大量的软件包,许多包都是由某一领域的专家编写的,但并不是所有的包都有很高的质量.在使用包之前,最好到社区中了解其他网友的反馈.R预先安装了一系列的基础包,包括base.datasets.utils.grDevices.graphics.stats.以及methods,由于已经预先安装,因此,可以直接使用,提供了系统默认的函数和数据集. 一,包操作 在使用包之前,用户必须把包安…