R提高篇(三): 数据管理一

目录：

创建新变量
变量重编码
日期值
数据排序
数据集合并
数据子集
随机取样

创建新变量

算术运算函数：x%%y 【求余 x mod y, 5%%2的结果为1】， x%/%y 【整数除法，5% / %2 结果为2】， ^或 ** 求幂
如下示例数据，在对象中增加平均、合计变量（场景不大合适，主要为了说明问题）

有多种方式来实现新增变量的处理，推荐使用 transform 示例代码如下：

> mydata <- transform(mydata,avg = (age + weight)/2 , total = age + weight)

> mydata

  name age weight   avg total

1 张三  32     42  37.0    74

2 李四  45     56  50.5   101

3 王五  25    120  72.5   145

4 赵六  39    120  79.5   159

5 老二 199    180 189.5   379

变量重编码

变量重编码涉及根据现有变量的值创建新值的过程，如下图，按客户年龄分为青年、中年、老年进行统计

上图中，199明显是异常数据，在进行转换前必须将此赋为缺失值，语法为：

> mydata$age[mydata$age == 199] <- NA

> mydata

  name age weight

1 张三  32     42

2 李四  45     56

3 王五  25    120

4 赵六  39    120

5 老二  NA    180

变量重编码，示例代码如下：

> mydata <- within(mydata,{

+                  agecat <- NA

+                  agecat[age >= 45] <- "Elder"

+                  agecat[age > 25 & age < 45] <- "Middle Aged"

+                  agecat[age <= 25] <- "Young"})

> mydata

  name age weight      agecat

1 张三  32     42 Middle Aged

2 李四  45     56       Elder

3 王五  25    120       Young

4 赵六  39    120 Middle Aged

5 老二  NA    180        <NA>

注意：

with() 与 within() 函数功能类似，不同点在于它允许你修改数据框
或（|）与并（&）单字符表示与C#语法不一样
上图第5行数据包含缺失值，含用缺失值的算术表达式和函数的计算结果也是缺失值，通过na.omit()函数可删除带缺失值的行
大多数函数都拥有na.rm = TRUE选项，可在计算前移除缺失值并使用剩余的值进行计算，如下
```
> sum(mydata$age)

[1] NA

> sum(mydata$age,na.rm = TRUE)

[1] 141
```

日期值

日期值默认输入格式为：yyyy-mm-dd, R中通常以字符输入，通过as.Date()函数进行转换，输入格式如下：

1. %y 两位数的年份如： 07
2. %Y 四位数的年份如： 2007
3. %a 缩写的星期名如： Mon
4. %A 星期名如： Monday
5. %b 缩写的月份如： Jan
6. %B 月份如： January
7. %m 月份(00-12)
8. %d 日期（00-31)

sys.Date(): 返回当天的日期
date(): 返回当前的日期和时间
difftime(): 计算时间间隔，语法：difftime(time1, time2, units = c("auto", "secs", "mins", "hours","days", "weeks"))
注意：R内部最小日期 1970.01.01

示例如下：

> t <- Sys.time();t                      #获取当前时间

[1] "2016-10-11 17:43:27 CST"

> as.POSIXlt(t-24*60*60)                 #获取一天前的日期

[1] "2016-10-10 17:43:27 CST"

> l <- unclass(t);l                      #长整形的数据自1970-01-01年开始

[1] 1476179008

> as.POSIXct(l,origin = "1970-01-01")    #将长整形的数据转换为日期型数据

[1] "2016-10-11 17:43:27 CST"

> format(t,format="%Y-%m-%d %H:%M:%S")   #自定义时间格式

[1] "2016-10-11 17:43:27"

> dob<-as.Date("2016-10-01")

> difftime(t,dob,units = "days")         #计算时间差

Time difference of 10.40518 days

数据排序

order()函数可对一个数据框排序，默认是升序，在变量前加减号可得到降序的排序效果

上例按年龄升序、体重降序排列代码示例：

> with(mydata,{

+   orderData <<- mydata[order(age,-weight),]

+ })

> orderData

  name age weight   avg total

3 王五  25    120  72.5   145

1 张三  32     42  37.0    74

4 赵六  39    120  79.5   159

2 李四  45     56  50.5   101

5 老二 199    180 189.5   379

数据集合并

merge(): 通过一个或多个共有变量横向合半两个数据框（即一种内联结，inner join）
语法： total <- merge(dataframeA, dataframeB,by=c("ID","country")) #按ID和country进行合并
按下面各科成绩数据与第一小节人员信息数据集合并示例

示例代码：

> merge(m1,score,by=c("name"))

  name age weight  yw  sx  yy

1 老二 199    180 100 100 100

2 李四  45     56  80  87  76

3 王五  25    120 100  98  87

4 张三  32     42  90  80 100

5 赵六  39    120  94  92  90

cbind(): 直接横向合并两个数据框，不需要指定公共索引时使用，要求：每个对象拥有相同的数据行数和排序顺序

示例代码：

> cbind(m1,score)

  name age weight name  yw  sx  yy

1 张三  32     42 张三  90  80 100

2 李四  45     56 李四  80  87  76

3 王五  25    120 王五 100  98  87

4 赵六  39    120 赵六  94  92  90

5 老二 199    180 老二 100 100 100

rbind(): 纵向合并两个数据框（两个数据框必须拥有相同的变量名，顺序不必一定相同），示例如下：

> m2 <- data.frame(name=m1$name,yw=m1$age,sx=m1$weight,yy=m1$weight%%m1$age)

> rbind(m2,score)

   name  yw  sx  yy

1  张三  32  42  10

2  李四  45  56  11

3  王五  25 120  20

4  赵六  39 120   3

5  老二 199 180 180

6  张三  90  80 100

7  李四  80  87  76

8  王五 100  98  87

9  赵六  94  92  90

10 老二 100 100 100

数据集取子集

以上一节 cbind(m1,score) 合并后的数据集为例，取1、2、6、7 列数据，实现方式如下：

方式一：保留变量

> x <- cbind(m1,score);x

  name age weight test name  yw  sx  yy

1 张三  32     42   10 张三  90  80 100

2 李四  45     56   11 李四  80  87  76

3 王五  25    120   20 王五 100  98  87

4 赵六  39    120    3 赵六  94  92  90

5 老二 199    180  180 老二 100 100 100

> y <- x[,c(1,2,5,6)];y

  name age name.1  yw

1 张三  32   张三  90

2 李四  45   李四  80

3 王五  25   王五 100

4 赵六  39   赵六  94

5 老二 199   老二 100

方式二：剔除变量（在某一列的前面加负号就会剔除某列）

> z <- x[,c(-3,-4,-5,-8)];z

  name age  yw  sx

1 张三  32  90  80

2 李四  45  80  87

3 王五  25 100  98

4 赵六  39  94  92

5 老二 199 100 100

方式三：赋NULL值，注意：NULL 与 NA是不同的

> x$weight <- x$test <- x[,5] <- x$yy <- NULL

> x

  name age  yw  sx

1 张三  32  90  80

2 李四  45  80  87

3 王五  25 100  98

4 赵六  39  94  92

5 老二 199 100 100

方式四：subset()取子集

> x1 <- cbind(m1,score);x1

  name age weight name  yw  sx  yy

1 张三  32     42 张三  90  80 100

2 李四  45     56 李四  80  87  76

3 王五  25    120 王五 100  98  87

4 赵六  39    120 赵六  94  92  90

5 老二 199    180 老二 100 100 100

>  subset(x1,age>=25 & age < 50,select = c("name","age","yw","sx"))

  name age  yw sx

1 张三  32  90 80

2 李四  45  80 87

3 王五  25 100 98

4 赵六  39  94 92

方法五: sqldf()函数使用sql语句对数据框进行操作，需安装 sqldf 包，语法： install.packages("sqldf")

> x1 <- merge(m1,score,by=c("name"));x1

  name age weight  yw  sx  yy

1 老二 199    180 100 100 100

2 李四  45     56  80  87  76

3 王五  25    120 100  98  87

4 张三  32     42  90  80 100

5 赵六  39    120  94  92  90

>  library(sqldf)

>  sqldf("select name,age,yw,sx,yy from x1 where age >=25 and age < 35 order by age")

  name age  yw sx  yy

1 王五  25 100 98  87

2 张三  32  90 80 100

随机取样

sample(): 从大数据库中随机抽取大小为n的样本，在数据挖掘和机器学习领域，抽样是常见的做法
replace 参数控制抽取数据有放回或无放回

示例：从上例x1 对象中随机无放回取2份样本

> y1 <- x1[sample(1:nrow(x1),size = 2,replace = FALSE),]

> y1

  name age weight yw sx yy

2 李四  45     56 80 87 76

5 赵六  39    120 94 92 90

> y1 <- x1[sample(1:nrow(x1),size = 2,replace = FALSE),]

> y1

  name age weight  yw  sx  yy

1 老二 199    180 100 100 100

3 王五  25    120 100  98  87

R提高篇(三): 数据管理一的更多相关文章

R提高篇(四): 数据管理二
目录: 数学函数统计函数应用示例控制流数学函数 ceiling(x): 大于等于 x 的最小整数, 如: ceiling(3.213) --> 4 floor(x): 小 ...
Java提高篇(三二)-----List总结
前面LZ已经充分介绍了有关于List接口的大部分知识,如ArrayList.LinkedList.Vector.Stack,通过这几个知识点可以对List接口有了比较深的了解了.只有通过归纳总结的知识 ...
java提高篇(三)-----java的四舍五入
Java小事非小事!!!!!!!!!!!! 四舍五入是我们小学的数学问题,这个问题对于我们程序猿来说就类似于1到10的加减乘除那么简单了.在讲解之间我们先看如下一个经典的案例: public stat ...
R提高篇(二): 图形初阶
目录: 图形示例图形参数符号.线条颜色文本属性尺寸与边界自定义标题自定义坐标轴图例文本标注图形组合图形示例如下代码描述病人对两种药物五个剂量水平上的响应情况 > myda ...
R提高篇(五): 描述性统计分析
数据作为信息的载体,要分析数据中包含的主要信息,即要分析数据的主要特征(即数据的数字特征), 对于数据的数字特征, 包含数据的集中位置.分散程度和数据分布,常用统计项目如下: 集中趋势统计量: 均值 ...
R提高篇(一): 输入输出
目录: 文本输出图形输出数据输入数据框输出文本导入 Excel导入文本输出语法: sink(file = NULL, append = FALSE, type = c("outp ...
java提高篇（三十）-----Iterator
迭代对于我们搞Java的来说绝对不陌生.我们常常使用JDK提供的迭代接口进行Java集合的迭代. Iterator iterator = list.iterator(); while(iterator ...
Maven提高篇系列之（三）——使用自己的Repository(Nexus)
这是一个Maven提高篇的系列,包含有以下文章: Maven提高篇系列之(一)——多模块 vs 继承 Maven提高篇系列之(二)——配置Plugin到某个Phase(以Selenium集成测试为例) ...
java提高篇（三）-----理解java的三大特性之多态
面向对象编程有三大特性:封装.继承.多态. 封装隐藏了类的内部实现机制,可以在不影响使用的情况下改变类的内部结构,同时也保护了数据.对外界而已它的内部细节是隐藏的,暴露给外界的只是它的访问方法. 继承 ...

随机推荐

如何运用inno在安装和卸载时提示用户结束进程？
我尝试着写了一段,但是卸载段存在问题,请指点! CODE [Files]Source: ISTask.dll; DestDir: {app}; Flags: ignoreversion [Code]f ...
Magento在IE下登陆不了后台，在Firefox下正常
目前的解决办法如下: 方法一,用FF登陆后台,在 System—Configuration-Web-Session Cookie management....timeout 改为:86400 方法二: ...
301、404、200、304、500等HTTP状态，代表什么意思?
一些常见的状态码为: 200 - 服务器成功返回网页 404 - 请求的网页不存在 503 - 服务器超时下面提供 HTTP 状态码的完整列表.点击链接可了解详情.您也可以访问 HTTP 状态码上的 ...
转：设置session过期时间
在Asp.net应用中,很多人会遇到Session过期设置有冲突.其中,可以有四处设置Session的过期时间: 一.全局网站(即服务器)级 IIS-网站-属性-Asp.net-编辑配置-状态管理-会 ...
跳出frameset框架
很多网页都是框架结构的,在很多的情况下会通过按钮点击事件或链接,跳出框架转到其它界面.例如说点击“注销登录”返回到登录界面. 一.通过运行脚本跳出框架有以下几种写法: 1.<script lan ...
Day08_面向对象第三天
1.代码块(掌握) 1.概述由{}扩起来的代码称之为代码块,类或者方法也可认为是代码块,但是一般不这么说,我们平时所说的代码块指的是孤零零的{} 2.代码块作用局部代码块作用 ...
php-抽象
//继承//子类可以继承父类的一切//特点:单继承//函数的重写 //多态//当父类引用指向子类实例,由于子类对父类的方法进行了重写,父类引用在调用该方法的时候表现出的不同//如果一个方法需要一个父类 ...
Flume NG之Interceptor简介
转载地址:http://www.cnblogs.com/lxf20061900/p/3658172.html 有的时候希望通过Flume将读取的文件再细分存储,比如讲source的数据按照业务类型分开 ...
android 软键盘不遮挡页面上的控件
只需要加android:windowSoftInputMode="adjustPan"就可以如: <activity android:name=".Enhance_ ...
Spring事务管理 -- 挺好
Spring是SSH中的管理员,负责管理其它框架,协调各个部分的工作.今天一起学习一下Spring的事务管理.Spring的事务管理分为声明式跟编程式.声明式就是在Spring的配置文件中进行相关配置 ...

R提高篇(三): 数据管理一

R提高篇(三): 数据管理一的更多相关文章

随机推荐

热门专题