R 语言的Dataframe常用操作

上节我们简单介绍了Dataframe的定义，这节我们具体来看一下Dataframe的操作

首先，数据框的创建函数为 data.frame( )，参考R语言的帮助文档，我们来了解一下data.frame( )的具体用法：

Usage

data.frame(..., row.names = NULL, check.rows = FALSE,

           check.names = TRUE, fix.empty.names = TRUE,

           stringsAsFactors = default.stringsAsFactors())

default.stringsAsFactors()

Arguments

... :these arguments are of either the form value or tag = value. Component names are created based on the tag (if present) or the deparsed argument itself.

row.names :NULL or a single integer or character string specifying a column to be used as row names, or a character or integer vector giving the row names for the data frame.

当然，后面还有很多参数的具体用法，在此不做一一赘述，主要用到的就是前两个。首先，“...”代表了表格数据，就是要构成数据框的数据主体，row.names( )为要构成数据框的行名，那么既然数据框相当于R语言的一个表格，应该既有行名也有列名才对，那么列名又是如何给出的呢？我们知道，很多的数据处理软件以及算法是以数据的列为单位进行的，之前我们构建矩阵的时候，默认也是按列填充（byrow=FALSE），而列名在创建数据框开始我们就已经确定好了的。详见下面代码：

我想要创建一个名为“mydataframe”的数据框，首先确定数据框里面的列有哪些，然后调用函数data.frame( )函数

> C1 <-c(1,2,3,4)

> C2 <-c(5,6,7,8)

> C3 <-c(9,10,11,12)

> C4 <-c(13,14,15,16)

> C5 <-c(17,18,19,20)

> mydataframe <- data.frame(C1,C2,C3,C4,C5,row.names = c("R1","R2","R3","R4"))

> mydataframe

   C1 C2 C3 C4 C5

R1  1  5  9 13 17

R2  2  6 10 14 18

R3  3  7 11 15 19

R4  4  8 12 16 20

由此可见，数据框是把现有的列拼接成一个表格的一种数据结构，细心的朋友会发现，这个数据框怎么跟上节我们讲过的矩阵长得那么一样！！！再回顾一下上节的矩阵创建：

> mydata <- c(1:20)

> cnames <- c("C1","C2","C3","C4","C5")

> rnames <- c("R1","R2","R3","R4")

> myarray <- matrix(mydata,nrow = 4,ncol = 5,dimnames = list(rnames,cnames))

> myarray

   C1 C2 C3 C4 C5

R1  1  5  9 13 17

R2  2  6 10 14 18

R3  3  7 11 15 19

R4  4  8 12 16 20

确实，从长相上来说分不出差别，但是矩阵里面的元素必须一致，而数据框可以是各种类型数据的集合。这种集合不是无条件乱七八糟的集合，而是以列为单位，不同列的元素类型可以不同，但是同一列的元素类型必须一致。因此，矩阵可以看做特殊的数据框类型那么这么做有什么意义呢？在数据统计中，我们需要有各种各样类型的数据，就拿简单的成绩单来说，就包含了“姓名”，“学号”，“科目”等字符型元素，也包括“分数”等数值型元素，还有“是否通过”等布尔型元素，因此，从广泛意义上来说，dataframe更具有普适性，矩阵多用在数学计算中。说归说，我们来实际创建一个数据框，然后再演示一下它的具体操作：

> names <- c("小明","小红","小兰")

> StudentID <- c("2014","2015","2016")

> subjects <- c("英语","英语","英语")

> scores <- c(87,98,93)

> Result <- data.frame(StudentID,names,subjects,scores)

> Result

  StudentID names subjects scores

1      2014  小明     英语     87

2      2015  小红     英语     98

3      2016  小兰     英语     93

由上可见，当没有给数据框指定行名的时候，系统会默认从1开始给每行一个行号，这跟Excel表格有点类似。还是同往常一样，我们先学习dataframe数据类型的基本操作

数据框元素的访问：既然矩阵是特殊的数据框，那么矩阵元素的访问方式应该也同样适用于dataframe吗？不是这样，我们知道，数据框是以行或者列为单位（行列可以转置），因此访问元素时只能整行或者整列访问。即dataframe[1,](访问第一行)，dataframe[,1](访问第一列)采用这种方式访问列时，返回值是按行排列的形式。访问列同样也可以直接使用dataframe(1)访问第一列，或者dataframe(列名)来访问指定的列。也可以连续访问若干列，详见代码：

> Result[1,] #访问第一行

  StudentID names subjects scores

1      2014  小明     英语     87

> Result[,1] #访问第一列

[1] 2014 2015 2016

Levels: 2014 2015 2016

> Result[1] #访问第一列

  StudentID

1      2014

2      2015

3      2016

> Result["names"] #访问指定标号的列

  names

1  小明

2  小红

3  小兰

> Result[1:3,]　　#访问1-3行

  StudentID names subjects scores

1      2014  小明     英语     87

2      2015  小红     英语     98

3      2016  小兰     英语     93

> Result[1:3]　　#访问1-3列

  StudentID names subjects

1      2014  小明     英语

2      2015  小红     英语

3      2016  小兰     英语

> Result[c(1,3),]　　#只访问1,3行，注意写法 c( )

  StudentID names subjects scores

1      2014  小明     英语     87

3      2016  小兰     英语     93

> Result[c(1,4)]　　#只访问1,4列，注意写法 c( )

  StudentID scores

1      2014     87

2      2015     98

3      2016     93

> Result[c("names","scores")]　　#只访问names和scores列，注意写法 c( )

  names scores

1  小明     87

2  小红     98

3  小兰     93

由上可得：对数据框操作，必须以向量为单位，使用c( ) or list( ),通过上述了解，我们发现，普通的访问必须带着行名和列名，这有的时候给我们带来不必要的麻烦，比如我要计算成绩平均值，带上列名Score会给我们带来一些困惑，于是有哪些方法可以在访问数据库元素时不带着行名或者列名呢？

方法一：用attach和detach函数，比如要打印所有names，那么可以写成：

> attach(Result)

The following objects are masked _by_ .GlobalEnv:

    names, scores, StudentID, subjects

The following objects are masked from Result (pos = 3):

    names, scores, StudentID, subjects

> name <- names

> score <-scores

> detach(Result)

> name

[1] "小明" "小红" "小兰"

> score

[1] 87 98 93

> mean(score)

[1] 92.66667

方法二：用with函数

> with(Result,{score <- scores})

> score

[1] 87 98 93

上面谈到了dataframe的创建和读取，如果我需要添加或者删除某一列该怎么办呢？

> Result$age<-c(12,14,13)　　#添加age列

> Result

  StudentID names subjects scores age

1      2014  小明     英语     87  12

2      2015  小红     英语     98  14

3      2016  小兰     英语     93  13

> Result2 <- Result[-2]　　#删除name列

> Result2

  StudentID subjects scores age

1      2014     英语     87  12

2      2015     英语     98  14

3      2016     英语     93  13

如果我需要查询成绩等于98的学生的信息该怎么办呢？

> Result[which(Result$scores==98),]

  StudentID names subjects scores age

2      2015  小红     英语     98  14

上面说过了，矩阵和数据框也是两种不同的数据类型，我们知道数据类型之间可以互相转换，用is.***( )可以判断某个变量是否为***类型，用as.***( )则将某个变量转换为***类型。那么相应的，矩阵转换为数据框类型则应为：

> myarray

   C1 C2 C3 C4 C5

R1  1  5  9 13 17

R2  2  6 10 14 18

R3  3  7 11 15 19

R4  4  8 12 16 20

> myarrayframe <- as.data.frame(myarray)

> myarrayframe

   C1 C2 C3 C4 C5

R1  1  5  9 13 17

R2  2  6 10 14 18

R3  3  7 11 15 19

R4  4  8 12 16 20

> is.data.frame(myarray)

[1] FALSE

> is.data.frame(myarrayframe)

[1] TRUE

跟矩阵matrix操作一样，数据框也有rbind和cbind函数，用法大致相同，有兴趣的朋友可以简单联系一下，这里不再赘述。

最后，我们来谈一下数据框数据处理操作：

上面我们讲到，利用dataframe[ 列号 ]或者dataframe[ 列值 ]可以读取数据框的某一列，返回值仍为数据框类型，但是这部分数据不方便直接利用我们之前讲过的求和，求平均值等方法进行计算分析，因为读取的数据带有“行名/列名”，这个为字符型变量。有的人会问，我在创建数据框的时候，不加行名和列名不就行了？第一，在创建数据框的时候，会默认给你分配行名或者列名，第二，就算不分配行名或者列名，那数据框创建起来还有什么意义？

> mydataframe

   C1 C2 C3 C4 C5

R1  1  5  9 13 17

R2  2  6 10 14 18

R3  3  7 11 15 19

R4  4  8 12 16 20

> mydataframe["C4"]

   C4

R1 13

R2 14

R3 15

R4 16

> mean(mydataframe["C4"])

[1] NA

Warning message:

In mean.default(mydataframe["C4"]) : 参数不是数值也不是逻辑值：回覆NA

> is.data.frame(mydataframe["C4"])

[1] TRUE

方法一：将数据框格式重新转化为矩阵格式，然后按照矩阵索引的方式来找寻要处理的数据组，利用矩阵或者向量中相关函数来进行一定的数据处理。

> myarray2 <- as.matrix(mydataframe)

> is.matrix(myarray2)

[1] TRUE

> myarray2

   C1 C2 C3 C4 C5

R1  1  5  9 13 17

R2  2  6 10 14 18

R3  3  7 11 15 19

R4  4  8 12 16 20

> x <- myarray[,3] #读取第3列的值

> x

R1 R2 R3 R4

 9 10 11 12

> is.vector(x) #查看x是否为向量类型

[1] TRUE

> mean(x)

[1] 10.5

> sum(x)

[1] 42

方法二：在读取数据框列的时候换用另外一种方法，dataframe$(行名或者列名)，返回值是vector类型

> c <- mydataframe$C3

> c

[1]  9 10 11 12

> is.vector(c)

[1] TRUE

> mean(c)

[1] 10.5

> sum(c)

[1] 42

同时，也可以利用dataframe$(新的列名) <- 新的向量，来给dataframe添加新的列，具体操作如下：

> mydataframe$sum <- mydataframe$C1 +mydataframe$C4

> mydataframe$mean <- (mydataframe$C1+mydataframe$C4)/2

> mydataframe

   C1 C2 C3 C4 C5 sum mean

R1  1  5  9 13 17  14    7

R2  2  6 10 14 18  16    8

R3  3  7 11 15 19  18    9

R4  4  8 12 16 20  20   10

最推崇的是下一种方法，直接利用transform函数组建新的数据框，具体用法如下：

> x1 <- mydataframe$C1

> x2 <- mydataframe$C3

> mydataframe2 <- transform(mydataframe,sum2=x1+x2,mean2=(x1+x2)/2)

> mydataframe2

   C1 C2 C3 C4 C5 sum mean sum2 mean2

R1  1  5  9 13 17  14    7   10     5

R2  2  6 10 14 18  16    8   12     6

R3  3  7 11 15 19  18    9   14     7

R4  4  8 12 16 20  20   10   16     8

R 语言的Dataframe常用操作的更多相关文章

R语言入门知识--常用操作和例子
1 R的下载.安转 (转)R有很多的版本,支持目前主流的操作系统MAC.Linux和WINDOWS系列.因为我个人是在WINDOWS下用R的,所以在这里将只介绍WINDOWS下R的下载&安 ...
R语言文件相关的操作
1. 文件系统介绍 R语言对文件系统的操作,包括文件操作和目录操作,函数API都定义在base包中. 2. 目录操作 2.1 查看目录查看当前目录下的子目录. # 启动R程序 ~ R # 当前的目录 ...
R语言之数据处理常用包
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...
r语言与dataframe
什么是DataFrame 引用 r-tutor上的定义: DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量. 没错,DataFrame就是类似于Excel表 ...
R语言进行文件夹操作示例（转）
rm(list=ls())path = 'J:/lab/EX29 --在R语言中进行文件(夹)操作'setwd(path)cat("file A\n", file="A& ...
R语言把DataFrame的一行变成向量
在R语言里面,DataFrame的一列数据本质上可以认为是一个向量或列表,但是一行数据不是. 今天有一个31列的数据集,由于放在第一行的变量名格式不规范,读入数据的时候不能顺带读入变量名.于是跳过首行 ...
pyspark dataframe 常用操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加 ...
Pandas 之 DataFrame 常用操作
import numpy as np import pandas as pd This section will walk you(引导你) through the fundamental(基本的) ...
R语言描述性统计常用函数

随机推荐

iOS设备上出现的click，live，on点击失去效果
iOS设备上出现的点击事件失效,但是在Android上可以正常使用, 1.iOS设备对标签点击限制,不认为是可点击的标签,需要给要绑定点击事件的标签加上一个样式,cursor:pointer:这样就可 ...
python 日志打印之logging使用介绍
python 日志打印之logging使用介绍 by:授客QQ:1033553122 测试环境: Python版本:Python 2.7 简单的将日志打印到屏幕 import logging lo ...
mysql内存管理
1 内存管理结构 mysql有自己的内存申请和释放机制 mysql层有mem_root innodb层有mem_heap,mem_pool,buf_pool 它们的结构图如下 2 mem_root m ...
[Spark Core] Spark 使用第三方 Jar 包的方式
0. 说明 Spark 下运行job,使用第三方 Jar 包的 3 种方式. 1. 方式一将第三方 Jar 包分发到所有的 spark/jars 目录下 2. 方式二将第三方 Jar 打散,和我们 ...
直播内容不合规怎么办？智能AI为您解决审核难题
背景近些年来,视频直播快速发展,大量的直播平台如雨后春笋一般出现,但是这同样给直播内容的监管带来了巨大的挑战,一方面国家对于直播内容监管的要求日益严格,另一方面相对于文字内容的审核,多媒体内容的审核 ...
第7章 Linux文件与目录管理
目录与路径相对路径与绝对路径目录的相关操作 . 代表此层目录 .. 代表上层目录 - 代表前一个工作目录 ~ 代表"目前用户身份"所在的文件夹 ~account 代表accou ...
TiDB数据库 mydumper命令导出数据报错：(mydumper:1908): CRITICAL **: Couldn't acquire global lock, snapshots will not be consistent: Access denied for user 'super'@'%' (using password: YES)
今天想使用Tidb官方提供的mydumper来备份AWS上的RDS集群中mysql数据库的某个表,发现报错了 [tidb@:xxx /usr/local/tidb-tools]$ -t -F -B x ...
python 使用csv 文件写入出现多余空行数据解决方案
因为csv.writerow() 方法会造成读取时每条数据后多一条空数据解决方案如下: 分为两种情况 python2 和 python3 先说python2版本 with open('xxx.csv ...
Django商城项目笔记No.1项目准备工作
Django商城项目笔记No.1项目准备工作一.本项目商城属于B2C商业模式二.项目采用前后端分离的应用模式前端使用Vue.js 后端使用Django REST framework 1.创建gi ...
数据库事务总结(一）-ACID
概述数据库事务(Database Transaction) ,是指作为单个逻辑工作单元执行的一系列操作. 事务处理可以确保除非事务性单元内的所有操作都成功完成,否则不会永久更新面向数据的资源.通过将 ...

R 语言的Dataframe常用操作

R 语言的Dataframe常用操作的更多相关文章

随机推荐

热门专题