Basic包是R语言预装的开发包,包含了常用的数据处理函数,可以对数据进行简单地清理和转换,也可以在使用其他转换函数之前,对数据进行预处理,必须熟练掌握常用的数据处理函数。

一,合并向量

函数append()用于修改合并向量,可以把两个向量合并为一个:

append(x, values, after = length(x))

例如:从一个向量的指定位置处,插入另一个向量:

> append(:, :, after = )
[]

二,匹配函数

匹配函数(match)返回一个位置向量,表示 x 匹配table的位置。%in% 返回一个逻辑向量,表示左边的操作符是否匹配右边的操作符。

match(x, table, nomatch = NA_integer_, incomparables = NULL)
x %in% table

参数注释:

  • x:被匹配的向量
  • table:其他向量跟该向量进行匹配,x向量中的每一个元素都跟table向量中的每一个元素进行比较;
  • nomatch:不匹配时,函数返回的整数值。默认值是NA
  • incomparables :指定不能匹配的值的向量,在x向量中的任何值,如果是incomparables参数中的值,那么返回nomatch参数的值。由于历史原因,FALSE 和NULL相等。

match()函数返回的是一个整数向量,长度和参数x相同,每一个元素的值是x元素第一次匹配table元素的位置,如果x元素不在table向量中,那么相应位置上的元素值是nomatch(nomatch参数指定的值,默认值是NA)。

match: An integer vector giving the position in table of the first match if there is a match, otherwise nomatch.

If x[i] is found to equal table[j] then the value returned in the i-th position of the return value is j, for the smallest possible j. If no match is found, the value is nomatch.

1,match()函数的用法

match()函数的基本用法

x <- c(,,)
tb <- c(-:)
match(x,tb) [] NA

match()函数可以用于批量修改数据框的列名:

names(df)[match(c('a',"b", "c)","d"),names(df))]<- c('C1','C2','C3','C4')

2,操作符 %in%的用法

操作符 %in% 返回的是一个逻辑向量,指定x元素是否匹配table元素,其长度和x向量相同。如果x元素能够匹配到table元素,那么相应位置的元素值是TRUE,否则,元素值是FALSE。

操作符 %in% 在底层使用match()函数实现:

function(x, table) match(x, table, nomatch = ) > 

例如,返回左侧向量的元素匹配右侧向量的逻辑值:

> : %in% c(,,,)
[] TRUE FALSE TRUE FALSE TRUE FALSE FALSE FALSE TRUE FALSE

三,cut函数

cut()函数用于切割x的范围,每一个范围是一个分区;cut()函数根据分区的顺序对x中的值进行编码,也就是说,每一个分区从左向右依次对应lables向量中的一个因子,最左边的分区对应于lables向量的第一个因子,第二个分区对应lables向量中的第二个因子,以此类推。

cut(x, breaks, labels = NULL,
include.lowest = FALSE, right = TRUE, dig.lab = 3,
ordered_result = FALSE, ...)

参数注释:

  • breaks:分割点,由两个或更多个唯一切割点构成的数字向量,或者单个数字(大于或等于2):

    • 如果breaks是数字向量,那么向量中的每个分割点从小到大依次排列,cut()按照分割点把x划分为不同的分区;
    • 如果breaks是单个数字,那么该数字表示cut()函数把x分割的段数。
  • labels:为分割的区间指定标签,labels中因子的个数和breaks中指定的分区数量保持一致。
  • ordered_result:默认值是FALSE,表示结果是无序的因子。
  • right:默认值是TRUE,表示分割点属于左侧分区。

示例,breaks是由分割点构成的数字向量,两个连续的分割点指定一个分区的边界点,

vc <- c(1:6)
cut(vc,breaks=c(0,2,5,7),labels = c('low','medium','high')) [1] low low medium medium medium high
Levels: low medium high

默认情况下,分割点属于右侧的分区,因此,2是属于右侧的分区。分割点如何划分x的分区?

  • breaks指定的第一个分区是:x>0 and x<=2
  • breaks指定的第二个分区是:x>2 and x<=5
  • breaks指定的第三个分区是:x>5 and x<=7

每一个分区按照其在breaks中的顺序依次对应lables参数中的一个因子。

四,排名函数

排名函数用于对向量元素进行排名,按照升序的顺序对数据进行排序:

rank(x, na.last = TRUE,
ties.method = c("average", "first", "last", "random", "max", "min"))

参数注释:

  • na.last :控制如何对待NA,如果设置为TRUE,那么缺失值排在最后一位;如果为FALSE,那么缺失值排在第一位;如果设置为NA,那么缺失值被移除;如果设置为keep,那么排名为NA。
  • ties.method :控制如何对待tie,一个tie是指值重复的元素。

例如,对向量进行排名,把排名的结果存储到变量中:

> r1 <- rank(x1 <- c(, , , , ))
> r1
[]

五,替换

函数replace()用于把向量中指定位置的元素替换为指定的值(或向量):

replace(x, list, values)

参数注释:

  • list:整数向量,指定被替换的元素的位置
  • values:替换的值(或向量)

例如,把向量的第1个、第3个和第7个的元素值替换为0:

> replace(:,c(,,),)
[]

六,重复

rep()函数把输入的参数重复多次,如果参数是表达式,rep()函数会把表达式的结果重复多次;而replicate()函数是重复调用表达式,每次调用表达式的过程都是独立的,这意味着,如果产生随机数,rep()函数产生的随机数是”伪随机的“,重复第一次产生的随机数,而replicate()函数产生的随机数是真正意义上的随机数,每次都不相同。

> rep(runif(1),5)
[1] 0.8721105 0.8721105 0.8721105 0.8721105 0.8721105
> replicate(5,runif(1))
[1] 0.9426709 0.1280271 0.1926333 0.7091503 0.5404846

七,逆转

rev()函数用于把一个向量的元素逆转:

> rev(c(,,,))
[]

八,排序

sort()函数用于对向量排序,返回有序的向量;order()函数返回向量元素的序号,能够用于对data.frame排序:

order(..., na.last = TRUE, decreasing = FALSE, method = c("auto", "shell", "radix"))
sort(x, decreasing = FALSE, na.last = NA, ...)

例如,使用order()函数按照数据框的y列进行排序:

> df <- data.frame(x=c(,,,),y=c(,,,))
> df
x y > df[order(df$y),]
x y

九,删除重复值

使用R去重有两种做法,第一种做法是把返回向量中的唯一值;第二个方法是返回向量中重复元素的位置,然后删除重复元素。

1,删除重复值

unique() 函数用于移除重复数据,用于向量,数据框或数组的去重:

unique(x, incomparables = FALSE)

参数 incomparables:用于指定不能比较的值构成的向量。FALSE是一个特殊的值,表示所有的值都可以比较。

2,检查重复值

duplicated()函数用于检查重复的元素,返回元素类型是逻辑值的向量或数据框:当元素的值为FALSE时,表示该元素不是重复值;当元素的值是TRUE时,表示该元素是前面(位置)的某一个元素的重复值。

duplicated(x, incomparables = FALSE, ...)

该函数的处理流程是:下标最小的元素是第一次出现的元素,标记为FALSE,当该元素值再次出现,表明该变量出现重复值,标记该元素为TRUE。

例如,以下代码用于删除数据框df中变量var的重复值:

df <- df[!duplicated(df$var),]

十,逻辑TRUE的索引

which()函数,用于从逻辑向量中返回TRUE值在向量中的索引,参数x是一个由逻辑值构成的向量:

which(x)

例如,使用which()函数返回逻辑向量中TRUE值的索引:

> which(lv <- c(TRUE, FALSE, TRUE, NA, FALSE, FALSE, TRUE))
[]
> which(exper <- c(:)>)
[]

十一,构造环境

常用于数据框,使R表达式位于数据框的作用环境中,便于对数据框变量的引用:

with(data, expr, ...)
within(data, expr, ...)

这两个函数的区别是:with()函数只能定义一个变量,而within()函数可以定义多个变量:

with(mtcars, mpg[cyl ==   &  disp > ])
#only define one variable
mtcars$mpg[mtcars$cyl == & mtcars$disp > ] #define multiple variables
aq <- within(airquality, { # multiple vars can be changed
lOzone <- log(Ozone)
Month <- factor(month.abb[Month])
cTemp <- round((Temp - ) * /, )
S.cT <- Solar.R / cTemp # using the newly created variable
rm(Day, Temp)
})

十二,Reduce函数

Reduce()函数对一个向量循环执行函数(该函数有两个参数),Reduce()函数的定义是:

Reduce(f, x, init, right = FALSE, accumulate = FALSE)

参数注释:

  • f :有两个参数的函数对象
  • x:向量
  • init :一个标量值,类型和x向量的元素相同;
  • right :逻辑值,当值为FALSE时,从向量的左侧开始,依次向右侧取出元素传递到给函数;当值为TRUE时,从向量的右侧开始,依次向左侧取出元素,传递给函数;
  • accumulate:逻辑值,a logical indicating whether the successive reduce combinations should be accumulated. By default, only the final combination is used.

例如,计算一个向量的累加和,首先,把初始值和向量的第一个元素1传递给sum()函数,计算出结果11,然后,把11和向量的第二个元素传递给函数sum(),计算出结果13,依次类推:

> Reduce(sum,:,)
[]

Reduce()函数内部执行的过程等价于:

a <- sum(,)
b <- sum(a,)
c <- sum(b,)
d <- sum(c,)
sum(d,)

十三,条件过滤器

按照条件从向量中选择元素,当条件为TRUE时,把该元素添加到结果向量中。参数 f 是一个返回逻辑值的函数(该函数必须有一个输入参数),参数x是一个向量:

Filter(f, x)

例如,从一个数值向量中,选择元素值大于5的元素:

> fx <- function(x) x>;
> Filter(fx,:)
[]

十四,计算累加

使用cumsum(x)来计算向量元素的累加值,累加的计算过程是迭代的:

  • step1:从第一个元素向右计算,把第一个元素的值作为第一次计算的结果;
  • step2:移动到下一个元素,把前一次计算的结果和当前元素求加和;
  • step3:重复步骤step2,直到移动到最后一个元素为止;

例如,计算向量c(1:5)的累加值:

> cumsum(:)
[]

十五,计数出现的次数(tabulate)

tabulate()函数的作用是使用bin构造整数向量v,并计算bin中每个整数在v中出现的次数。

tabulate(bin, nbins = max(, bin, na.rm = TRUE))

tabulate()函数构造的整数向量是v <- c(rep(0,nbins)),v向量的下标对应bin向量元素的值,因此,v向量可以表示的整数范围是1:nbins,bin向量中元素值超出该范围的值或者NA都被忽略。

tabulate()函数的作用是用v向量元素值表示bin元素的出现频次。

例如,tabulate()函数构造向量c(0,0,0,0,0),下标为2的元素值1,表示bin向量中元素2出现的频数是1,依次类推:

> tabulate(bin = c(,,,))
[]

十六,diff

该函数计算向量相邻元素之间的差异,后者减去前者:

d= c(10,1,1,1,1,1,1,2,1,1,1,1,1,1,1,3,10)
diff(d)
[] -9 0 0 0 0 0 1 -1 0 0 0 0 0 0 2 7

参考文档:

The R Base Package

R语言学习 第八篇:常用的数据处理函数的更多相关文章

  1. R语言学习 第四篇:函数和流程控制

    变量用于临时存储数据,而函数用于操作数据,实现代码的重复使用.在R中,函数只是另一种数据类型的变量,可以被分配,操作,甚至把函数作为参数传递给其他函数.分支控制和循环控制,和通用编程语言的风格很相似, ...

  2. R语言学习 第五篇:字符串操作

    文本数据存储在字符向量中,字符向量的每个元素都是字符串,而非单独的字符.在R中,可以使用双引号,或单引号表示字符. 一,字符串中的字符数量 函数nchar()用于获得字符串中的字符数量: > s ...

  3. R语言学习 第十篇:操作符

    运算符是R语言中最基础的存在,熟悉运算符的使用,是熟练使用R处理数据的基础,操作符,顾名思义,是对数据进行运算的符号,R有自己的一套操作符,实现变量的赋值,引用,运算等功能. 一,赋值符号 为变量赋值 ...

  4. R语言学习 第十一篇:日期和时间

    R语言的基础包中提供了三种基本类型用于处理日期和时间,Date用于处理日期,它不包括时间和时区信息:POSIXct/POSIXlt用于处理日期和时间,其中包括了日期.时间和时区信息.R内部在存储日期和 ...

  5. R语言学习 第三篇:数据框

    数据框(data.frame)是最常用的数据结构,用于存储二维表(即关系表)的数据,每一列存储的数据类型必须相同,不同数据列的数据类型可以相同,也可以不同,但是每列的行数(长度)必须相同.数据框的每列 ...

  6. R语言学习 第七篇:列表

    列表(List)是R中最复杂的数据类型,一般来说,列表是数据对象的有序集合,但是,列表的各个元素(item)的数据类型可以不同,每个元素的长度可以不同,是R中最灵活的数据类型.列表项可以是列表类型,因 ...

  7. R语言学习 第十篇:包

    包(Package)是实现特定功能的.预先写好的代码库(library),通俗地说,包是含有函数.数据等的功能模块.R拥有大量的软件包,许多包都是由某一领域的专家编写的,但并不是所有的包都有很高的质量 ...

  8. R语言学习笔记(七): 排序函数:sort(), rank(), order()

    sort() sort()函数直接对函数进行排序,并返回排序结果. > a <- c(12,4,6,5) > sort(a) [1] 4 5 6 12 rank() rank()函数 ...

  9. R语言学习 第一篇:变量和向量

    R是向量化的语言,最突出的特点是对向量的运算不需要显式编写循环语句,它会自动地应用于向量的每一个元素.对象是R中存储数据的数据结构,存储在内存中,通过名称或符号访问.对象的名称由大小写字母.数字0-9 ...

随机推荐

  1. C#中ASCII码学习心得

    1.利用调用ASCIIEncoding类来实现各种转换.如简单个ACS码和int转换. ***利用(int)ASCIIEncoding类对象.GetBytes(character)[0]得到整数: p ...

  2. 天气类API调用的代码示例合集:全国天气预报、实时空气质量数据查询、PM2.5空气质量指数等

    以下示例代码适用于 www.apishop.net 网站下的API,使用本文提及的接口调用代码示例前,您需要先申请相应的API服务. 全国天气预报:数据来自国家气象局,可根据地名.经纬度GPS.IP查 ...

  3. Spring / Hibernate 应用性能调优

    来源:ImportNew - 陈晓舜 对大部分典型的Spring/Hibernate企业应用来说,应用的性能大部分由持久层的性能决定. 这篇文章会重温一下怎么去确认我们的应用是否是”数据库依赖(dat ...

  4. TableLayoutPanel居中和单元格内元素居中

    在后台程序新建一个TableLayoutPanel 添加到form中,默认显示在左上角,想了很多让它居中的办法,在网上找了不少 最好的是: winform要设置控件的位置有3种: 1.控件的ancho ...

  5. 【开源项目】智能电视及电视盒子的控制应用TVRemoteIME的接口说明

    一.APP项目介绍: APP名称:TVRemoteIME 功能说明:安卓智能电视或者安卓盒子的控制应用,可跨屏远程输入.远程遥控(代替遥控器)盒子.盒子应用及文件管理.HTTP/RTMP/MMS网络视 ...

  6. CSS盒模型的深度思考及BFC

    本文最初发表于博客园,并在GitHub上持续更新前端的系列文章.欢迎在GitHub上关注我,一起入门和进阶前端. 以下是正文. 题目:谈一谈你对CSS盒模型的认识 专业的面试,一定会问 CSS 盒模型 ...

  7. android判断网络是否可用

    private boolean isNetworkConnected(Context context) { ConnectivityMannger cManager = (ConnectivityMa ...

  8. c#判断外部可执行程序是否已打开(若未打开则打开)

    #region 通过当前代码执行路径向上找到相关exe,并根据processes.Length判断是否已启动 private bool CheckAndOpenExe(string exeName) ...

  9. Caused by: org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 1; Content is not allowed in

    1.错误描述 严重: Exception sending context initialized event to listener instance of class org.springframe ...

  10. 错误卸载软件导致Windows7系统中的软件无法播放视频

    1.错误描述 2.错误原因 在卸载软件时,不小心将Windows7中的服务给删除了 3.解决办法 重新安装操作系统