R 数据分析

windows命令行中执行R
dataframe
常用函数、变量

1、windows命令行中执行R

前提：已经把R的命令目录加入了系统路径中。

在windows中，命令行执行R可以用以下两种方式：

（1）RCMD BATCH xxx.r

这种方式也可以写成”r cmd BATCH“、”rcmd BATCH“、”R CMD BATCH“，这几个命令都是一样的，随便你用哪个
这种方式的输出结果不是直接显示在命令行中，而是会在r文件相同路径下，自动创建一个xxx.r.Rout文本文件，输出的内容在这个文件里
但是这种方式用commandArgs()函数得不到传递的参数，而是生成了一个名为第一个参数的文本文件代替上面的xxx.r.Rout文件

举个例子，有以下test.r程序：

 args = commandArgs(trailingOnly=TRUE)

 print(args[2])

 print('do a test')

比如在命令行输入”RCMD BATCH test.r 4 5“，就会生成一个名为4的文本文件，文件内容如下，程序打印的第二个参数是NA，实际上应该是5；

（2）Rscript xxx.r

这种方式的输出结果直接显示在命令行中，不会生成其他输出文件
这种方式可以用commandArgs()函数得到传递的参数

但是得到参数的索引由函数的trailingOnly参数决定，当trailingOnly＝TRUE时，参数索引从1开始；

当trailingOnly＝TRUE时，参数索引从6开始，因为：

args[1]= "C:\\Program Files\\R\\R-3.4.4\\bin\\x64\\Rterm.exe"

args[2]= "--slave"

args[3]= "--no-restore"

args[4]="--file=test.r"

args[5]="--args"

args[6]==""

args[7]=="do a test"

2、dataframe

创建空数据框

＃ 创建0行0列的数据框

df_empty = data.frame()

＃ 创建和df有同样多的列，0行的数据框

> df_r = df[, FALSE]

data frame with 0 columns and 4 rows

＃ 创建一个行数为0，列数、列名和df相同的数据框

> df_c = df[FALSE, ]

[1] one   two   three

<0 行> (或0-长度的row.names)

创建非空数据框

＃ 指定列名
> df = data.frame(one=c(1,2,3,4),two=c(4,5,6,0),three=c(32,21,34,32))

  one two three

1   1   4    32

2   2   5    21

3   3   6    34

4   4   0    32

＃ 不指定列名

> df = data.frame(c(1,2,3,4),c(4,5,6,0),c(32,21,34,32))

  c.1..2..3..4. c.4..5..6..0. c.32..21..34..32.

1             1             4                32

2             2             5                21

3             3             6                34

4             4             0                32

＃ 自动匹配最长的行数

> data.frame(one_t=c(5,2),two=c(12),three=c(9))

  one_t two three

1     5  12     9

2     2  12     9

＃ 指定行名和列名

> data.frame(one=c(1,2,3,4),two=c(4,5,6,0),three=c(32,21,34,32),row.names = c('a','b','c','d'))

  one two three

a   1   4    32

b   2   5    21

c   3   6    34

d   4   0    32

访问元素

＃ 默认访问元素是对列而言的，可以通过加逗号来限定

＃＃ 用索引访问

＃ 访问列

> df[1:2]

  one two

1   1   4

2   2   5

3   3   6

4   4   0

> df[,1:2]

  one two

1   1   4

2   2   5

3   3   6

4   4   0

＃ 访问行

> df[c(1,3),]

  one two three

1   1   4    32

3   3   6    34

> df[1:2,]

  one two three

1   1   4    32

2   2   5    21

＃ 取反

> df[-c(1,3),]

  one two three

2   2   5    21

4   4   0    32

＃＃ 用列名和行名访问

＃ 列名

> df['one']

  one

1   1

2   2

3   3

4   4

> df[,'one']

[1] 1 2 3 4

> df['one',]

   one two three

NA  NA  NA    NA

＃ 行名

> df['',]

  one two three

1   1   4    32

> df['']

Error in `[.data.frame`(df, "") : undefined columns selected

数据筛选

＃ 条件语句选择列

> df[which(df$one>2),]

  one two three

3   3   6    34

4   4   0    32

＃ 取反

> df[-which(df$one>2),]

  one two three

1   1   4    32

2   2   5    21

＃ 支持逻辑符，＆和，|或

> df[which(df$one>1 & df$two>0),]

  one two three

2   2   5    21

3   3   6    34

判断是否为数据框

> is.data.frame(df)

[1] TRUE

修改行名和列名

> names(df)

[1] "one"   "two"   "three"

> names(df)[1]='one_m'

> names(df)

[1] "one_m" "two"   "three"

> colnames(df)

[1] "one"   "two"   "three"

> colnames(df)[1]='one_t'

> colnames(df)

[1] "one_t" "two"   "three"

> rownames(df)

[1] "" "" "" ""

> rownames(df)[1]=''

> rownames(df)

[1] "" "" "" ""

cbind 列连接

＃ 当df_n的行数和df的行数一样时

> data.frame(one=c(9,8,7,6))

  one

1   9

2   8

3   7

4   6

> cbind(df,df3)

  one two three one

1   1   4    32   9

2   2   5    21   8

3   3   6    34   7

4   4   0    32   6

＃ 当df_n的行数小于df，但是df的行数是df_n的整数倍时

> df2 = data.frame(one=c(5),two=c(12),three=c(9))

  one two three

1   5  12     9

> cbind(df,df2)

  one two three one two three

1   1   4    32   5  12     9

2   2   5    21   5  12     9

3   3   6    34   5  12     9

4   4   0    32   5  12     9

＃ 甚至这样的时候

> cbind(df,data.frame(one=c(5,2),two=c(12),three=c(9)))

  one two three one two three

1   1   4    32   5  12     9

2   2   5    21   2  12     9

3   3   6    34   5  12     9

4   4   0    32   2  12     9

当被df_n的行数大于df时，会失败

> df4=data.frame(one=c(9,8,7,6,12))

> cbind(df,df4)

Error in data.frame(..., check.names = FALSE) :

  参数值意味着不同的行数: 4, 5

虽然df_n的行数小于df，但df不是df_n行数的整数倍时，也会失败

> cbind(df,data.frame(one=c(5,2,3),two=c(12),three=c(9)))

Error in data.frame(..., check.names = FALSE) :

  参数值意味着不同的行数: 4, 3

rbind 行连接

> rbind(df, data.frame(one_t=c(5),two=c(12),three=c(9)))

  one_t two three

9     1   4    32

2     2   5    21

3     3   6    34

4     4   0    32

1     5  12     9

当数据框的列名不一致、列数目不一致时，都会失败

> rbind(df, data.frame(one=c(5,2,1,2),two=c(12,4,6,8),three=c(9,4,2,1)))

Error in match.names(clabs, names(xi)) : 名字同原来已有的名字不相对

> rbind(df, data.frame(one_t=c(5),two=c(12),three=c(9),four=c(4)))

Error in rbind(deparse.level, ...) : 变量的列数不对

其他

＃数据框的长度是列的数目

> length(df)

[1] 3

＃ 列数

> ncol(df)

[1] 3

＃ 行数

> nrow(df)

[1] 4

3、基本统计函数

> sum(c(1,2,3))

[1] 6

> mean(c(1,2,3))

[1] 2

> var(c(1,2,3))

[1] 1

> sort(c(2,1,3))

[1] 1 2 3

3、常用函数、变量

＃ 查看数据结构和类型

> mode(df)

[1] "list"

> class(df)

[1] "data.frame"> str(df)

'data.frame':    4 obs. of  3 variables:

 $ one_t: num  1 2 3 4

 $ two  : num  4 5 6 0

 $ three: num  32 21 34 32

> typeof(12)
[1] "double"

＃ 大/小写字母

> LETTERS[1:3]

[1] "A" "B" "C"

> letters[1:3]

[1] "a" "b" "c"

＃ 可放回抽样

> sample(c(1,2,3,4), 10, replace = TRUE)

 [1] 2 3 1 2 3 3 4 3 3 4

# 判断是否为空, 返回一个同类型（数组）的布尔值

> is.na(c(,,,NaN))

[] FALSE FALSE FALSE  TRUE

# generating regular suquences

> 1:5

[1] 1 2 3 4 5

> 2*1:5

[1]  2  4  6  8 10

> seq(1,5)

[1] 1 2 3 4 5

# 设定序列间隔

> seq(1,5,0.5)

[1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

# 固定序列长度

> seq(1,5,length.out = 4)

[1] 1.000000 2.333333 3.666667 5.000000

# 重复整个序列

> rep(c(1,2,3), times=5)

 [1] 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3

# 重复序列单个元素

> rep(c(1,2,3), each=5)

 [1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3

R 数据分析的更多相关文章

R数据分析：跟随top期刊手把手教你做一个临床预测模型
临床预测模型也是大家比较感兴趣的,今天就带着大家看一篇临床预测模型的文章,并且用一个例子给大家过一遍做法. 这篇文章来自护理领域顶级期刊的文章,文章名在下面 Ballesta-Castillejos ...
R数据分析：潜类别轨迹模型LCTM的做法，实例解析
最近看了好多潜类别轨迹latent class trajectory models的文章,发现这个方法和我之前常用的横断面数据的潜类别和潜剖面分析完全不是一个东西,做纵向轨迹的正宗流派还是这个方法,当 ...
R数据分析：二分类因变量的混合效应，多水平logistics模型介绍
今天给大家写广义混合效应模型Generalised Linear Random Intercept Model的第一部分 ,混合效应logistics回归模型,这个和线性混合效应模型一样也有好几个叫法 ...
R数据分析：如何简洁高效地展示统计结果
之前给大家写过一篇数据清洗的文章,解决的问题是你拿到原始数据后如何快速地对数据进行处理,处理到你基本上可以拿来分析的地步,其中介绍了如何选变量如何筛选个案,变量重新编码,如何去重,如何替换缺失值,如何 ...
R数据分析：临床预测模型中校准曲线和DCA曲线的意义与做法
之前给大家写过一个临床预测模型:R数据分析:跟随top期刊手把手教你做一个临床预测模型,里面其实都是比较基础的模型判别能力discrimination的一些指标,那么今天就再进一步,给大家分享一些和临 ...
精心整理（含图版）|你要的全拿走！（R数据分析，可视化，生信实战）
本文首发于“生信补给站”公众号,https://mp.weixin.qq.com/s/ZEjaxDifNATeV8fO4krOIQ更多关于R语言,ggplot2绘图,生信分析的内容,敬请关注小号. 为 ...
Python 和 R 数据分析/挖掘工具互查
如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便.python在下表中以模块.的方式引用,部分模块并非原生模块,请使用 pip install * 安装:同理,为了方便索 ...
给大厨写的R数据分析代码
###************************************** 新老客户统计 ***************************************### dachu &l ...
基于R数据分析之常用Package讲解系列--1. data.table
利用data.table包变形数据一. 基础概念 data.table 这种数据结构相较于R中本源的data.frame 在数据处理上有运算速度更快,内存运用更高效,可认为它是data.frame ...
R数据分析（一）
R语言特点: 主要用于统计分析.图表显示. 属于解释型语言.支持模块化编程. 应用:数据科学.统计计算.机器学习学习方法: 做笔记,记重点或者心得手动实践,加深理解坚持练习,利用身边数据 ...

随机推荐

python字典、字符串（json串）、字节串之间的转化
字典和json字符串(本质也是字符串)之间的转化用json.dumps和json.loads() json.dumps(): 字典→json字符串 json.loads(): json字符 ...
JVM（Java虚拟机）详解（JDK7）
1.Java内存区域运行时数据区域: Java 虚拟机在执行Java程序时,定义了若干种程序运行期间会使用到的运行时数据区,其中有一些会随着虚拟机启动而创建,随着虚拟机退出而销毁.另外一些则是与线程 ...
[Codeforces 997C]Sky Full of Stars(排列组合+容斥原理)
[Codeforces 997C]Sky Full of Stars(排列组合+容斥原理) 题面用3种颜色对\(n×n\)的格子染色,问至少有一行或一列只有一种颜色的方案数.\((n≤10^6)\) ...
MongoDB数据库-基础篇
一使用mongodb 1.常用的命令 show dbs 显示数据库列表 use dbname 进入dbname数据库,大小写敏感,没有这个数据库也不要紧 show collections ...
02 java内存模型
java内存模型 1.JVM内存区域方法区:类信息.常量.static.JIT (信息共享) java堆:实例对象 GC (信息共享) OOM VM stack:JAVA方法在运行的内存模型 (OO ...
Service vs provider vs factory 转自：http://stackoverflow.com/questions/15666048/service-vs-provider-vs-factory
请看此链接:http://stackoverflow.com/questions/15666048/service-vs-provider-vs-factory
2018-8-10-win10-uwp-线程池
title author date CreateTime categories win10 uwp 线程池 lindexi 2018-08-10 19:16:50 +0800 2018-05-15 1 ...
[C++] 所有该类的对象共享静态类成员变量
问:智能指针可以对指针的引用数量进行计数,一个智能指针释放时,别的智能指针怎么知道的? 同一类的对象共享同一变量最简单的方法是静态变量: 不像普通的变量,静态成员变量是被所有类对象共享的,不同的对象可 ...
Ubuntu 服务器Webmin错误的解决
一:This web server is running in SSL mode. Try the URL https://***********:10000/ instead. 解决方案: 1.ss ...
IDEA中写xml配置文件的时候没有代码提示
问题情境:如开发SSM应用的时候,编写xml配置mapper.xml文件没有代码提示,这个问题应该是编写的xml文件中没有找到需要的dtd文件. 在xml文件中的引入约束的标签如下: <!DOC ...

R 数据分析

R 数据分析的更多相关文章

随机推荐

热门专题