R语言数据重塑】的更多相关文章

R语言数据重塑 R语言中的数据重塑是关于改变数据被组织成行和列的方式. 大多数时间R语言中的数据处理是通过将输入数据作为数据帧来完成的. 很容易从数据帧的行和列中提取数据,但是在某些情况下,我们需要的数据帧格式与我们接收数据帧的格式不同. R语言具有许多功能,在数据帧中拆分,合并和将行更改为列,反之亦然. 于数据帧中加入列和行 我们可以使用cbind()函数连接多个向量来创建数据帧. 此外,我们可以使用rbind()函数合并两个数据帧. # Create vector objects. city…
R语言中的数据重塑是关于变化的数据分为行和列的方式.大多数R地数据处理的时候是通过将输入的数据作为一个数据帧进行.这是很容易提取一个数据帧的行和列数据,但在某些情况,当我们需要的数据帧的格式是不同的来自收到它的格式. R有许多函数用来分割,合并,改变行列,反之亦然在一个数据帧. 接合列和行中的数据帧 我们可以加入多个向量创建使用 cbind()函数返回数据帧.同时,我们也可以使用 rbind()函数合并两个数据帧. cbind:重点是将多个向量合并成一个数据帧 和 data.frame 还是有一…
使用cbind()函数连接多个向量来创建数据帧.此外,使用rbind()函数合并两个数据帧   使用merge()函数合并两个数据帧.数据帧必须具有相同的列名称,在其上进行合并   melt()拆分数据和cast()数据重构   连接字符串 - paste()函数   格式化数字和字符串 - format()函数   计算字符串中的字符数 - nchar()函数,此函数计算字符串中包含空格的字符数   更改case - toupper()和tolower()函数,这些函数改变字符串的字符的大小写…
R语言数据接口 R语言处理的数据一般从外部导入,因此需要数据接口来读取各种格式化的数据 CSV # 获得data是一个数据帧 data = read.csv("input.csv") # 可以使用类似于SQL的where查询 retval = subset(data,dept == "IT" & salary > 600) print(retval) # 写入文件 # row.names=FALSE是为了去除额外的行号 write.csv(retval…
1.R数据的保存与加载 可通过save()函数保存为.Rdata文件,通过load()函数将数据加载到R中. > a <- 1:10 > save(a,file='d://data//dumData.Rdata') > rm(a)   #将对象a从R中删除 > load('d://data//dumData.Rdata') > print(a) [1]  1  2  3  4  5  6  7  8  9 10 2.CSV文件的导入与导出 下面创建df1的数据框,通过函…
R语言数据预处理 一.日期时间.字符串的处理 日期 Date: 日期类,年与日 POSIXct: 日期时间类,精确到秒,用数字表示 POSIXlt: 日期时间类,精确到秒,用列表表示 Sys.date(), date(), difftime(), ISOdate(), ISOdatetime() #得到当前日期时间 (d1=Sys.Date())   #日期        年月日 (d3=Sys.time())   #时间        年月日时分秒  通过format输出指定格式的时间 (d2…
最棒的7种R语言数据可视化 随着数据量不断增加,抛开可视化技术讲故事是不可能的.数据可视化是一门将数字转化为有用知识的艺术. R语言编程提供一套建立可视化和展现数据的内置函数和库,让你学习这门艺术.在可视化的技术实现之前,让我们先看看如何选择正确的图表类型. 选择正确的图表类型 基本的展现类型有如下四种: 1.   比较 2.   组成 3.   分布 4.   关系 为了确定哪一种类型的图表适合你的数据,我建议你应该回答一些问题比如, § 在一个图表中你想展现多少个变量? § 每个变量中你会显…
数据分布图简介 中医上讲看病四诊法为:望闻问切.而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样:闻:仔细分析数据是否合理:问:针对前两步工作搜集到的问题与业务方交流:切:结合业务方反馈的结果和项目需求进行数据分析. "望"的方法可以认为就是制作数据可视化图表的过程,而数据分布图无疑是非常能反映数据特征(用户症状)的.R语言提供了多种图表对数据分布进行描述,本文接下来将逐一讲解. 绘制基本直方图 本例选用如下测试集: 直方图的横轴为绑定变量区间分隔的取值范围,纵轴则表…
散点图简介 散点图通常是用来表述两个连续变量之间的关系,图中的每个点表示目标数据集中的每个样本. 同时散点图中常常还会拟合一些直线,以用来表示某些模型. 绘制基本散点图 本例选用如下测试数据集: 绘制方法是首先调用ggplot函数选定数据集,并在aes参数中指明横轴纵轴.然后调用散点图函数geom_point()便可绘制出基本散点图.R语言示例代码如下: # 基函数 ggplot(ah, aes(x = ageYear, y = heightIn)) + # 散点图函数 geom_point()…
折线图简介 折线图通常用来对两个连续变量的依存关系进行可视化,其中横轴很多时候是时间轴. 但横轴也不一定是连续型变量,可以是有序的离散型变量. 绘制基本折线图 本例选用如下测试数据集: 绘制方法是首先调用ggplot函数选定数据集,并在aes参数中指明横轴纵轴.然后调用条形图函数geom_line()便可绘制出基本折线图.R语言示例代码如下: # 基函数 ggplot(BOD, aes(x = Time, y = demand)) + # 折线图函数 geom_line()     运行结果:…
条形图简介 数据可视化中,最常用的图非条形图莫属,它主要用来展示不同分类(横轴)下某个数值型变量(纵轴)的取值.其中有两点要重点注意: 1. 条形图横轴上的数据是离散而非连续的.比如想展示两商品的价格随时间变化的走势,则不能用条形图,因为时间变量是连续的: 2. 有时条形图的值表示数值本身,但也有时是表示数据集中的频数,不要引起混淆: 绘制基本条形图 本例选用测试数据集如下: 绘制方法是首先调用ggplot函数选定数据集,并在aes参数中指明横轴纵轴.然后调用条形图函数geom_bar(stat…
前言 绘制统计图形时,半数以上的时间会花在调用绘图命令之前的数据塑型操作上.因为在把数据送进绘图函数前,还得将数据框转换为适当格式才行. 本文将给出使用R语言进行数据塑型的一些基本的技巧,更多技术细节推荐参考<R语言核心手册>. 数据框塑型 1. 创建数据框 - data.frame() # 创建向量p p = c("A", "B", "C") # 创建向量q q = 1:3 # 创建数据框:含p/q两列 dat = data.fra…
前言 ggplot2是R语言最为强大的作图软件包,强于其自成一派的数据可视化理念.当熟悉了ggplot2的基本套路后,数据可视化工作将变得非常轻松而有条理. 本文主要对ggplot2的可视化理念及开发套路做一个总体介绍,具体绘图方法(如折线图,柱状图,箱线图等)将在后面的文章中分别进行讲解. 核心理念 1. 将数据,数据相关绘图,数据无关绘图分离 这点可以说是ggplot2最为吸引人的一点.众所周知,数据可视化就是将我们从数据中探索的信息与图形要素对应起来的过程. ggplot2将数据,数据到图…
R语言中的横向数据合并merge及纵向数据合并rbind的使用 我们经常会遇到两个数据框拥有相同的时间或观测值,但这些列却不尽相同.处理的办法就是使用merge(x, y ,by.x = ,by.y = ,all = ) 函数. #合并ID<-c(1,2,3,4)name<-c("A","B","C","D")score<-c(60,70,80,90)student1<-data.frame(ID,na…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:apply族功能强大,实用,可以代替很多循环语句,R语言中不要轻易使用循环语句. 函数名 功能 特点 apply 按行.列运算均值.求和.众数等 简单运算 tapply=table apply 在apply之上加入table功能,可以分组汇总 table结合,可以分组汇总 lapply=list apply 都需要数据框格式,可以与l…
基本操作 读入csv数据 data <- read.csv("D:/Project/180414/data.csv", header = TRUE) 写出csv数据 write.csv(data,file="D:/Project/180414/data1.csv") 安装包调用R语言包 install.packages("psych")#安装包 library("psych")#调用包 数据框 创建数据框 schools…
一.引言 近年来,随着分布式数据处理技术的不断革新,Hive.Spark.Kylin.Impala.Presto 等工具不断推陈出新,对大数据集合的计算和存储成为现实,数据仓库/商业分析部门日益成为各类企业和机构的标配.在这种背景下,是否能探索和挖掘数据价值,具备精细化数据运营的能力,就成为判定一个数据团队成功与否的关键. 在数据从后台走向前台的过程中,数据展示是最后一步关键环节.与冰冷的表格展示相比,将数据转化成图表并进行适当的内容组织,往往能更快速.更直观的传递信息,进而更好的提供决策支持.…
R语言常用的去重命令有unique duplicated unique主要是返回一个把重复元素或行给删除的向量.数据框或数组 > x <- c(3:5, 11:8, 8 + 0:5)> x [1]  3  4  5 11 10  9  8  8  9 10 11 12 13> unique(x)[1]  3  4  5 11 10  9  8 12 13> unique(x, fromLast = TRUE)[1]  3  4  5  8  9 10 11 12 13    …
键盘输入 调用edit函数,比如我们要让用户输入一个长度为5的向量并赋值给变量a,那么可以: a<-vector() a<-edit(a) 另外也可以用函数fix来直接编辑变量,而不需要再赋值变量.所以上面编辑a变量的命令可以改为: a<-vector() fix(a) 读取文本文件 read.table函数可以读取csv文件,也可以读取其他分隔符分割的文本文件.如果是Tab键分割,那么就是“\t”比如: y<-read.table("hw1_data.txt"…
一.日期时间.字符串的处理 日期 Date: 日期类,年与日 POSIXct: 日期时间类,精确到秒,用数字表示 POSIXlt: 日期时间类,精确到秒,用列表表示 Sys.date(), date(), difftime(), ISOdate(), ISOdatetime() #得到当前日期时间 (d1=Sys.Date()) #日期 年月日 (d3=Sys.time()) #时间 年月日时分秒 通过format输出指定格式的时间 (d2=date()) #日期和时间 年月日时分秒 "Fri…
1.read.table:可以读TXT也可以读CSV (1)file:文件名 (2)header:是否包含表头 (3)sep:分隔符,如果不设定默认是空格 (4)dec:标志小数点符号,有些国家的小数点是逗号 (5)quote:字符串中间如果有引号的处理 (6)row.names:行名,行名不能重复.row.names=1,表示将第一列设置为行号 (7)col.names:列名 函数 read.table 是读取矩形格子状数据最为便利的方式.因为实际可能 遇到的情况比较多,所以预设了一些函数.这…
1.使用C函数连接数据 2.使用c,cbind,rbind结合变量 3.使用Vector函数结合数据 4.使用矩阵结合数据5.使用data.frame函数结合数据 6.使用list函数结合数据 c 向量 数组 矩阵 数据框 列表 1.使用C函数连接数据se<-c(59, 55, 53.3, 44, 44)  #可以在逗号的任一一边加上空格 增加代码的可读性#查看severe的前3个值se[1:3]#查看除了第2个之外的所有值se[-2]#可以做对数据做如下的操作:sum mean max min…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:规范化主要是因为数据受着单位的影响较大,需要进行量纲化.大致有:最小-最大规范化.均值标准化.小数定标规范化 数据中心化和标准化的意义是一样的,为了消除量纲对数据结构的影响. 1.最小-最大规范化--标准化 也叫离差标准化,是对原始数据的线性变换,将数据映射到[0,1]之间,与功效系数法相同. 标准化    x-min(x) / ma…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:unique对于一个向量管用,对于matrix.data frame那些就不管用了.(谢益辉) 查看重复的方式,有点像分类变量个数一样,unique()  或者 table()  都是很好的方式去检测. 1.unique函数 > rt 年 月 公司名 利率 1 2000 1 A a 2 2000 1 A a 3 2001 2 A b…
一.基本运算符号 1.基本数学计算 +.-.*./.^.%%(求模).%/%(整除)注意:求模运算两边若为小数,则整数和小数部分分别求模.例:5.6%%2.2 2.比较运算 >.<.>=.<=.==.!= 3.逻辑运算 &.|.!.&&.||.xor注意:运算符“逻辑与”和“逻辑或”存在两种形式,“&”和“|”作用在对象中的每一个元素上并且返回和比较次数相等长度的逻辑值:“&&”和“||”只作用在对象的第一个元素上. xor为异或,两…
数学函数 abs() 绝对值 sqrt() 平方 ceiling() 向上取整 floor() 向下取整 trunc() 截取整数部分 round(x,digits = n) 保留几位小数 统计函数 mean() 均值 median() 中位数 sd() 标准差 var() 方差 mad() 绝对中位差 quantile() 分位数 diff() 滞后差分 scale(x,center = TRUE,scale = TRUE) 为数据对进行中心化和标准化 概率函数 dnorm() 密度函数 pn…
目的:须要把数据框的行列进行转置 方法: # 原始数据框 > hrl_jd_mon     年份 一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月 1 2010年 51.2 45.8 55.8 62.9 63.8 59.5 80.5 78.0 66.0 92.3  50.80   55.6 2 2011年 54.8 54.4 64.1 78.5 64.5 63.4 95.3 89.2 68.8 86.1  51.40   52.4 3 2012年 53.0 46.1 5…
1.用0替代数据框中的缺失值NA 生成数据框: > m <- matrix(sample(c(NA, :), , replace = TRUE), ) > d <- as.data.frame(m) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 1 4 3 NA 3 7 6 6 10 6 5 2 9 8 9 5 10 NA 2 1 7 2 3 1 1 6 3 6 NA 1 4 1 6 4 NA 4 NA 7 10 2 NA 4 1 8 5 1 2 4 NA 2 6…
当我们想要把数据框的行或者列按照指定的顺序排列时,可以通过行名称或者列名称快速排列 data <- data.frame(matrix(1:9, ncol=3)) rownames(data) <- c("C1", "C2", "C3") colnames(data) <- c("R1", "R2", "R3") data R1 R2 R3 C1 1 4 7 C2 2…
par(ask=TRUE) opar <- par(no.readonly=TRUE) # record current settings # Listing 11.1 - A scatter plot with best fit lines attach(mtcars) plot(wt, mpg, main="Basic Scatterplot of MPG vs. Weight", xlab="Car Weight (lbs/1000)", ylab=&q…