R in Action(1) 基本数据结构】的更多相关文章

一数据类型 R的数据类型包括数值型.字符型.逻辑型(布尔).复数型和原生型,同时R有好多存储数据的对象类型,包括标量.向量.矩阵.数组.数据框和列表,如下图所示下图(图的版权神马的归原作者跟原出版社所有,赶紧避嫌,呵呵) 1.向量操作 a <- c(1, 2, 5, 3, 6, -2, 4) b <- c("one", "two", "three") c <- c(TRUE, TRUE, TRUE, FALSE, TRUE, F…
R中的数据结构主要面向<线性代数>中的一些概念,如向量.矩阵等.值得注意的是,R中其实没有简单数据(数值型.逻辑型.字符型等),对于简单类型会自动看做长度为1的向量.比如: > b=5 > length(b) [1] 1 > typeof(b) [1] "double" > mode(b) [1] "numeric" R中最重要的数据结构是向量(vector)和矩阵(matrix). 向量由一系列类型相同的有序元素构成:矩阵是数组…
这几年数据挖掘的火热,也越来越多的人把R作为数据挖掘的一个辅助工具,据国际性组织kkguter统计有60%的人在挖掘过程中用到R工具,可见这个工具是多么的流行,对于数据统计.筛选以及画图绝对是神器.尽管之前在学校的时候也“断断续续”的用过它画画图,算算多次实验结果的mean.sd,也用过它来参加过Kaggle上面的比赛,但是都是拿来就用(off-the-shelf),没有系统的记录R的学习过程,借着R in Action一书来温习一下R的艺术编程. 网上有好多关于R的资料,当然官网上的是最全,最…
1.向量 向量是R语言中最基本的数据类型,在R语言中没有单独的变量. (1)  创建向量 R语言中可以用 = 或者 <- 来赋值. 向量名 <- 向量 或  向量名 = 向量 向量的创建方式有c()函数,seq()函数等. 注:R中的向量默认为列向量,如果要得到行向量需要对其进行转置. (2)  引用 待引用向量为:test = c(6,7,8,9,10). a.用下标引用 向量名[下标值] 或  向量名[下标值1:下标值2] (下标值1至下标值2的所有数值) 注:R语言下标值从1开始. 另外…
来源:http://blog.qiubio.com:8080/archives/3753/4 1.atomic vector :一维的,放置同一类型数据的数据类型 1.1创建:由c()函数 ,seq()函数,rep()等函数创建. >a<-c(a,b,c) #combine,将c()函数的参数联合起来成一个向量 >a<-seq(1,3) #sequence,以一定的间隔形成一个向量(等比数列),默认项差为1. >a #1,2,3 >a<-1:3 >a #1,…
1.4 包R提供了大量开箱即用的功能,但它最激动人心的一部分功能是通过可选模块的下载和安装来实现的.目前有2500多个①称为包(package)的用户贡献模块可从http://cran.r-project.org/web/packages下载.这些包提供了横跨各种领域.数量惊人的新功能,包括分析地理数据.处理蛋白质质谱,甚至是心理测验分析的功能.本书中多次使用了这些可选包.1.4.1 什么是包包是R函数.数据.预编译代码以一种定义完善的格式组成的集合.计算机上存储包的目录称为库(library)…
1.5 批处理多数情况下,我们都会交互式地使用R:在提示符后输入命令,接着等待该命令的输出结果.偶尔,我们可能想要以一种重复的.标准化的.无人值守的方式执行某个R程序,例如,你可能需要每个月生成一次相同的报告,这时就可以在R中编写程序,在批处理模式下执行它.如何以批处理模式运行R与使用的操作系统有关.在Linux或Mac OS X系统下,可以在终端窗口中使用如下命令: R CMD BATCH options infile outfile其中infile是包含了要执行的R代码所在文件的文件名,ou…
16.2.4 图形参数 在lattice图形中,lattice函数默认的图形参数包含在一个很大的列表对象中,你可通过trellis.par.get()函数来获取,并用trellis.par.set()函数来修改.show.settings()函数可展示当前的图形参数设置情况.查看当前的默认设置,并将它们存储到一个mysettings列表中: > show.settings() > mysettings<-trellis.par.get() 查看叠加点的默认设置值: > mysett…
16.1 R 中的四种图形系统 基础图形函数可自动调用,而grid和lattice函数的调用必须要加载相应的包(如library(lattice)).要调用ggplot2函数需下载并安装该包(install.packages("ggplot2")),第一次使用前还要进行加载(library(ggplot2)). 16.2 lattice 包 lattice包为单变量和多变量数据的可视化提供了一个全面的图形系统.在一个或多个其他变量的条件下,栅栏图形展示某个变量的分布或与其他变量间的关系…
处理缺失数据的高级方法 15.1 处理缺失值的步骤 一个完整的处理方法通常包含以下几个步骤: (1) 识别缺失数据: (2) 检查导致数据缺失的原因: (3) 删除包含缺失值的实例或用合理的数值代替(插补)缺失值. 缺失数据的分类: (1) 完全随机缺失:若某变量的缺失数据与其他任何观测或未观测变量都不相关,则数据为完全随机缺失(MCAR) (2) 随机缺失:若某变量上的缺失数据与其他观测变量相关,与它自己的未观测值不相关,则数据为随机缺失(MAR) (3) 非随机缺失 若缺失数据不属于MCAR…