R语言笔记】的更多相关文章

R语言笔记 学习R语言对我来说有好几个地方需要注意的,我觉得这样的经验也适用于学习其他的新的语言. 语言的目标 我理解语言的目标就是这个语言是用来做什么的,为什么样的任务服务的,也就是设计这个语言的动机.比如C++是为系统编程服务的,java是为企业级应用服务的.R语言是用于统计分析,这样在R的系统中有大量的库(或者是package)用来实现特定的统计方法. 基本的数据类型 学习各个语言的第一步是了解这个语言的最基本的数据类型,这决定如何使用变量进行计算. 基本数据类型是直接由语言本身所定义的变…
接R语言笔记3--实例1 R语言中的可视化函数分为两大类,探索性可视化(陌生数据集,不了解,需要探索里面的信息:偏重于快速,方便的工具)和解释性可视化(完全了解数据集,里面的故事需要讲解别人:偏重全面,美观的工具). R语言中的绘图包: graphics(自带) >探索性 lattice >探索性 ggplot2 >解释性 1.对x1进行直方图分析,绘制直方图hist()       2.探索各科成绩的关联关系,散点图绘制函数plot()            3.列联表分析,列联函数t…
[R笔记]R语言函数总结   R语言与数据挖掘:公式:数据:方法 R语言特征 对大小写敏感 通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母).不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字. 基本命令要么是表达式(expressions)要么就是 赋值(assignments). 命令可以被 (;)隔开,或者另起一行. 基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(compound expression). 一行中,从井号(…
1.简单会话 > x<-c(1,2,4) > x [1] 1 2 4 R语言的标准赋值运算符是<-.也可以用=,不过不建议用它,有些情况会失灵.其中c表示连接(concatenate) > q<-c(x,x,8) > q [1] 1 2 4 1 2 4 8 取q中的某个元素,R下标是从1开始的. > q[2] [1] 2 利用现有函数求均值,方差 mean(q) sd(q)#“#”为注释符号 2.函数入门: 创建一个计算计数个数的函数 > oddcou…
R语言使用 <-  赋值 # 作为注释符号 c()函数用于作为向量赋值,例如age<-c(1,2,3,4,5) mean()用于求向量的平均值 sd()求向量的标准差 cor(a,b)求a和b的相关度,a.b均为向量 source("filename.R") 执行脚本文件 sink("filename") 将文本输出重定向到filename,默认是覆盖的模式,可以通过设定append=True 改为追加的模式,split=True改为将输出同时定向在屏幕…
1.读文本文件数据 (1)先设置工作目录,把文本文件放于该目录下 备注:在记事本里写完数据后,按一下回车,负责在R语言中出现错误 (2)读剪贴板 文本或EXCEL的数据均可通过剪贴板操作 (3)读excel文件数据 方法1:先把excel另存为空格分隔符的prn文件格式再读     方法2:安装RODBC包,再通过ODBC读…
注释:R语言是区分大小写的 1.向量 R语言中可以将各种向量赋值为一个变量,这种赋值操作符就是等号“=”,也可以使用“<-”. 1)产生向量 (1)函数c() 例如:x1=c(2,4,6,8,0)    表示数列 (2)例如: 向量a:2到60的元素都乘以2再加1 a[5]:显示向量a的第5个元素 a[-5]:除去向量a的第5个元素,显示其它元素 a[1:5]:显示第1到第5个元素 a[-(1:5)]:除去第1到第5个元素,显示其余的元素 a[c(2,4,7)]:显示第2,第4,第7个元素 a[…
转自该网站:http://research.stowers-institute.org/efg/R/Color/Chart/ 科学可视化中常用的一些颜色表:http://geog.uoregon.edu/datagraphics/color_scales.htm Step-by-Step Procedure (to learn about "colors") 1.  The function call, colors(), or with the British spelling, c…
1.循环语句 for语句 while语句 2.R脚本 source()函数 print()函数…
get_range <- function(data_name , row_name){ library(stringr) load(data_name) data_str <- str_replace(a,".Rdata" ,"") data <- eval(parse(text = data_str)) data_set <- as.numeric(data[[row_name]]) max_num <- max(data_set)…
今天查了一下R语言中set.seed(),该命令的作用是设定生成随机数的种子,种子是为了让结果具有重复性.如果不设定种子,生成的随机数无法重现. set.seed()用于设定随机数种子,一个特定的种子可以产生一个特定的伪随机序列,这个函数的主要目的,是让你的模拟能够可重复出现,因为很多时候我们需要取随机数,但这段代码再跑一次的时候,结果就不一样了,如果需要重复出现同样的模拟结果的话,就可以用set.seed().在调试程序或者做展示的时候,结果的可重复性是很重要的,所以随机数种子也就很有必要. …
方法一:使用aggregate()分组获取描述性统计量 aggregate(mtcars[vars],by=list(am=mtcars$am),mean) aggregate(mtcars[vars],by=list(mtcars$am),mean) aggregate(mtcars[vars],by=list(am=mtcars$am),sd)…
数据的分布特征: 分布的集中趋势,反应各数据向其中心值靠拢或聚集的程度(平均数,中位数,四分位数,众数) 分布的离散程度,反应各数据远离其中心值的趋势(极差,四分位差,方差,标准差,离散系数) 分布的形状,反应数据分布的偏斜程度和峰度(偏态系数,峰度系数) ####################### 平均数(均值):一组数据相加后除以数据的个数而得到结果,称为平均数(mean) 中位数:一组数据排序后处于中间位置上的变量值,称为中位数(median) 四分位数:一组数据排序后处于25%(下四…
R批量读取txt文件 本文数据,代码都是参考的是大音如霜公众号,只是自己跟着做了一遍. path<-'C:\\Users\\Administrator\\Desktop\\docs' docs<- get.msg<-function(x){ con<-file(x,open = 'rt')#打开文件 msg<-readLines(con)#分行读取 close(con)#关闭路径 return(paste(msg,collapse = ''))#将第一行和最后一行连接在一起,…
读取csv格式数据 数据来源是西南财经大学 司亚卿 老师的课程作业 方法一:read.csv()函数 file.choose() read.csv("C:\\Users\\Administrator\\Desktop\\Astocks.csv", head=T,sep=,stringsAsFactors = FALSE) 结果…
综合性例子: 模拟产生统计专业同学的名单(学号区分),记录数学分析,线性代数.概率统计三科成绩,然后进行一些统计分析 1.首先产生一个向量(100个元素,代表100位学生) 2.模拟成绩 runif:均匀分布函数 rnorm:正态分布函数 round:是四舍五入的函数 因为x3中有超过100的元素,那么将超过100元素的元素都赋值为100 3.合成数据框并保存到硬盘 data.frame(), write.table 4.计算各科平均分 函数mean(),collMeans(),apply(),…
set.seed()函数 set.seed()设定生成随机数的种子,让样本可重复. > x<-rnorm() # 生成4个随机数 > x [] 0.6599492 0.5881863 -1.9215553 -0.9161720 > y<-rnorm() > y [] -0.8496265 -2.5471568 0.5650117 0.9226440 > )# 设定种子,让样本可重复 > x<-rnorm() > x [] 0.2167549 -0…
sample()函数 sample(x,size,replace=FALSE) x表示一个或多个向量,size表示从x中随机取的样本个数,replace=FALSE表示不放回抽样,即不会选取到相同的值 > x<-seq(,to=,by=) > sample(x,,replace = FALSE)# 不放回抽样 [] > x<-seq(,to=,by=) > sample(x,,replace = TRUE)# 可放回抽样 []…
<13: Simulation> > sample(1:6,4,replace=TRUE) [1] 4 5 2 6 在1-6的整数中随机生成4个整数,且数字可以重复,即每个数字均可重复选择; >sample(LETTERS) 随机生成26个英文字母 >sample(c(0,1),100,replace = TRUE,prob = c(0.3,0.7)) > rbinom(1,size = 100,prob = 0.7) [1] 72 >rbinom(100,1,0…
[怪毛匠子整理] 1.下载 wget http://mirror.bjtu.edu.cn/cran/src/base/R-3/R-3.0.1.tar.gz 2.解压: tar -zxvf R-3.0.1.tar.gz cd R-3.0.1 3.安装 yum install readline-devel yum install libXt-devel ./configure 如果使用rJava需要加上 --enable-R-shlib ./configure  --enable-R-shlib -…
在R的官方教程里是这么给R下注解的:一个数据分析和图形显示的程序设计环境(A system for data analysis and visualization which is built based on S language.). R的源起 R是S语言的一种实现.S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索.统计分析.作图的解释型语言.最初S语言的实现版本主要是S-PLUS.S-PLUS是一个商业 软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善.后来Auc…
PS:初学R  为了查阅方便 借鉴的网友的博客和自己的总结记录一下 http://blog.csdn.net/jack237/article/details/8210598 命令简介 R对大小写是敏感的:名称不能以数字开始:    基本的命令由表达式或者赋值语句组成.如果一个表达式被作为一条命令给出,它将被求值.打印而表达式的值并不被保存.一个赋值语句同样对表达式求值之后把表达式的值传给一个变量,不过并不会自动的被打印出来:    命令由分号(;)来分隔,或者另起新行:    基本命令可以由花括…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 一.贝叶斯网络与朴素贝叶斯的区别 朴素贝叶斯的假设前提有两个第一个为:各特征彼此独立:第二个为且对被解释变量的影响一致,不能进行变量筛选.但是很多情况这一假设是无法做到的,比如解决文本分类时,相邻词的关系.近义词的关系等等.彼此不独立的特征之间的关系没法通过朴素贝叶斯分类器训练得到,同时这种不独立性也给问题的解决方案引入了更多的复杂性[1].…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- tmcn包目前托管在在R-forge 上开发和发布.下载方式以及Rforge相关链接: install.packages("tmcn", repos = "http://R-Forge.R-project.org") tmcn 包是一个进行中文文本挖掘的R包.包含了中文编码处理.文字操作. 文本挖掘模型和算法的一些…
R语言实现关联规则 笔者前言:以前在网上遇到很多很好的关联规则的案例,最近看到一个更好的,于是便学习一下,写个学习笔记. 1 1 0 0 2 1 1 0 0 3 1 1 0 1 4 0 0 0 0 5 1 1 0 1 6 1 0 1 0 2.关联规则专业术语项集 ItemSet 这是一条关联规则: 括号内的Item集合称为项集.如上例,{News, Finance}是一个项集,{Sports}也是一个项集. 这个例子就是一条关联规则:基于历史记录,同时看过News和Finance版块的人很有可能…
人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型.神经网络由大量的人工神经元联结进行计算.大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统.现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式. 人工神经网络从以下四个方面去模拟人的智能行为: 物理结构:人工神经元将模拟生物神经元的功能 计算模拟:人脑的神经元有局部计算和存储的功能,通过连接构成一个系统.人工神经网络中也有大量…
R语言中的数据处理包dplyr.tidyr笔记   dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用. 本文将介绍dplyr包的下述五个函数用法: 筛选: filter() 排列: arrange() 选择: select() 变形: mutate() 汇总: summ…
引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等函数进一步分离强化, 专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口. 既然是 Hadley Wickham 的新作, 并自称 a grammar of data manipulation, 当然要先学为快了, 正好新申了域名, 就把原本记在 Rmd …
R语言与数据挖掘:公式:数据:方法 R语言特征 对大小写敏感 通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母).不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字. 基本命令要么是表达式(expressions)要么就是 赋值(assignments). 命令可以被 (;)隔开,或者另起一行. 基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(compound expression). 一行中,从井号(#)开始到句子收尾之间的语句就…
R语言可视化学习笔记之添加p-value和显著性标记 http://www.jianshu.com/p/b7274afff14f?from=timeline   上篇文章中提了一下如何通过ggpubr包为ggplot图添加p-value以及显著性标记,本文将详细介绍.利用数据集ToothGrowth进行演示 #先加载包 library(ggpubr) #加载数据集ToothGrowth data("ToothGrowth") head(ToothGrowth) ## len supp…