第一章 R简单介绍

本章概要

1安装R

2理解R语言

3执行R程序

本章所介绍的内容概括例如以下。

一个典型的数据分析步骤如图1所看到的。

图1:典型数据分析步骤

简而言之,现今的数据分析要求我们从多种数据源中获取数据、数据合并、标注、清洗和分析。而且把分析的结果进行展示,形成报告或者系统。辅助决策。R可以满足现今数据分析的要求。

为什么用R?

R是一个适合统计分析和画图的环境与语言。它是开源、免费的。获得世界范围社区支持。

统计分析和画图工具已经非常多了。比如:SPSS。SAS。Excel,Stata和Minitab等。为什么还要用R呢?R的诸多特性,能够回答这个问题。

1)R是免费的,大多数统计工具都是商业化的,即要花钱。

2)R是一个功能强大全面的统计分析平台。一个典型的数据分析过程都能够用R来完毕。

3)R具有强大的画图能力。

4)R是一个可以进行交互式数据分析和探索的平台。

5)R是一个以easy且直观的方式编写统计方法的无与伦比的平台。

6)R实现了非常多高级统计方法。

7)R能够在多个系统上执行。

8)R对于不想编程的人,提供GUI,实现R所能做的事情。

获得和安装R

从网址http://cran.r-project.org获得R安装程序。

R工作

R是一个有大写和小写之分的解释型语言。你能够在命令提示符(>)每次输入一条命令或者在一个源文件里写好全部命令集。

R的赋值符号是”<-“。

> x <- rnorm(5)  # 向量x包括5个服从标准正态分布的随机数

R在Windows系统的GUI如图2所看到的。

图2:Windows系统下GUI

R实例一,数据集为10个婴儿年龄(单位:月)和体重(单位:千克)。

程序清单例如以下:

> Age <- c(1, 3, 5, 2, 11, 9, 3, 9, 12, 3)

> Weight <- c(4.4, 5.3, 7.2, 5.2, 8.5, 7.3, 6.0, 10.4, 10.2, 6.1)

> mean(Weight)

[1] 7.06

> sd(Weight)

[1] 2.077498

> cor(Age, Weight)

[1] 0.9075655

> plot(Age, Weight)

关于Age与Weight的散点图如图3所看到的。

图3:10个婴儿的Age-Weight散点图

退出界面,运行例如以下函数。

> q()

R帮助系统非常强大,通过帮助能够获得R中已安装包的函数的细节、參考和实例。R 中获得帮助的方法。

方法一:help.start()

方法二:help("foo")或者?foo

方法三:help.search("foo")或者??foo

方法四:example("foo")

方法五:RSiteSearch("foo")

方法六:apropos("foo",mode="function")

方法七:data()

方法八:vignette()

方法九:vignette("foo")

R 工作空间是R当前工作环境和用户定义的全部对象。

(向量、列表、数组、矩阵、数据框 和函数等)

管理R空间的一些函数。

函数一:getwd()

函数二:setwd("mydirectory")

函数三:list()

函数四:rm(objectname)

函数五:help(options)

函数六:options()

函数七:history(#)

函数八:savehistory("myfile")

函数九:loadhistory("myfile")

函数十:save.image("myfile")

函数十一:load("myfile")

函数十二:save(objectlist, file="myfile")

R实例二,数据集20个服从标准均匀分布的随机数

> setwd("E://myproject")

>options()

>options(digits=3)

>x <-  runif(20)

>summary(x)

>hist(x)

>savehistory(x)

>save.image()

>q()

R脚本输入方法,即source("myscript.R")

文本输出方法。即sink("myfilename")

图形输出方法,即pdf("xxx.pdf")或者png("xxx.png")或者jpeg("xxx.jpg")或者bmp("xxx.bmp")等。

R包

R功能之所以强大,原因之中的一个就是具有许多的功能扩展包。R包下载地址例如以下:

http://cran.r-project.org/web/packages/

为什么要用R包。

R包是R函数、数据,可编译代码的聚合。

.libPaths()  #显示包安装路径

library() # 查看已安装的包

search() #告知那些包已装载和能够使用

R软件安装完成后,自带包(标准包)有base。datasets,utils。grDevices。graphics。stats和methods。

安装包方法,即 install.packages("packagename")

更新包方法。即update.packages()

了解已安装包的具体信息方法,即installed.packages()

载入包(前提是该包已经安装)的方法,即library("packagename")

对新安装包的学习和认知方法,即help(package="packagename")

批处理

适合反复性工作

形式:R CMD BATCH options  infile  outfile

结果重用

f分析的结果能够保存。并作为下一次的输入。

R实例三。数据集R自带的mtcars。

程序清单:

>lmfit <- lm(mpg ~ wt, data=mtcars)

>summary(lmfit)

>plot(lmfit)

>predict(lmfit, mynewdata)

对待大数据集

R所处理的一切都视为对象代之,而且是把对象载入到内存中进行操作和处理。

因而,R能处理多大的数据集取决于作业环境的内存容量。

使用R进行数据分析,须要考虑两点,一是数据的大小。二是统计分析的方法。

R可以处理GB级到TB级数据。

但特殊过程特殊处理。

R实例

秉承”学以致用、活学活用“的原则。以一个综合实例融合上述内容。

R综合实例,程序清单例如以下。

>help.start()

>library()

>install.package("vcd")

>help(package="vcd")

>library(vcd)

> help(Arthritis)

> Arthritis

> example(Arthritis)

>q()

执行效果如图4所看到的。

总结

1 )R的优势。

2 )因R非常适合理解数据,吸引非常多用户群(学生、研究人员、统计学者、数据分析师等)。

3​)RGUI、R安装、R包、R程序、R帮助、R结果保存、R批处理等内容。

Resoure:

1.http://www.wangluqing.com/2014/06/r-in-action-note2/

2.《R in action》第一部分的第一章

《R实战》读书笔记二的更多相关文章

  1. 深入理解Java虚拟机 -- 读书笔记(1):JVM运行时数据区域

    深入理解Java虚拟机 -- 读书笔记:JVM运行时数据区域 本文转载:http://blog.csdn.net/jubincn/article/details/8607790 本系列为<深入理 ...

  2. 【Todo】深入理解Java虚拟机 读书笔记

    有一个在线系列地址 <深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)> http://book.2cto.com/201306/25426.html 已经下载了这本书(60多M ...

  3. 深入理解Java虚拟机读书笔记5----虚拟机字节码执行引擎

    五 虚拟机字节码执行引擎   1 运行时栈帧结构     ---栈帧是用于支持虚拟机进行方法调用和方法执行的数据结构,是虚拟机运行时数据区中的虚拟机栈的栈元素.     ---栈帧中存储了方法的局部变 ...

  4. 深入理解Java虚拟机--阅读笔记二

    垃圾收集器与内存分配策略 一.判断对象是否已死 1.垃圾收集器在对堆进行回收前,要先判断对象是否已死.而判断的算法有引用计数算法和可达性分析算法: 2.引用计数算法是给对象添加引用计数器,有地方引用就 ...

  5. 深入理解Java虚拟机读书笔记8----Java内存模型与线程

    八 Java内存模型与线程   1 Java内存模型     ---主要目标:定义程序中各个变量的访问规则,即在虚拟机中将变量存储到内存和从内存中取出变量这样的底层细节.     ---此处的变量和J ...

  6. 深入理解Java虚拟机读书笔记7----晚期(运行期)优化

    七 晚期(运行期)优化 1 即时编译器(JIT编译器)     ---当虚拟机发现某个方法或代码块的运行特别频繁时,就会把这些代码认定为“热点代码”,包括被多次调用的方法和被多次执行的循环体.     ...

  7. 深入理解Java虚拟机读书笔记4----虚拟机类加载机制

    四 虚拟机类加载机制 1 类加载机制     ---概念:虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验.转换解析和初始化,最终形成可以被虚拟机直接使用的Java类型.     -- ...

  8. 深入理解Java虚拟机读书笔记3----类文件结构

    三 类文件结构 1 Java虚拟机的两种中立特性     · 平台无关性     · 语言无关性     实现平台无关性和语言无关性的基础是虚拟机和字节码存储格式(Class文件).   2 Clas ...

  9. 深入理解Java虚拟机读书笔记1----Java内存区域与HotSpot虚拟机对象

    一 Java内存区域与HotSpot虚拟机对象 1 Java技术体系.JDK.JRE?     Java技术体系包括:         · Java程序设计语言:         · 各种硬件平台上的 ...

  10. 深入理解java虚拟机读书笔记--java内存区域和管理

    第二章:Java内存区域和内存溢出异常 2.2运行时数据区域 运行时数据区分为方法区,堆,虚拟机栈,本地方法栈,程序计数器 方法区和堆是线程共享的区域 虚拟机栈,本地方法栈,程序计数器是数据隔离的数据 ...

随机推荐

  1. SpringBoot学习笔记(13)----使用Spring Session+redis实现一个简单的集群

    session集群的解决方案: 1.扩展指定server 利用Servlet容器提供的插件功能,自定义HttpSession的创建和管理策略,并通过配置的方式替换掉默认的策略.缺点:耦合Tomcat/ ...

  2. 洛谷P2045 方格取数加强版 最小费用流

    Code: #include<cstdio> #include<cstring> #include<algorithm> #include<queue> ...

  3. [Python随笔]>>字符串大小写是如何转换的?

    首先看下Python的源码 Emmmm,说明是底层的C实现的,所以只放了说明 再看看别人家孩子的博客:https://blog.csdn.net/world6/article/details/6994 ...

  4. [六省联考2017]分手是祝愿(期望+DP)

    题解 很容易想出来最优策略是什么. 就是从n到1看到开着的灯就把它关了 我们预处理出当前状态把灯全部关闭后的最少步数cnt 然后我们的主人公就要瞎按... 设dp[i]代表当前状态最优解为i步时走到d ...

  5. weak和alias

    一.强符号和弱符号 在C语言中,如果多个模块定义同名全局符号时,链接器认为函数和已初始化的全局变量(包括显示初始化为0)是强符号,未初始化的全局变量是弱符号. 根据这个定义,Linux链接器使用下面的 ...

  6. Windows下从源代码编译Skia

    在PPAPI里面画图,能够结合第三方的图形库.比方Cairo.Skia. Google Chrome.Chromium和Android都使用Skia作为画图引擎.我也来试试Skia,先过编译关. fo ...

  7. opecv2 MeanShift 使用均值漂移算法查找物体

    #if !defined OFINDER #define OFINDER #include <opencv2\core\core.hpp> #include <opencv2\img ...

  8. ACdream 1139(Sum-逆元)

    J - Sum Time Limit: 2000/1000MS (Java/Others) Memory Limit: 128000/64000KB (Java/Others) SubmitStatu ...

  9. Thinkphp 无法使用-&gt;order() 排序的两种解决的方法!

    使用ThinkPHP,却发现无法使用->order($order)来排序. $order = " info.date2 desc "; 非常遗憾的是这样写结果order却变成 ...

  10. Eval函数知识总结

    说道Json,我们先来聊聊eval 一.eval是什么?(解析器) eval是一个函数,看本质function  eval() { [native code] } 二.怎样使用eval? 语法:str ...