手把手教你学习R语言
本文为带大家了解R语言以及分段式的步骤教程!
人们学习R语言时普遍存在缺乏系统学习方法的问题。学习者不知道从哪开始,如何进行,选择什么学习资源。虽然网络上有许多不错的免费学习资源,然而它们多过了头,反而会让人挑花了眼。
为了构建R语言学习方法,我们在Vidhya和DataCamp中选一组综合资源,帮您从头学习R语言。这套学习方法对于数据科学或R语言的初学者会很有用;如果读者是R语言的老用户,则会由本文了解这门语言的部分最新成果。
R语言学习方法会帮助您快速、高效学习R语言。
前言
在开始学习之前,第一个要回答的问题是:为什么要用R语言?或者R语言为何如此有用?
R语言是一门快速发展的开源软件,是SAS、STATA和SPSS这类商业软件的竞争对手。就业市场对R语言的需求正在迅速上升,微软等公司也同时承诺将致力让R语言成为数据科学通用语言。
看看由Revolution Analytics制作的90秒视频(https://www.youtube.com/watch?v=VlJnNSeO1uQ),您就知道R语言的用处。顺便说下,微软刚刚收购了Revolution Analytics。
步骤一:配置计算机环境
建立R语言学习环境最简单方法是通过综合R语言归档网络(CRAN)下载(https://cran.r-project.org/)到您的本地计算机上。可以选择Linux、Mac和Windows对应二进制文件下载。
您可能会考虑使用R语言自带的控制台,但我们建议您安装R语言集成开发环境(IDE)。RStudio(https://www.rstudio.com/)是最有名的IDE,它能让R语言编码更容易、更快,还能让您输入多行代码、处理图形、安装和维护程序,有效引导您的编程环境。RStudio此外可以选用基于eclipse的Architect(http://www.openanalytics.eu/architect)。如果需要安装图形用户界面(GUI),请选择R-commander(http://www.rcommander.com/)或Deducer(http://www.deducer.org/pmwiki/index.php?n=Main.WindowsInstallation)。
课后作业
- 安装R和RStudio。
- 安装Rcmdr、rattle和Deducer程序包。以及推荐或依赖的程序包,包括GUI。
- 使用库命令加载安装程序,并打开GUI。
步骤二:R语言基础学习
您应该首先了解语言、库和数据结构基础知识。
如果您更倾向于在线交流方式学习R语法,DataCamp(https://www.datacamp.com/courses/free-introduction-to-r)提供的免费在线R教程是很好的资源。还可以选择后续课程:中级R编程(https://www.datacamp.com/courses/intermediate-r)。另一种学习方法是在线版本swirl(https://www.datacamp.com/swirl-r-tutorial),它能让您在类似RStudio环境中学习R语言。
在互动学习环境中,您可以选择参加Coursera(https://www.coursera.org/specializations/jhu-data-science)或Edx(https://www.edx.org/course/introduction-r-programming-microsoft-dat204x-0)上mooc课程。
除了上述在线资源,您还可以考虑以下优秀资源:
- CRAN免费教学R语言(https://cran.r-project.org/doc/manuals/R-intro.pdf)。
- Jared Lander’s R for Everyone(http://www.jaredlander.com/r-for-everyone/)
- Quick-R(http://statmethods.net/)
专门学习:阅读、数据帧、表、概述、描述、加载和安装包、使用绘图命令可视化数据。
课后作业
- 使用DataCamp免费在线R教程,熟悉基本的R语法。
- 创建Github(http://github.com/)账号。
- 通过google帮助,解决安装过程中出现的问题。
- 安装swirl包并学习R编程(见上文)。
步骤三:了解R社
强大社区的存在是R语言发展迅速、大获成功的主要原因。社区中核心的是R语言的“包”生态系统。R语言程序包可以在CRAN、bioconductor、github和bitbucket中下载。在Rdocumentation(http://www.rdocumentation.org/)中,您可以轻松搜索来自CRAN、github和bioconductor中能满足您当前工作需要的程序包。与在R语言程序包生态系统同样重要的是,您可以在R endeavours上轻松获得帮助与反馈。首先,R内置帮助系统,您可以通过命令来访问。同时,在Analytics Vidhya Discussions,Stack OverflowR语言是增长最快语言。R-bloggers(http://www.r-bloggers.com/)汇集许多R语言爱好者写的博文。
课后作业:
- 访问CranTask Views了解R语言生态系统。
- 在http://r-bloggers.com上注册并订阅每日新闻。
步骤四:数据导入和操作
导入和操作数据是数据科学工作流程中重要步骤。R语言允许使用特定包导入不同数据格式,从而使您工作更轻松,如下:
- readr:导入平面文件。
- Readxl package:将excel文件转化为R语言。
- haven package包:让您将SAS、STATA和SPSS数据文件导入R语言。
- Databases:连接通过像RMySQL和RpostgreSQL包,使用DBI访问和操作。
- rvest: 网页数据抓取。
一旦数据在工作环境中可用,您就可以使用下面程序包操作:
- 整理数据的tidyr程序包。
- stringr包处理字符串操作。
- 对象数据帧,可以学习dplyr包输入和输出(https://www.datacamp.com/courses/dplyr-data-manipulation)。
- 需要执行繁重数据争用任务?试试data.table程序包。
- 执行时间序列分析?尝试一下像zoo,xts和quantmod程序包。
课后作业
- 通过“导入数据进入R语言”课程,或阅读文章1、2、3、4。掌握导入数据软件包。
- 通过RStudio观看Data Wrangling with R 。(https://www.rstudio.com/resources/webinars/data-wrangling-with-r-and-rstudio/)
- 阅读并练习如何使用dplyr、tidyr和data.table程序包。
步骤五:有效数据可视化
自己创建数据可视化作品是一件很自豪的事情。然而,数据可视化既是一项技能,也是一门艺术。许多学者阅读Edward Tufte 的“可视化定量数据”原理,或者StephenFew的 “pitfalls on dashboard design”。也可以阅读NathanYau在FlowingData 写的博文,来获得创建R语言可视化灵感。
1. 平面图无处不在
R语言提供了多种创建图形方法,使用原理图创建图形是标准的方法。然而,有一些好的工具(或包)使用更简单的方式来创建,查看图形。
- 在R语言中学习基本图形语法是数据可视化中一种实用方法。
- 在R语言中ggplot是数据可视化中最重要的包,并且很受欢迎,网上有很多它的学习资源,比如在线ggplot2教程,cheatsheet ,和以及一本由哈德利韦翰编写的教学书。
- ggvis程序包允许您使用基本图形语法创建交互式web图形(参见教程)。
- 您知道Hans Rosling ted课程吗?教您如何的用googleVis(一个带有谷歌图表接口)来重建图表。
- 如果您遇到了绘制数据的问题,这篇文章会对您有所帮助。在这个CRAN任务视图中可以查看到更多的可视化资源。或者查看R语言数据可视化指南。
2. 地图无处不在
您对分析空间可视化数据感兴趣吗?学习本教程:介绍R语言空间数据,您会轻松地使用这些包。
- 源自Google maps和ggmap开放街道的静态图片,可用来创建可视化空间数据和模型。
- Ari Lamstein’s中的choroplethr程序包。
- tmap 程序包
3. HTML插件
HTML插件是R语言可视化产品中非常有前景的插件,您可以用简单的方式创建交互式web可视化(参见RStudio教程),掌握这种可视化方法将会成为R语言学习中必备技能。其带来的视觉效果会给您朋友和同事留下深刻印象。
- leaflet创建动态图片。
- 使用dygraphs生成时间序列数据图表。
- 互动表(datatable)。
- DiagrammeR创建图和流程图。
- MetricsGraphics创建散点图、线图和直方图。
课后作业
- 理解基本图形语法原理。
- 学习ggplot2教程。
- 使用RStudio环境学习html插件。
步骤六:数据挖掘、机器学习
对于新的统计数据学习方法,我们推荐下列资源:
- Andrew Conway’s课程:R语言统计数据简介。
- 杜克大学数据分析和统计推断。
- R语言实用数据科学。
- 约翰霍普金斯大学数据科学专业课程。
- R语言数据科学使用指南。
如果您想提高机器学习能力,可以考虑从以下教程开始学习:
- 机器学习算法要点。
- 自行车共享大赛--一套R语言完整解决方案。
- Kaggle上的机器学习课程。
- 掌握机器学习。
- 介绍机器学习。
确保在相关的CRAN任务视图中查看到R语言可用的机器学习资源。
课后作业
- 从统计学课程开始入门。
- 学习Kaggle上免费机器学习课程。
- 看Rattle中的一些R语言数据挖掘书。
- 可以从这本小册子上学习时间序列——A Little Book for Time Series in R .
步骤七:报告结果
与数据科学爱好者交流成果,分享见解是一件很重要的事情。幸运的是,R语言针对这个问题有一些非常实用工具。
第一个工具是R Markdown,采用knitr和pandoc复制方式生成您的数据分析结果报告。使用R markdown工具,R语言最终生成文档,替换R语言代码。文档可以是html、word、pfd、ioslides等格式。您可以通过本教程学到更多知识并使用cheatsheet作为参考资料。
第二个工具是ReporteRs,它是个创建Microsoft(Worddocx和Powerpoint pptx)和html R语言文档程序包,并可以在Windows、Linux、Unix和Mac OS系统上运行。像R Markdown工具一样自动生成R语言报告,点击这里我们来看看如何操作。
第三个是Shiny,目前R语言中最令人兴奋的工具。使R语言构建交互式web应用程序变得非常容易。您可以把分析报告转换为交互式web应用程序,您不需要了解HTML、CSS或Java相关知识。如果您想要学习Shiny ,请点击RStudio learning portal。
课后作业
- 使用RMarkdown或ReporteRs创建第一个交互式报告。
- 尝试构建一个Shiny应用。
练习
只有通过大量练习才能成为优秀R语言程序员。因此,要定期解决数据科学中的问题。我们的建议是赶紧开始与Kaggle上的数据科学家交流。
在解决问题中测试自己的R语言水平--练习中的问题。
步骤八:时间序列分析
R语言有一个用于专属任务视图时间序列。如果你想在R语言中做一些时间序列分析,这将是您开始的地方。您很快会发现工具的强大。
想要从在线资源中掌握时间序列分析是件不容易的事情。好的切入点是一本关于时间序列的书或者选择《原理与实践》这本书。在程序包方面,您需要熟悉Zoo与xts程序包。Zoo为您提供了常用的保存时间序列对象格式,而xts供了操作时间序列的数据集工具。
辅助资源: 时间序列综合教程。
课后作业
- 选择上述列出的时间系列教程,开始您的分析。
- 使用quantmod或quandl程序软件包下载财务数据,开始您的时间序列分析。
- 使用诸如dygraphs的程序包创建您的可视化时间序列数据和分析。
文本挖掘一个重要工具
学习文本挖掘,您可以从edge课程中学习。虽然课程已经结束,但是您仍然可以访问这些课程。
练习
- 文本挖掘竞赛--一套R语言的完整解决方案。
步骤九:成为R语言大师
现在您已经掌握了大部分R语言数据分析,是时候给出一些高级课程资源了。您很可能已经知道其中的一些内容,但不妨看看这些教程。
- Hadley Wickham的高级R语言教程。
- 在Hadoop、MongoDB或NoSQL中使用R语言。
- 微软的RevoScaleR 程序包
原文链接:
https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/
手把手教你学习R语言的更多相关文章
- 手把手教你进行R语言的安装及安装过程中相关问题解决方案
这篇文章旨在为R语言的新手铺砖引路,行文相对基础,希望对在R语言安装上有问题的小伙伴提供帮助和指引.一.什么是 R 语言R 编程语言被广泛应用在统计科学和商业领域. 在各种编程语言排名中 R 语言的排 ...
- 手把手教你学习DSP_硬件设计
<<手把手教你学习DSP>>顾卫刚,感觉写的不错,将感兴趣的部分摘录下俩. 1.A/D保护及矫正电路 TMS320X2812 AD输入为0-3V,用上述电路可以起到钳位作用.当 ...
- 《手把手教你学C语言》学习笔记(2)---学习C语言的目标和方法
一.学习C语言的目标主要是: 熟练掌握C语言的关键字,语法规则,程序控制等: 掌握基本的数据结构,数组.链表.栈和队列等: 掌握C语言中指针和内存.数组与指针.函数与指针.变量和指针.结构体和指针.硬 ...
- 《手把手教你学C语言》学习笔记(1)---C语言的特点
学习C语言的原因,主要是需要使用C语言编程,我用故我学,应该是最主要的原因了. C语言的定位:C语言严格意义上只能算是中级语言,是面向过程编程语言的集大成者,虽然这种语言有很多的问题,但总体而言是瑕不 ...
- 学习R语言的一点小心得
1.目前R 语言处于入门阶段吧,能够执行一些简单的模型了,还是有收获的. 但是在跑模型的时候经常遇到各种各样的错误,最常见的错误就是数据带入模型之后,数据的类型不对,因此模型跑不下去,因此说,利用he ...
- 从零开始学习R语言(一)——数据结构之“向量”(Vector)
本文首发于知乎专栏:https://zhuanlan.zhihu.com/p/59688569 也同步更新于我的个人博客:https://www.cnblogs.com/nickwu/p/125370 ...
- 从零开始学习R语言(五)——数据结构之“列表(List)”
本文首发于知乎专栏:https://zhuanlan.zhihu.com/p/60141740 也同步更新于我的个人博客:https://www.cnblogs.com/nickwu/p/125678 ...
- 从零开始学习R语言(四)——数据结构之“数组(Array)”
本文首发于知乎专栏:https://zhuanlan.zhihu.com/p/60141207 也同步更新于我的个人博客:https://www.cnblogs.com/nickwu/p/125677 ...
- 《手把手教你学C语言》学习笔记(7)---程序的输入与输出
程序设计中,为了观察程序的运行状态和结构,需要输出指定的内容:为了让程序能够更加灵活,可以根据需求输入内容,让计算机处理和运行:所以程序的输入输出就显的尤为重要.主要包括printf和scanf函数. ...
随机推荐
- react系列笔记1 用npx npm命令创建react app
react系列笔记1 用npx npm命令创建react app create-react-app my-app是开始构建新的 React 单页应用程序的最佳方式.它已经为你设置好了开发环境,以便您可 ...
- 校正PHP服务器时间不准的问题
关于怎样解决PHP服务器时间不准的问题,得针对不同的情况进行不同的处理. 下面是经常遇到的情况,及应对办法. 1.PHP服务器时区不对,使用下面代码修正: <?php $timezone = & ...
- python docopt模块详解
python docopt模块详解 docopt 本质上是在 Python 中引入了一种针对命令行参数的形式语言,在代码的最开头使用 """ ""&q ...
- GoldenGate 12.3 MA架构介绍系列(1) - 安装
GoldenGate 12.3微服务架构与传统架构的区别可参考: http://www.cnblogs.com/margiex/p/7439574.html 下载地址:http://www.oracl ...
- APP端上传图片 - php接口
$base64="iVBORw0KGgoAAAANSUhEUgAAABgAAAAYCAYAAADgdz34AAAABHNCSVQICAgIfAhkiAAAAbRJREFUSIntlDFPFF ...
- 一个用python简单的封装了aria2的jsonrpc中adduri的脚本
aria2是一个十分牛逼的下载神器,有时候项目需要一个很牛逼的下载中间件的话,aria2是一个不错的选择.其中支持jsonrpc和websocket的特性尤其诱人.但是python用起来还是有点不爽, ...
- Linux共享内存的管理
在进程通信应用中会用到共享内存,这就涉及到了IPC,与IPC相关的命令包括:ipcs.ipcrm(释放IPC).IPCS命令是Linux下显示进程间通信设施状态的工具.我们知道,系统进行进程间通信(I ...
- Centos环境自写脚本查看使用php或nginx占用内存
在CentOs6.4下,用root权限测试. # cd ~ //进入home目录 # vim .bashrc //编辑文件,把下面代码放入地址 mem () { top -n1 -b | head - ...
- Spring Boot(九):定时任务
Spring Boot(九):定时任务 一.pom包配置 pom包里面只需要引入springboot starter包即可 <dependencies> <dependency> ...
- Android之socket客户端
接收数据不要用readline(),用read() Socket mSocket = new Socket("192.168.1.100", 8888); DataInputStr ...