R数据科学-1】的更多相关文章

学习R有不会的就查工具书<R数据科学>, 工具不是重点,创造价值才是目的.具体到数据科学,表现形式往往是提供解决方案或者做出某种决策.至于使用什么语言,采用什么工具,不本质.用 R 还是 Python 或者是 Julia, 都可以. 工具会影响单位时间内产出的效率.典型的数据分析场景下,生产力的标志可能并不是一开始就写一个保证高并发的服务框架,因为可能业务方向都还没定呢.所以此时的生产力标志往往是尽快发现问题,尽快验证各种模型,尽快做出合理决策. 学习参考: <R数据科学>高清中文…
R数据科学(R for Data Science) Part 3:编程 转换--可视化--模型 --------------第13章 使用magrittr进行管道操作-------------------- library(tidyverse) #管道不能支持以下函数: #①使用当前环境的函数:如assign/get/load assign("x",10) x "x" %>% assign(100) # 这里的赋值是由%>% 建立的临时环境进行的 env…
R数据科学(R for Data Science) Part 2:数据处理 导入-->整理-->转换 ------------------第7章 使用tibble实现简单数据框------------------- #tibble一种简单数据框 vignette("tibble") #创建tibble str(iris) str(as_tibble(iris)) tibble(x=1:5, y=1, z=x^2+y) #tribble(transposed tibble)转…
R数据科学(R for Data Science) Part 1:探索 by: PJX for 查漏补缺 exercise: https://jrnold.github.io/r4ds-exercise-solutions ------------前言------------------------------- library(tidyverse) #核心包:ggplot2/tibble/readr/purrr/dplyr/tidyr/forcats/stringr #更新 tidyverse…
建议:如果只是处理(小)数据的,用R.结果更可靠,速度可以接受,上手方便,多有现成的命令.程序可以用.要自己搞个算法.处理大数据.计算量大的,用python.开发效率高,一切尽在掌握. 概述 在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程.偏向业务的数据科学被称为数据分析(Data Analysis),也就是A型数据科学.偏向工程的数据科学被称为数据构建(Data Building),也就是B型数据科学. 从工具上来看,按由业务到工程的顺序,这个两条是:EXCEL >> R…
本文会持续将<数据科学实战手册(R+Python)>一书中的附带参考资料网址手打出来, 方便访问. 由于书中的参考资料网址太多, 这个文档将可能花费一段时间才能完成. 第一章 P7  Rstdio (http://www.rstdio.com/) 参考Gettinng Started with R文章: http://support.rstdio.com/hc/en-us/articles/201141096-Getting-Started-With-R 访问RStdio的主页: http:/…
上篇我们了解了Python中pandas内封装的关于数据框的常用操作方法,而作为专为数据科学而生的一门语言,R在数据框的操作上则更为丰富精彩,本篇就R处理数据框的常用方法进行总结: 1.数据框的生成 利用data.frame()函数来创建数据框,其常用参数如下: ...:数据框的构成向量的变量名,顺序即为生成的数据框列的顺序 row.names:对每一行命名的向量 stringAsFactors:是否将数据框中字符型数据类型转换为因子型,默认为FALSE > a <- 1:10 > b…
当前,机器学习和数据科学都是很重要和热门的相关学科,需要深入地研究学习才能精通. <机器学习与数据科学基于R的统计学习方法>试图指导读者掌握如何完成涉及机器学习的数据科学项目.为数据科学家提供一些在统计学习领域会用到的工具和技巧,涉及数据连接.数据处理.探索性数据分析.监督机器学习.非监督机器学习和模 型评估.选用的是R统计环境,所有代码示例都是用R语言编写的,涉及众多流行的R包和数据集. 适合数据科学家.数据分析师.软件开发者以及需要了解数据科学和机器学习方法的科研人员阅读参考. 学习参考:…
1.1 机器学习的分类 监督学习:线性回归或逻辑回归, 非监督学习:是K-均值聚类, 即在数据点集中找出“聚类”. 另一种常用技术叫做主成分分析(PCA) , 用于降维, 算法的评估方法也不尽相同. 最常用的方法是将均方根误差(RMSE) 的值降到最小, 这一数值用于评价测试集的预测结果是否准确. RMSE评价法会在第7章进行更深入的解释. 另一种常用的评估方法是AUC, 即ROC曲线下的面积. 1.8 使用R包 有大量的通用包(当前大约是7000个) , 其中很多涉及有用的统计方法, 也有特定…
文本文件是基本的文件类型,不管是csv, xls, json, 还是xml等等都可以按照文本文件的形式读取. #-*- coding: utf-8 -*- fpath = "data/textfile.txt" f = open(fpath, 'r') ## 按照字符读取字符 first_char = f.read(1) print "first char: ", first_char ## 改变文件对象的位置, 位置是按照bytesize计算的 ## 如果不把位置…
https://www.leiphone.com/news/201703/iZGuGfnER4Sv2zRe.html 2017年Gartner数据科学平台(在2016年被称作“高级分析平台”)的魔力象限报告于近期出炉了.今年的报告对16个数据分析公司进行了15个标准的评估,并基于前瞻性(Completeness of Vision)和执行能力(Ability of Execute),将他们按评分放置在四个象限中(魔力象限的横坐标表示的是前瞻性,纵坐标表示的则是执行能力). 尽管像Python和R…
原文链接:Data Science For Banking & Insurance 如果不能正常访问,请点击备份获取. 在银行和保险行业应用数据科学 互联网巨头和金融技术创业时代的求生和发展 介绍 在数个世纪的进程中,银行和保险行业开发出的程序.产品和基础设施,塑造了整个人类的经济史. 但是现在,他们正面临着消亡的威胁,而挑战者们出现在世界舞台上只是几十年的事,甚至其中几个就出现在短短几年前.尽管如此,却正是这些后来者正在重新制定金融服务的行业规则.这些挑战者包括像 Google.亚马逊.Fac…
数据科学是一个范围很广的学科.机器学习和统计学都是数据科学的一部分.机器学习中的学习一词表示算法依赖于一些数据(被用作训练集)来调整模型或算法的参数.这包含了许多的技术,比如回归.朴素贝叶斯或监督聚类.但不是所有的技术都适合机器学习.例如有一种统计和数据科学技术就不适合——无监督聚类,该技术是在没有任何先验知识或训练集的情况下检测 cluster 和 cluster 结构,从而帮助分类算法.这种情况需要人来标记 cluster.一些技术是混合的,比如半监督分类.一些模式检测或密度评估技术适合机器…
一.简介 R中的ggplot2是一个非常强大灵活的数据可视化包,熟悉其绘图规则后便可以自由地生成各种可视化图像,但其默认的色彩和样式在很多时候难免有些过于朴素,本文将要介绍的ggthemr包专门针对原生ggplot2图像进行美化,掌握它之后你就可以创作出更具特色和美感的数据可视化作品. 二.基础内容 2.1 安装 不同于常规的R包,ggthemr并没有在CRAN上发布,因此我们需要使用devtools中的install_github()直接从github上安装它,参照github上ggthemr…
一.简介 马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集实战 2.1 数据要求 这次我们需要采集的数据是知名旅游网站马蜂窝下重庆区域内所有景点的用户评论数据,如下图所示: 思路是,先获取所有景点的poi ID,即每一个景点主页url地址中的唯一数字: 这一步和(数据科学学习手札33)基于Python的网络数据采集实战(1)中做法类似,即在下述界面: 翻页…
一.简介 Keras是有着自主的一套前端控制语法,后端基于tensorflow和theano的深度学习框架,因为其搭建神经网络简单快捷明了的语法风格,可以帮助使用者更快捷的搭建自己的神经网络,堪称深度学习框架中的sklearn,本文就将基于Keras,以手写数字数据集MNIST为演示数据,对多层感知机(MLP)的训练方法进行一个基本的介绍,而关于多层感知机的相关原理,请移步数据科学学习手札34:https://www.cnblogs.com/feffery/p/8996623.html,本文不再…
一.简介 在上一篇(数据科学学习手札41)中我们了解了folium的基础内容,实际上folium在地理信息可视化上的真正过人之处在于其绘制图像的高度可定制化上,本文就将基于folium官方文档中的一些基本示例来展开说明: 二.处理GeoJSON和TopoJSON数据 2.1 GeoJSON数据 GeoJSON是语法规则符合JSON文件的,专用于表示地理信息的一种JSON文件,其在JSON语法的基础上,内部又有着一套固定的语法规则.在folium中我们使用folium.GeoJson()方法来为已…
一.简介 上一篇中我们较为详细地铺垫了关于RNN及其变种LSTM的一些基本知识,也提到了LSTM在时间序列预测上优越的性能,本篇就将对如何利用tensorflow,在实际时间序列预测任务中搭建模型来完成任务,若你对RNN及LSTM不甚了解,请移步上一篇数据科学学习手札39; 二.数据说明及预处理 2.1 数据说明 我们本文使用到的第一个数据来自R中自带的数据集AirPassengers,这个数据集记录了Box & Jenkins航空公司1949-1960年共144个观测值(对应每个月的国际航线乘…
目录 <Python数据科学手册>第五章机器学习的笔记 0. 写在前面 1. 判定系数 2. 朴素贝叶斯 3. 自举重采样方法 4. 白化 5. 机器学习章节总结 <Python数据科学手册>第五章机器学习的笔记 0. 写在前面 参考书 <Python数据科学手册>第五章"机器学习" 工具 Jupyter Lab 作用 给书中没有的知识点做补充. 1. 判定系数 定义 判定系数(coefficient of determination),也叫可决系数…
*从本篇开始所有文章的数据和代码都已上传至我的github仓库:https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 pandas提供了很多方便简洁的方法,用于对单列.多列数据进行批量运算或分组聚合运算,熟悉这些方法后可极大地提升数据分析的效率,也会使得你的代码更加地优雅简洁,本文就将针对pandas中的map().apply().applymap().groupby().agg()等方法展开详细介绍,并结合实际例子帮助大家更好地理解它们…
<Python数据科学手册>[美]Jake VanderPlas著 陶俊杰译 Absorb what is useful, discard what is not, and  add what is uniquel what own.(取其精华,去其糟粕,再加点自己的独创.) 本书在GitHub上开源:https://github.com/jakevdp/PythonDataScienceHandbook 作者在博客发布Notebook的HTML版本:https://jakevdp.githu…
前言 本文讲解了从零开始学习Python数据科学的全过程,涵盖各种工具和方法 你将会学习到如何使用python做基本的数据分析 你还可以了解机器学习算法的原理和使用 说明 先说一段题外话.我是一名数据工程师,在用SAS做分析超过5年后,决定走出舒适区,寻找其它有效的数据分析工具,很快我发现了Python! 我非常喜欢编程,这是我真正喜欢做的事情.事实证明,编程并没有想象中的那么难. 我在一周之内学习了Python的基本语法,接着我一方面继续深入探索Python,另一方面帮助其他人学习这门语言.P…
2017数据科学报告:机器学习工程师年薪最高,Python最常用 2017-11-03 11:05 数据平台 Kaggle 近日发布了2017 机器学习及数据科学调查报告,针对最受欢迎的编程语言.不同国家数据科学家的平均年龄.不同国家的平均年薪等进行深度调查.此次调查共收到16000余份回复. 以下「AI脑力波」小编对该报告数据进行了梳理编译,供大家参考. 年龄 从全球范围来看,本次调查对象的平均年龄在30岁左右.在不同的国家,数值会有所差异,加拿大接受问卷调查的平均年龄为34岁,而中国的机器学…
数据科学工作者(Data Scientist) 的日常工作内容包括什么 众所周知,数据科学是这几年才火起来的概念,而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容.即使在2017年,数据科学家这个岗位的依然显得"既性感又暧昧". 我随手搜索了几家国内国外不同领域的数据科学家招聘广告(国内:阿里巴巴,百度 | 海外: IBM,道明银行,Manulife保险),通过简单的归纳总结,我们不难发现其实岗位要求有很大的重叠部分: 学历要求:硕士以上学历,博士…
一.简介 xpath作为对网页.对xml文件进行定位的工具,速度快,语法简洁明了,在网络爬虫解析内容的过程中起到很大的作用,除了xpath的基础用法之外(可参考我之前写的(数据科学学习手札50)基于Python的网络数据采集-selenium篇),xpath中还存在着非常之多的进阶用法,本文将对笔者日常使用中积累的xpath进阶用法进行总结并举例说明: 二.xpath进阶用法 本文以http://quotes.toscrape.com/示例页面,首先抓取网页源码并利用etree解析: impor…
一.简介 经常利用Python进行数据可视化的朋友一定用过或听说过plotly这样的神器,我在(数据科学学习手札43)Plotly基础内容介绍中也曾做过非常详细的介绍,其渲染出的图像以浏览器为载体,非常精美,且绘制图像的自由程度堪比ggplot2,其为R也提供了接口,在plotly包中,但对于已经习惯用ggplot2进行可视化的朋友而言,自然是不太乐意转向plotly的学习,有趣的是plotly的R包中有着函数ggplotly(),可以将ggplot2生成的图像转换为交互式的plotly图像,且…
为什么说 Python 是数据科学的发动机(一)发展历程(附视频中字) 在PyData Seattle 2017中,Jake Vanderplas介绍了Python的发展历程以及最新动态.在这里我们把内容分成上下两篇,先给大家带来上篇--Python的发展历程. 主讲人: Jake Vanderplas是华盛顿大学eScience研究所物理科学研究的负责人.该研究所负责跨学科项目,旨在支持科学领域在数据方面发现.Jake的研究领域包括天文学.天体物理学.机器学习以及可伸缩计算.此外,他是许多开源…
七个用于数据科学(data science)的命令行工具 数据科学是OSEMN(和 awesome 相同发音),它包括获取(Obtaining).整理(Scrubbing).探索(Exploring).建模(Modeling)和翻译(iNterpreting)数据.作为一名数据科学家,我用命令行的时间非常长,尤其是要获取.整理和探索数据的时候.而且我也不是唯一一个这样做的人.最近,Greg Reda介绍了可用于数据科学的经典命令行工具.在这之前,Seth Brown介绍了如何在Unix下进行探索…
本文对应脚本已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 我们平时在数据可视化或空间数据分析的过程中经常会需要某个地区的道路网络及节点数据,而OpenStreetMap就是一个很好的数据来源(譬如图1柏林路网): 图1 通常我们可以在 https://www.openstreetmap.org/export 中选择矩形区域内的路网矢量数据进行下载,但这种方式对选择区域的大小有一定限制,想获取较大范围区域…
概述 Swift正迅速成为数据科学中最强大.最有效的语言之一 Swift与Python非常相似,所以你会发现2种语言的转换非常平滑 我们将介绍Swift的基础知识,并学习如何使用该语言构建你的第一个数据科学模型 介绍 Python被广泛认为是数据科学中最好.最有效的语言.近年来我遇到的大多数调查都将Python列为这个领域的领导者. 但事实是数据科学是一个广阔并且不断发展的领域.我们用来构建数据科学模型的语言也会随之发展.还记得R是什么时候的流行语言吗?它很快就被Python超越了.Julia语…