1. 完整的数据分析流程

  • 定义研究问题
  • 定义理想数据集
  • 确定能够获取什么数据
  • 清理数据

2. 变量的类型:

  • 数值变量(可进行加减乘除运算):连续(可在给定区间取任意数值)、离散(给定集合内不连续取值)
  • 分类变量(取值空间有限,不能进行运算):有序(顺序有意义)、无序(不可比较)
1. 数值变量特征和可视化

集中趋势测量(均值、中位数、众数)

均值=(数值之和)/(数值个数)

中位数=排序后位于正中间的一个数(奇数)、排序后位于正中间的两个数的均值(偶数)

众数=出现次数最多的数

分散趋势测量(值域、方差、标准差、四分位距)

举个例子:

其中,中位数、四分位距是稳健统计量,受极端值影响小。

一个数值变量的可视化

柱状图:横坐标表示预测值所有可能的取值,纵坐标表示频数。

点图:横坐标表示预测值所有可能的取值,纵坐标表示出现的次数。比如出现了一次,就会对应一个点。

箱图:展示25%分位点、50%分位点、75%分位点。在范围(25%分位点-1.5四分位距,75%分位点+1.5四分位距)之外的点命异常点。

两个数值变量的关系

散点图:显示方向、形状、强度、极端值。比如正相关、负相关。

2. 分类变量的特征和可视化

一个分类变量可视化

频率表:表格的形式展现数据的分类水平出现的频率。

条形图:横坐标表示分类变量的每一个水平。

两个分类变量的关系

关联表

相对频率表

分段条形图、相对频率的分段条形图

马赛克图

3.一个分类变量一个数值变量

并排箱图:横轴分类变量取值,纵轴为每个分类变量下对应的数值变量。

3. 三大绘图系统

基本绘图系统

艺术家的调色板,绘图始于空白画布。分为两个步骤 = 图+修饰添加 = 执行一系列的函数。适于绘制2D图。

绘图函数(graphics包)---plot/ hist / boxplot /points /lines /text /title / axis,调用函数的时候会启动一个图形设备。

plot(x,y,...),其中重要的参数有:xlab / ylab:x轴y 轴的标签,lwd线宽,lty线的类型(2为虚线),pch点,col颜色。

par(),用于设置全局参数,bg:背景颜色,mar边距,las标签排版,mfrow行列,mfcol列行。

举例子:

hist(airquality$Wind,xlab = "wind")
#一个数值变量的直方图

boxplot(airquality$Wind,xlab="wind",ylab="speed")
#一个数值变量的箱图

boxplot(Wind~Month,airquality)
#一个数值变量一个分类变量的并排箱图,横轴为分类水平。

plot(airquality$Wind,airquality$Temp)
#风速与温度的散点图,也可以写成with函数:
with(airquality,plot(Wind,Temp))

with(subset(airquality,Month==9),points(Wind,Temp,col="red"))
with(subset(airquality,Month==5),points(Wind,Temp,col="blue"))
with(subset(airquality,Month %in% c(6,7,8)),points(Wind,Temp,col="black"))
不同月份的点用不同颜色绘制

fit<-lm(Temp~Wind,airquality)
abline(fit,lwd=2)
#做一条拟合线

legend("topright",pch=1,col = c("red","blue","black"),legend = c("sep","may","other"))
#做图例

par(mfrow=c(1,2))
hist(airquality$Wind)
hist(airquality$Temp)
#将屏幕分为两个部分作图。

R语言的可视化的更多相关文章

  1. 最棒的7种R语言数据可视化

    最棒的7种R语言数据可视化 随着数据量不断增加,抛开可视化技术讲故事是不可能的.数据可视化是一门将数字转化为有用知识的艺术. R语言编程提供一套建立可视化和展现数据的内置函数和库,让你学习这门艺术.在 ...

  2. 第六篇:R语言数据可视化之数据分布图(直方图、密度曲线、箱线图、等高线、2D密度图)

    数据分布图简介 中医上讲看病四诊法为:望闻问切.而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样:闻:仔细分析数据是否合理:问:针对前两步工作搜集到的问题与业务方交流:切:结合业务方 ...

  3. 第五篇:R语言数据可视化之散点图

    散点图简介 散点图通常是用来表述两个连续变量之间的关系,图中的每个点表示目标数据集中的每个样本. 同时散点图中常常还会拟合一些直线,以用来表示某些模型. 绘制基本散点图 本例选用如下测试数据集: 绘制 ...

  4. 第四篇:R语言数据可视化之折线图、堆积图、堆积面积图

    折线图简介 折线图通常用来对两个连续变量的依存关系进行可视化,其中横轴很多时候是时间轴. 但横轴也不一定是连续型变量,可以是有序的离散型变量. 绘制基本折线图 本例选用如下测试数据集: 绘制方法是首先 ...

  5. 第三篇:R语言数据可视化之条形图

    条形图简介 数据可视化中,最常用的图非条形图莫属,它主要用来展示不同分类(横轴)下某个数值型变量(纵轴)的取值.其中有两点要重点注意: 1. 条形图横轴上的数据是离散而非连续的.比如想展示两商品的价格 ...

  6. 第一篇:R语言数据可视化概述(基于ggplot2)

    前言 ggplot2是R语言最为强大的作图软件包,强于其自成一派的数据可视化理念.当熟悉了ggplot2的基本套路后,数据可视化工作将变得非常轻松而有条理. 本文主要对ggplot2的可视化理念及开发 ...

  7. 第二篇:R语言数据可视化之数据塑形技术

    前言 绘制统计图形时,半数以上的时间会花在调用绘图命令之前的数据塑型操作上.因为在把数据送进绘图函数前,还得将数据框转换为适当格式才行. 本文将给出使用R语言进行数据塑型的一些基本的技巧,更多技术细节 ...

  8. 吴裕雄--天生自然 R语言数据可视化绘图(3)

    par(ask=TRUE) opar <- par(no.readonly=TRUE) # record current settings # Listing 11.1 - A scatter ...

  9. 吴裕雄--天生自然 R语言数据可视化绘图(4)

    par(ask=TRUE) # Basic scatterplot library(ggplot2) ggplot(data=mtcars, aes(x=wt, y=mpg)) + geom_poin ...

随机推荐

  1. PAT甲级——A1103 Integer Factorization

    The K−P factorization of a positive integer N is to write N as the sum of the P-th power of Kpositiv ...

  2. PAT甲级——A1090 Highest Price in Supply Chain

    A supply chain is a network of retailers(零售商), distributors(经销商), and suppliers(供应商)-- everyone invo ...

  3. java基础之Math类

    Math类概述Math 类包含用于执行基本数学运算的方法,如初等指数.对数.平方根和三角函数. 成员方法 public static int abs(int a):绝对值 public static ...

  4. 06_jQuery对象初识(四)文档处理

    1. 案例:在ul中添加li标签. append在最后添加 prepend在最前面添加 <ul id="ul"> <li>1</li> < ...

  5. bzoj1706 relays 奶牛接力跑 线性代数

    题目描述 FJ的N(2 <= N <= 1,000,000)头奶牛选择了接力跑作为她们的日常锻炼项目.至于进行接力跑的地点 自然是在牧场中现有的T(2 <= T <= 100) ...

  6. C语言中结构体的深拷贝和浅拷贝

    C++ 的浅拷贝和深拷贝(结构体) 拷贝有两种:深拷贝,浅拷贝 浅拷贝:拷贝过程中是按字节复制的,对于指针型成员变量只复制指针本身,而不复制指针所指向的目标 (1)结构体中不存在指针成员变量时 typ ...

  7. bzoj4788: [CERC2016]Bipartite Blanket

    2019.1.9交流题,现在看还是不会,,, 如果只有一边,那么Hall定理即可. 两边?分别满足Hall定理,就是合法的! 证明(构造方案): 左集合先任意形成一个合法匹配,单点增量加入右集合和与右 ...

  8. 在Linux下使用gcc运行C语言程序

    Linux下使用最广泛的C/C++编译器是GCC,大多数的Linux发行版本都默认安装,不管是开发人员还是初学者,一般都将GCC作为Linux下首选的编译工具.本教程毫不犹豫地使用GCC来编译C程序. ...

  9. WhaleCTF之web密码泄露

    WhaleCTF之密码泄露 前往题目 没有思路,习惯看一下源码,拉到最后,发现有惊喜 直接把index.php 换成password.txt,访问 这是要让我密码爆破吗?直接把密码保存成passwor ...

  10. 【php实现数据结构】单向链表

    什么是单向链表 链表是以链式存储数据的结构,其不需要连续的存储空间,链表中的数据以节点来表示,每个节点由元素(存储数据)和指针(指向后继节点)组成. 单向链表(也叫单链表)是链表中最简单的一种形式,每 ...