1)条形图 条形图或许是最常用图形,常用来展示分类(different categories on the x-axis)和数值(numeric values on the y-axis)之间的关系.sometimes the bar heights represent counts of cases in the data set, and sometimes they represent values in the data set(有时条形图高度代表数据集中的频数(count),有时候代表…
使用R做回归分析整体上是比较常规的一类数据分析内容,下面我们具体的了解用R语言做回归分析的过程. 首先,我们先构造一个分析的数据集 x<-data.frame(y=c(102,115,124,135,148,156,162,176,183,195), var1=runif(10,min=1,max=50), var2=runif(10,min=100,max=200), var3=c(235,321,412,511,654,745,821,932,1020,1123)) 接下来,我们进行简单的一…
连续型变量的推断性分析方法主要有t检验和方差分析两种,这两种方法可以解决一些实际的分析问题,下面我们分别来介绍一下这两种方法 一.t检验(Student's t test) t检验也称student t检验(Student's t test),由Gosset提出,主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料.我们在介绍连续变量分布时讲过t分布,t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著. 介绍t检验之前,先说一下Z检验,假设我们已知一个样本…
一.综述 Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,图像也更加美观,本文基于seaborn官方API还有自己的一些理解.   1.1.样式控制:axes_style() and set_style() seaborn提供了5个主题: darkgrid 黑色网格(默认) whitegrid 白色网格 dark 黑色背景 white 白色背景 ticks 带刻度线 一个简单的小例子: import numpy as npsns.set_styl…
数据的清理 如同列夫托尔斯泰所说的那样:“幸福的家庭都是相似的,不幸的家庭各有各的不幸”,糟糕的恶心的数据各有各的糟糕之处,好的数据集都是相似的.一份好的,干净而整洁的数据至少包括以下几个要素: 1.每一个观测变量构成一列2.每一个观测对象构成一行3.每一个类型的观测单元构成一个表就像我们最常接触的鸢尾花数据: ## Sepal.Length Sepal.Width Petal.Length Petal.Width Species ## 1 5.1 3.5 1.4 0.2 setosa ## 2…
数据的清理 如同列夫托尔斯泰所说的那样:“幸福的家庭都是相似的,不幸的家庭各有各的不幸”,糟糕的恶心的数据各有各的糟糕之处,好的数据集都是相似的.一份好的,干净而整洁的数据至少包括以下几个要素: 1.每一个观测变量构成一列 2.每一个观测对象构成一行 3.每一个类型的观测单元构成一个表 就像我们最常接触的鸢尾花数据:   ## Sepal.Length Sepal.Width Petal.Length Petal.Width Species   ## 1 5.1 3.5 1.4 0.2 seto…
决策树和随机森林 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: 1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器.3. R:在命令行终端输入‘R’,进入R的交互式环境,下面的代码都是在交互式环境运行. 3. 环境使用 使用…
数据探索 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: 1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程[Vim编辑器](http://www.shiyanlou.com/courses/2)3. R:在命令行输入‘R’  进入R语言…
衡量随机变量相关性的方法主要有三种:pearson相关系数,spearman相关系数,kendall相关系数: 1.       pearson相关系数,亦即皮尔逊相关系数 pearson相关系数用来衡量两个随机变量之间的相关性 R语言中求两个随机变量pearson相关系数的函数: 1//赋予a,b向量值 2a<-c(1,2,3) 3b<-c(11,12,14) 4 5//计算pearson相关系数 6cor.test(a,b,method="pearson") 结果 Pe…
时间序列与数据挖掘 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到: 1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器3. R:在命令行输入‘R’进入交互式环境,下面的代码都是在交互式环境运行4. 数据:在命令行终端输入以下命令:…