R语言数据分析系列之四

说到统计分析我们就离不开随机变量,所谓随机变量就是数学家们为了更好的拟合现实世界的数据而建立的数学模型。有了她我们甚至能够来预測一个站点未来几天的日訪问用户,股票的未来走势等等。

那么本节我们来一起探讨下面经常使用的函数分布。以及流程控制语句。

常见分布有:正态分布(高斯分布),指数分布,beta分布,gamma分布等。

正态分布

若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布。记为N(μ。σ^2)。其概率密度函数曲线,由正态分布的期望值μ决定了其位置。其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又常常称之为钟形曲线。

我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。

par(mgp=c(0.6,0.6,0))
x <- seq(-5,5,length.out=100)
y <- dnorm(x,0,1)
plot(x,y,xlim=c(-4,4),col='red',ylim=c(0,0.8),type='l',ylab='density',xlab='x',main="The Normal Density Distribution")
lines(x,dnorm(x,0,2),col="blue")
lines(x,dnorm(x,-2,1),col="orange")
lines(x,dnorm(x,0,0.5),col="green")

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY29tYXBsZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

指数分布

很多电子产品的寿命分布一般服从指数分布。

有的系统的寿命分布也可用指数分布来近似。它在可靠性研究中是最经常使用的一种分布形式。产品的失效是偶然失效时。其寿命服从指数分布。

比如已知某原件已经使用了s小时,那么它能在使用t小时的条件概率。与从刚開始使用t小时的概率一样。这就是指数分布的无记忆性,它在可靠性研究中有着广泛的应用。

x<-seq(-1,2,length.out=100)
y<-dexp(x,0.5) plot(x,y,col="red",xlim=c(0,2),ylim=c(0,5),type='l',
xaxs="i", yaxs="i",ylab='density',xlab='x',
main="The Exponential Density Distribution")
lines(x,dexp(x,1),col="green")
lines(x,dexp(x,2),col="blue")
lines(x,dexp(x,5),col="orange")

gamma 伽马分布

伽马函数:

伽玛函数是阶乘在实数上的泛化。

伽马分布的概率密度函数:

x<-seq(0,10,length.out=100)
y<-dgamma(x,1,2) plot(x,y,col="red",xlim=c(0,10),ylim=c(0,2),type='l',
xaxs="i", yaxs="i",ylab='density',xlab='',
main="The Gamma Density Distribution") lines(x,dgamma(x,2,2),col="green")
lines(x,dgamma(x,3,2),col="blue")
lines(x,dgamma(x,5,1),col="orange")
lines(x,dgamma(x,9,1),col="black")

beta 贝塔分布

Beta分布的一个重要应该是作为伯努利分布和二项式分布的共轭先验分布出现。在机器学习和数理统计学中有重要应用。

该分布有两个參数,α,β (α,β>0).

x<-seq(-5,5,length.out=10000)
y<-dbeta(x,0.5,0.5) plot(x,y,col="red",xlim=c(0,1),ylim=c(0,6),type='l',
xaxs="i", yaxs="i",ylab='density',xlab='',
main="The Beta Density Distribution") lines(x,dbeta(x,5,1),col="green")
lines(x,dbeta(x,1,3),col="blue")
lines(x,dbeta(x,2,2),col="orange")
lines(x,dbeta(x,2,5),col="black")
legend("top",legend=paste("a=",c(.5,5,1,2,2),"b=",c(.5,1,3,2,5)),lwd=1,col=c("red","green","blue","orange","black"))

流程控制语句

分支语句

if else:

a < 5
if(a>10){
print('a>10')
} else if(a<10){
print('a<10')
} else{
print('a=10')
}

switch 分支语句:

case <- 4

switch(case,’低异常点’,’偏低’,’正常’,’偏高’,’高异常点’)

偏高

for 循环:

web.pv <- c(sample(100:5000,30))
web.day <-seq(as.Date('2015-01-01'),by=1,length=30)
web.data <- data.frame(web.day,web.pv)
for(item inweb.data$web.pv){print(paste(web.data$web.day[which(web.data$web.pv ==item)],'',item))}

while 循环:

while(i <length(web.pv)){print(web.pv[i]) ;i = i + 1} ;i=0

函数

定义一个函数表达式: y=a*x + b,然后我们还画出函数轨迹图:

demo.fun1 <- function(x,a,b) {
return(a * x + b)
} a=3
b=7
y <- demo.fun1(x,a,b)
df <- data.frame(x,y) g<-ggplot(df,aes(x,y))
g <- g + geom_line(col='red') # 一次方程曲线
g <- g + geom_hline(yintercept=0) +geom_vline(yintercept=0) #设置坐标轴
g <- g + ggtitle(paste('y=',a,' * x+',b)) # 加入标题
g

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY29tYXBsZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

定义一个多次方程函数:

demo.fun3 <- function(x,a,b,c,d){
return(a * x^3 + b * x^2 + c * x +d)
} a=1
b=5
c=6
d=-10
x <- seq(-5,5,by=0.01)
y <- demo.fun3(x,a,b,c,d)
df <- data.frame(x,y)
g <- ggplot(df,aes(x,y))
g <- g + geom_line(col='green') #三次曲线
g <- g + geom_hline(yintercept=0) + geom_vline(yintercept=0) #设置坐标轴
g <- g + ggtitle(paste('y=',a,' *x^3 +',b,'*x^2 +',c,'* x +',d)) # 加入标题
g

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY29tYXBsZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

R语言数据分析系列之四的更多相关文章

  1. R语言数据分析系列六

    R语言数据分析系列六 -- by comaple.zhang 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候怎样下手分析,数据分析的第一步.探索性数据分析. 统计量,即统计学里面关注的数据集 ...

  2. R语言数据分析系列之五

    R语言数据分析系列之五 -- by comaple.zhang 本节来讨论一下R语言的基本图形展示,先来看一张效果图吧. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi ...

  3. R语言数据分析利器data.table包—数据框结构处理精讲

    R语言数据分析利器data.table包-数据框结构处理精讲 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代 ...

  4. R学习:《R语言数据分析与挖掘实战》PDF代码

    分三个部分:基础篇.实战篇.提高篇.基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得数据挖掘项目经验,同时快速领悟看似难懂的数据 ...

  5. R语言数据分析

    CSDN博客:包括R语言基础.R语言数据挖掘.hadoop大数据及spark等 http://blog.csdn.net/qq_16365849 R语言及数据分析 http://blog.csdn.n ...

  6. R语言数据分析利器data.table包 —— 数据框结构处理精讲

        R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理 ...

  7. 中部:执具 | R语言数据分析(北京邮电大学)自整理笔记

    第5章工欲善其事.必先利其器 代码,是延伸我们思想最好的工具. 第6章基础编程--用别人的包和函数讲述自己的故事 6.1编程环境 1.R语言的三段论 大前提:计算机语言程序=算法+数据结构 小前提:R ...

  8. 上部:问道 | R语言数据分析(北京邮电大学)自整理笔记

    第1章 气象万千 数以等观 数据分析:发现数据背后的规律 等号的重要性,建立模型 第2章所谓学习.归类而已 2.1所谓学习,归类而已(1) ps:机器学习只是归归类? 有监督学习--分类:无监督学习- ...

  9. R语言入门系列1--数学狗还是做数据好了

    nanana,作为一个不合格的数学专业学生,脑袋不好使,又穷逼,只好学点儿实用的东西,希望能养活自己~~~ 不瞎哔哔,想做数据方面工作的时候在犹豫是学R还是学python,一点儿python基础都没有 ...

随机推荐

  1. WIN7无法卸载掉中文繁体注音输入法

    WIN7无法卸载掉中文繁体注音输入法 不知何时系统里被自动安装了个中文繁体的注音输入法,每次启动都会替换默认的简体搜狗拼音,而且最要命的是在输入法选择栏里面没有出现这个繁体的输入法,而任务栏里却总是有 ...

  2. 一分钟sed入门

    [转载于58同城沈剑] 1.简介 sed是一种行编辑器,它一次处理一行内容. 2.sed调用方式 sed [options] 'command' file(s) sed [options] -f sc ...

  3. 转:mybatis3中@SelectProvider的使用技巧

    mybatis3中@SelectProvider的使用技巧 mybatis的原身是ibatis,现在已经脱离了apache基金会,新官网是http://www.mybatis.org/. mybati ...

  4. 简单的图片处理servlet

    好久没写博客了.近期做了一个比較有趣的商城项目,里面的业务还真的非常复杂,好在做了特殊的处理之后商城也能正常的使用了. 可是没中不足的就是图片目录和项目掺杂在一块,实在有些难以维护.之后找了点资料就搞 ...

  5. mongoDB 删除某一字段、重新名字段

    批量删除字段: {multi:true}:查询到的所有记录都删除. db.collection_name.update({"target_field":{"$exists ...

  6. notepad++ 在每一行最后加上逗号

    1.全选缩进对齐 2.替换功能,入下全部替换 3.在入下替换 4.结果 完成!

  7. MySQL的查询,子查询,联结查询,联合查询

    MySQL的查询,子查询,联结查询,联合查询 一.mysql查询的五种子句where(条件查询).having(筛选).group by(分组).order by(排序).limit(限制结果数) 二 ...

  8. C++11之function模板和bind函数适配器

    在C++98中,可以使用函数指针,调用函数,可以参考之前的一篇文章:类的成员函数指针和mem_fun适配器的用法.   简单的函数调用   对于函数: void foo(const string &a ...

  9. flask的分页功能

    分页是个很通用的东西,在flask中,有一个macro的语法,类似于宏,我们可以将通用的东西通过macro写入单独的html文件以方便维护,减少代码量.下面是我的分页的macro文件render_pa ...

  10. flex布局 (回顾)

    1.父元素 属性 display:flex; // 必写 justify-content: XXX; // 设置子容器沿主轴排列 align-items: XXX; // 设置子容器如何沿交叉轴排列 ...