模型修正 #但是,回归分析通常很难一步到位,需要不断修正模型 ###############################6.9通过牙膏销量模型学习模型修正 toothpaste<-data.frame( X1=c(-0.05, 0.25,0.60,0, 0.25,0.20, 0.15,0.05,-0.15, 0.15, 0.20, 0.10,0.40,0.45,0.35,0.30, 0.50,0.50, 0.40,-0.05, -0.05,-0.10,0.20,0.10,0.50,0.60,…
> #############6.2一元线性回归分析 > x<-c(0.10,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.20,0.21,0.23) > y<-c(42.0,43.5,45.0,45.5,45.0,47.5,49.0,53.0,50.0,55.0,55.0,60.0) > plot(x~y) > lm.sol<-lm(y ~ x) > summary(lm.sol) Call: lm(formul…
广义线性回归 > life<-data.frame( + X1=c(2.5, 173, 119, 10, 502, 4, 14.4, 2, 40, 6.6, + 21.4, 2.8, 2.5, 6, 3.5, 62.2, 10.8, 21.6, 2, 3.4, + 5.1, 2.4, 1.7, 1.1, 12.8, 1.2, 3.5, 39.7, 62.4, 2.4, + 34.7, 28.4, 0.9, 30.6, 5.8, 6.1, 2.7, 4.7, 128, 35, + 2, 8.5,…
  #查看已安装的包,查看已载入的包,查看包的介绍 ########例题3.1 #向量的输入方法 w<-c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0) plot(w)#概况,数据的可视化可以让我们看的更轻松 summary(w) #求均值 w.mean<-mean(w); w.mean w[2]#选取特定位置的数字 #控制异常值,trim表示去掉异常值的比例…
> ####################5.2 > X<-c(159, 280, 101, 212, 224, 379, 179, 264, + 222, 362, 168, 250, 149, 260, 485, 170) > t.test(X,alternative='greater',mu=225,conf.level = 0.95)#单边检验 One Sample t-test data: X t = 0.66852, df = 15, p-value = 0.257…
现在有一个人,如何对这个人怎么识别这个人?那么就对其存在的特征进行提取,比如,提取其身高,其相貌,其年龄,分析这些特征,从而确定了,这个人就是这个人,我们绝不会认错. 同理,对数据进行分析,也是提取出数据的特征,对其特征进行分析,从而确定这些数据所呈现的信息状况,从而确定了这些数据的独特性和唯一性,因为他呈现的信息是唯一的,绝不与别的是相同的. 那么这些特征是什么呢?拥有哪些特征呢?似乎应该是经过无数科学家的总结,终于发现了几个重要的特征,包括数字特征和分布特征,这个数字特征,包括集中位置,分散…
超高维度分析,N*P的矩阵,N为样本个数,P为指标,N<<P PCA:抓住对y对重要的影响因素 主要有三种:PCA,因子分析,回归方程+惩罚函数(如LASSO) 为了降维,用更少的变量解决问题,如果是二维的,那么就是找到一条线,要使这些点再线上的投影最大,投影最大,就是越分散,就考虑方差最大. > conomy<-data.frame( + x1=c(149.3, 161.2, 171.5, 175.5, 180.8, 190.7, + 202.1, 212.4, 226.1, 2…
#########################################0808聚类分析 X<-data.frame( x1=c(2959.19, 2459.77, 1495.63, 1046.33, 1303.97, 1730.84, 1561.86, 1410.11, 3712.31, 2207.58, 2629.16, 1844.78, 2709.46, 1563.78, 1675.75, 1427.65, 1783.43, 1942.23, 3055.17, 2033.87,…
Fisher就是找一个线L使得组内方差小,组间距离大.即找一个直线使得d最大. ####################################1.判别分析,线性判别:2.分层抽样 #install.packages('MASS') library(MASS) #install.packages('sampling') library(sampling)#抽样时使用 ?iris#了解该数据集 #把iris重新赋值,并加入分类标记和行号标记 i<-iris#为了书写方便 i$lv<-as…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:apply族功能强大,实用,可以代替很多循环语句,R语言中不要轻易使用循环语句. 函数名 功能 特点 apply 按行.列运算均值.求和.众数等 简单运算 tapply=table apply 在apply之上加入table功能,可以分组汇总 table结合,可以分组汇总 lapply=list apply 都需要数据框格式,可以与l…
张铁军,陈兴栋等 著 R语言基础绘图系统 基础绘图包之高级绘图函数--par函数 基础绘图包并非指单独某个包,而是由几个R包联合起来的一个联盟,比如graphics.grDevices等. 掌握par函数(作为20个主要统计图形函数之一)的主要参数.?par adj 微调图中字符位置.adj=c(x,y),相对左下角坐标点,一般不超过1. bg 绘图区域背景色.par(bg="green") bty 设置图形边框样式.包含o, l , 7, c, u, ]可选. bty <- c…
R语言基础绘图系统 基础绘图包之低级绘图函数--内置颜色. 1.内置颜色选取 功能657种内置颜色.colors() 调色板函数:palette(), rgb(), rainbow(). palette默认8种颜色. #重新配置调色板 palette(rainbow(7)) #恢复默认的调色板 palette('default') rgb(red,green,blue)函数,分别加入多少红绿蓝成分,取值0-1. hsv函数(hue色调,saturation饱和度,value纯度)构造颜色. hc…
R语言基础绘图系统 基础绘图包之低级绘图函数--定义坐标轴.图例.文本 低级绘图函数:本身不具备图形绘制能力,只是在已有图形基础上添加元素. 函数 功能 arrows 添加箭头 axis 坐标轴 box 图形边框 abline 添加直线 clip 修剪图形 locator 识别图中点的坐标 layout 切分画布 legend 添加图例 lines 添加线条 segments 添加线段 rug 添加小地毯 polygon 构建多边形 points 添加散点 titles 添加标题 text 添加…
R语言基础绘图系统 基础绘图包之低级绘图函数--气泡图.一页多图.背景网格.添加线条和散点.数学表达式 4.气泡图 symbols是高级绘图函数,可在图上添加标记,标记的形状包括:circles,squares,rectangles,stars,thermometers,boxplots. 默认标记圆圈,可用于绘制气泡图 op <- palette(rainbow(5,end = 0.9)) with(trees,{ symbols(Height,Volume,circles = Girth/1…
R语言基础绘图系统 基础图形--直方图.金字塔图 3.直方图 参数设置及比较. op <- par(mfrow=c(2,3)) data <- rnorm(100,10,5) hist(data,col = 'light green') #默认分组 hist(data,col = 'sky blue',breaks = 15) #分成15组 hist(data,col = 'orange',breaks = seq(-5,25,1)) #自定义组距 hist(data,col = 'pink'…
R语言基础绘图系统 基础图形--散点图.盒形图 plot是一个泛型函数(generic method),对于不同的数据绘制不同的图形. par函数的大部分参数在plot中通用. 1.散点图 plot绘制散点图类型,type有6种,即p, b, l, s, o, n. type=c('p','b','l','s','o','n') par(mfrow=c(2,3)) for(i in 1:6){ plot(1:10,type = type[i], main = paste('type is: ',…
ggplot2绘图系统--几何对象之直方图.密度图 1.直方图 参数. geom_histogram(mapping = , data = , stat = 'bin', #统计变换,概率密度为density position = 'stack', binwidth = , #条柱宽度 bins = , #条柱数目,默认30 na.rm = FALSE, show.legend = NA, inherit.aes = TRUE ) 示例. ggplot(diamonds,aes(carat))+…
这篇简直是白写了,写到后面发现ggplot明显更好用 3.1 使用图形 attach(mtcars)plot(wt, mpg) #x轴wt,y轴pgabline(lm(mpg ~ wt)) #画线拟合title("Regression of MPG on Weight")detach(mtcars) R语言中画图只有一幅,如果要画多幅,用dev.new() 3.2 例子 dose <- c(20, 30, 40, 45, 60)drugA <- c(16, 20, 27,…
R语言基础绘图系统 基础图形--饼图.克利夫兰点图.条件图 6.饼图 pie(rep(1,26),col=rainbow(26), labels = LETTERS[1:26], #标签 radius = 1) #半径 library(RColorBrewer) pie.myData <- c(5.8,27,0.2,21.1,12.8,33.1) diseasetypes <- c('上感','中风','外伤','昏厥','食物中毒','其他') names(pie.myData) <-…
R语言基础绘图系统 基础图形--条形图.误差图 3.条形图 barplot接收的数据是矩阵而非数据框. data <- sample(c(50:80),5) barplot(data,col=heat.colors(5)) my_matrix <- matrix(data=sample(10:40,9), nrow = 3, dimnames = list(c('A',"B",'C'), paste('dose',1:3))) barplot(t(my_matrix), b…
一.使用并行计算加倍提升性能1.数据并行 VS 任务并行实现数据并行的算法scoket 并行性注意并行计算时间并不与执行任务的计算资源数目成正比(计算机核心),amdahl定律:并行代码的速度受限于串行执行的部分,包括并行性带来的开销在非windows系统中,parallel支持分叉集群(交叉法),新的work进程会从父R进程分叉出来,并拷贝数据.好处是不需要显示的创建和销毁集群实现任务并行的算法 2.计算机集群并行执行多个任务只有基于socket的集群可以做到这一点,因为进程不可能被分叉到另外…
1.生存曲线 基础包survival+扩展包survminer. survival包内置肺癌数据集lung. library(survival) library(survminer) str(lung) #拟合模型 fit <- survfit(Surv(time,status)~sex,data=lung) #绘制生存曲线 ggsurvplot(fit, pval = TRUE, #添加log rank检验的p值 conf.int = TRUE, #添加置信区间 risk.table = TR…
1.plotly包 动态散点图 library(plotly) # 交互散点图 plot_ly(data=iris, x=~Sepal.Length, y=~Petal.Length, marker=list(size=10, color='rgba(255,182,193,.9)', line=list(color='rgba(152,0,0,.8)', width=2))) %>% layout(title='Styled Scatter', yaxis=list(zeroline=FALS…
ggplot2绘图系统--几何对象之条图(包括误差条图) 1.条图 格式: geom_bar(mapping = , data = , stat = 'count', #统计变换默认计数 position = 'stack', #默认堆栈 width = , #条形宽度 binwidth = , na.rm = FALSE, show.legend = , inherit.aes = TRUE) positon: dodge并排 fill堆叠填充标准化为1 stack堆栈 identity不做调…
5. 数据结构 5.1 数据结构简介 (1)向量 一个向量的所有元素必须有相同的类型(模式) (2)列表 列表可以非同质的 列表可按位置索引:lst[[2]] 抽取子列表:lst[c(2,5)] 列表可以有名称:lst[[“Moe”]]或者lst$Moe 列表类似于字典.散列表等 (3)模式:实体类型 > mode(3.1415) R中每个对象都有一个模式,表明该对象如何存储在存储器中: 对象 例子 模式 Number 3.14 numeric Vector of numbers c(2.7,…
1--c() c表示"连接"(concatenate). 在R中向量是连续存储的,因此不能插入或删除元素. 2--seq() seq()的特殊用法,可以用在for循环里for(i in seq()) > x <- c(2,3,4,5,7,3) > seq(x) [1] 1 2 3 4 5 6 > seq(6) [1] 1 2 3 4 5 6 3--cumsum() 函数cumsum()它能计算向量的累计和(cumulative sums) > a <…
summary() sapply(x,fun,options):对数据框或矩阵中的每一个向量进行统计 mean sd:标准差 var:方差 min: max: median: length: range: quantile: vars <- c("mpg", "hp", "wt")head(mtcars[vars]) summary(mtcars[vars]) mystats <- function(x, na.omit = FALS…
表的绘制,主要是临床三线表. 1.tableone包 #install.packages('tableone') library(tableone) set.seed(2017) age <- sample(30:90,200,replace = T) gender <- sample(c('Male','Female'),200,replace = T) cholesterol <- rnorm(200,140,30) BMI <- rnorm(200,27,8) Smoking…
1.海盗图 参数众多,其语法与基础包类似. 基础图. #devtools::install_github('ndphillips/yarrr') #install.packages('yarrr') library(yarrr) #基本海盗图 str(pirates) pirateplot(formula = age ~ favorite.pirate, data = pirates, xlab = 'Favorite Pirate', ylab = 'Age', main="") 散…
ggplot2绘图系统--扩展包ggrepel.ggsci.gganimate.ggpubr等 部分扩展包可在CRAN直接下载,有些需借助devtools包从Github下载. 1. ggrepel包 用来在图上添加文字和标签,相比geom_text和geom_label函数,能将重叠的标签分开,并添加指示短横线. library(ggrepel) ggplot(mtcars,aes(wt,mpg))+geom_point(color='red')+ geom_text_repel(aes(la…