一.模拟随机游走数据示例 x <- matrix(0,1000,1) for(i in 1:1000){ x[i+1] <- x[i]+rnorm(1) } plot(x,type="l") 输出结果 二.语法分解 1.plot()函数 plot(x, y, ...),参数x为x轴数据,参数y为y轴数据,后面的参数可以用type="l"(直线),type="p"(点) 2.rnorm()函数 rnorm(200),产生200个服从正态…
在python中,可以利用数组操作来模拟随机游走. 下面是一个单一的200步随机游走的例子,从0开始,步长为1和-1,且以相等的概率出现.纯Python方式实现,使用了内建的 random 模块: # 随机游走 import matplotlib.pyplot as plt import random position = 0 walk = [position] steps = 200 for i in range(steps): step = 1 if random.randint(0, 1)…
本文对应<R语言实战>第15章:处理缺失数据的高级方法 本文仅在书的基础上进行简单阐述,更加详细的缺失数据问题研究将会单独写一篇文章. 处理缺失值的一般步骤: 识别缺失数据: 检查导致数据缺失的原因: 删除包含缺失值的实例或用合理的数值代替(插补)缺失值. 缺失数据的分类: 完全随机缺失(MCAR):某变量的缺失数据与其他任何观测或未观测的变量都不相关: 随机缺失(MAR):某变量上的缺失数据与其他观测变量相关,与它自己的未观测值不相关: 非随机缺失(NMAR):不属于MCAR或MAR的变量.…
library(randomForest)model.forest<-randomForest(Species~.,data=iris)pre.forest<-predict(model.forest,iris)table(pre.forest,iris$Species) library(rpart)library(randomForest)model.forest<-randomForest(Kyphosis~.,data=kyphosis)pre.forest<-predict…
1. 关于全局最优化求解   全局最优化是一个非常复杂的问题,目前还没有一个通用的办法可以对任意复杂函数求解全局最优值.上一篇文章讲解了一个求解局部极小值的方法--梯度下降法.这种方法对于求解精度不高的情况是实用的,可以用局部极小值近似替代全局最小值点.但是当要求精确求解全局最小值时,梯度下降法就不适用了,需要采用其他的办法求解.常见的求解全局最优的办法有拉格朗日法.线性规划法.以及一些人工智能算法比如遗传算法.粒子群算法.模拟退火算法等(可以参见我之前的博客).而今天要讲的是一个操作简单但是不…
本文对应<R语言实战>第6章:基本图形:第7章:基本统计分析 ================================================================================================================================================== 本章讨论的图形,主要用于分析数据前,对数据的初步掌握.想要对数据有一个初步的印象,最好的方式就是观察它,也就是将数据可视化.在这个过程中,我们…
入门书籍:R语言实战 进度:1-4章 摘要: 1)实用的包 forecast:用于做时间序列预测的,有auto.arima函数 RODBC:可以用来读取excel文件.但据说R对csv格式适应更加良好,相应的导入导出均较为方便(read.table, write等) reshape:目前用到rename函数,可以方便的对数据变量重命名 fCalendar:在日期输入处提及,据说对日期运算有奇效,但无具体示例.同理如lubridate sqldf:在数据选取处提及,可代替subset以及各种whe…
本文对应<R语言实战>第14章:主成分和因子分析 主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量成为主成分. 探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法.通过寻找一组更小的.潜在的或隐藏的结构来解释已观测到的.显式的变量间的关系. 这两种方法都需要大样本来支撑稳定的结果,但是多大是足够的也是一个复杂的问题.目前,数据分析师常使用经验法则:因子分析需要5~10倍于变量数的样本数.另外有研究表明,所需样本量依赖于因子数目.与…
R 语言实战(第二版) part 4 高级方法 -------------第13章 广义线性模型------------------ #前面分析了线性模型中的回归和方差分析,前提都是假设因变量服从正态分布 #广义线性模型对非正态因变量的分析进行扩展:如类别型变量.计数型变量(非负有限值) #glm函数,对于类别型因变量用logistic回归,计数型因变量用泊松回归 #模型参数估计的推导依据的是最大似然估计(最大可能性估计),而非最小二乘法 #1.logistic回归 library(AER) d…
R 语言实战(第二版) part 3 中级方法 -------------第8章 回归------------------ #概念:用一个或多个自变量(预测变量)来预测因变量(响应变量)的方法 #最常用:OLS--普通最小二乘回归法,包括简单线性回归.多项式回归.多元线性回归 #过程:拟合OLS回归模型-->评价拟合优度-->假设检验-->选择模型 #OLS回归 #目标:减少因变量的真实值和预测值的差值来获得模型参数(截距和斜率),即使得残差平方和最小 #数据需满足:正态性.独立性.线性…