基本概念 利用线性的方法,模拟因变量与一个或多个自变量之间的关系.自变量是模型输入值,因变量是模型基于自变量的输出值. 因变量是自变量线性叠加和的结果. 线性回归模型背后的逻辑——最小二乘法计算线性系数 最小二乘法怎么理解? 它的主要思想就是求解未知参数,使得理论值与观测值之差(即误差,或者说残差)的平方和达到最小.在这里模型就是理论值,点为观测值.使得拟合对象无限接近目标对象. 一元线性回归与多元线性回归 自变量只有一个的时候叫一元线性回归,自变量有多个时候叫多元线性回归. R语言实现 bik…
概率图模型 基于R语言 这本书中的第一个R语言程序 prior <- c(working =0.99,broken =0.01) likelihood <- rbind(working = c(good=0.99,bad=0.01),broken =c(good=0.6,bad=0.4)) data <- c("bad","bad","bad","bad") bayes <- function(prio…
时间序列: (或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列.时间序列分析的主要目的是根据已有的历史数据对未来进行预测.(百度百科) 主要考虑的因素: 1.长期趋势(Long-term trend) : 时间序列可能相当稳定或随时间呈现某种趋势. 时间序列趋势一般为线性的(linear),二次方程式的 (quadratic)或指数函数(exponential function). 2.季节性变动(Seasonal variation) 按时间变动,呈现重复性行为的序列…
A IMA模型是一种著名的时间序列预测方法,主要是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型.ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA).自回归过程(AR).自回归移动平均过程(ARMA)以及ARIMA过程.其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归, p为自回归项: MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数. 通常的建立ARIMA…
Twitter开源的时序数据突变检测(BreakoutDetection),基于无参的E-Divisive with Medians (EDM)算法,比传统的E-Divisive算法快3.5倍以上,并且具有鲁棒统计性,就是你加入一些离群点或异常点,并不影响该算法的检测效果,不过最关键的还是无参特性,有时候调参真是件摸着石头过河的事. 它认为突变有两种方式: 1.Mean Shift:突然跳变,比如CPU从40%一跃跳变为60%,像佛教里讲的“顿宗” 2.Ramp Up:缓慢从一个平稳状态渐变到另…
分类树(决策树)是一种十分常用的分类方法.核心任务是把数据分类到可能的对应类别. 他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类. 决策树的理解 熵的概念对理解决策树很重要 决策树做判断不是百分之百正确,它只是基于不确定性做最优判断. 熵就是用来描述不确定性的. 案例:找出共享单车用户中的推荐者 解析:求出哪一类人群更可能成为共享单车的推荐者.换句话说是推荐者与其他变量之间不…
K-means聚类 将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分.产品类别划分等)中. 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离. 算法实现 R语言实现 k-means算法是将数值转换为距离,然后测量距离远近进行聚类的.不归一化的会使得距离非常远. 补充:scale归一化处理的意义 两个变量之间数值差别太大,比如年龄与收入的数值差别就很大. 步骤 第一步,确定聚类数量,即k的值 方法:肘部法则+实际业务需求 第二步,运行K-means模型 求出…
R语言 R是用于统计分析.绘图的语言和操作环境.R是属于GNU系统的一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具. 特点介绍 •主要用于统计分析.绘图.数据挖掘 •R内置多种统计学及数字分析功能.R的功能也可以通过安装包(Packages,用户撰写的功能)增强. •因为S的血缘,R比其他统计学或数学专用的编程语言有更强的面向对象(面向对象程序设计)功能 官网:http://cran.r-project.org/ 其他介绍 •R的另一强项是绘图功能,制图具有印刷的素质…
lavaan简明教程 [中文翻译版] 译者注:此文档原作者为比利时Ghent大学的Yves Rosseel博士,lavaan亦为其开发,完全开源.免费.我在学习的时候顺手翻译了一下,向Yves的开源精神致敬.此翻译因偷懒部分删减,但也有增加,有错误请留言 「转载请注明出处」 目录 lavaan简明教程 [中文翻译版] 目录 摘要 在开始之前 安装lavaan包 模型语法 例1:验证性因子分析(CFA) 例2:结构方程(SEM) 更多关于语法的内容 6.1 固定参数 6.2 初值 6.3 参数标签…
一,前提准备         1.R语言包:ggplot2包(绘图),recommenderlab包,reshape包(数据处理)         2.获取数据:大家可以在明尼苏达州大学的社会化计算研究中心官网上面下载这些免费数据集,网站链接为http://grouplens.org/datasets/movielens/,也可以通过网盘下载https://yunpan.cn/Oc6R9apvCnVXGc访问密码 e1af.这里包含了数据集和数据说明,该数据集是由943位用户对1682部电影的一…