Akaike information criterion,AIC是什么?一个用来筛选模型的指标。AIC越小模型越好,通常选择AIC最小的模型。第一句话好记,第二句话就呵呵了,小编有时候就会迷惑AIC越大越好还是越小越好。所以,还是要知其所以然的。

  在AIC之前,我们需要知道Kullback–Leibler information或 Kullback–Leiblerdistance。对于一批数据,假设存在一个真实的模型f,还有一组可供选择的模型g1、g2、g3…gi,而K-L 距离就是用模型 gi 去估计真实模型 f 过程中损失的信息。可见K-L 距离越小,用模型 gi 估计真实模型 f 损失的信息越少,相应的模型 gi 越好。

  然后,问题来了。怎么计算每个模型 gi 和真实模型 f 的距离呢?因为我们不知道真实模型 f,所以没办法直接计算每个模型的K-L距离,但可以通过信息损失函数去估计K-L距离。日本统计学家Akaike发现log似然函数和K-L距离有一定关系,并在1974年提出Akaike information criterion,AIC。通常情况下,AIC定义为:AIC=2k-2ln(L),其中k是模型参数个数,L是似然函数。

  -2ln(L)反映模型的拟合情况,当两个模型之间存在较大差异时,差异主要体现在似然函数项-2ln(L),当似然函数差异不显著时,模型参数的惩罚项2k则起作用,随着模型中参数个数增加,2k增大,AIC增大,从而参数个数少的模型是较好的选择。AIC不仅要提高模型拟合度,而且引入了惩罚项,使模型参数尽可能少,有助于降低过拟合的可能性。然后,选一个AIC最小的模型就可以了。

  然而,咱们平常用的最多的SPSS软件却不直接给出AIC。不过不用担心,以线性回归为例,SPSS虽不给出AIC,但会给出残差平方和,即残差Residual对应的Sum of Squares。然后,AIC=nln(残差平方和/n) 2k。其中模型参数个数k包括截距项和残差项,其中残差项往往被忽略。

比如,针对n=21的数据,某线性模型纳入2个自变量x1和x2,k应为4。从SPSS给出的方差分析表,可知AIC=21*ln(21.809/21) 2*4=8.7941。

平方和

df

均方

F

Sig

回归

240.153

2

120.076

99.103

0.000

残差

21.809

18

1.212

总计

261.962

20

除AIC之外,还有很多模型选择的指标,比如和AIC联系比较密切的BIC,我们会在以后的文章和大家讨论。

R Akaike information criterion,AIC,一个越小越好的指标的更多相关文章

  1. 赤池信息量准则 ( Akaike information criterion)

    sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...

  2. 让reddit/r/programming炸锅的一个帖子,还是挺有意思的

    这是原帖 http://www.reddit.com/r/programming/comments/358tnp/five_programming_problems_every_software_en ...

  3. R入门-第一次写了一个完整的时间序列分析代码

    纪念一下,在心心念念想从会计本科转为数据分析师快两年后,近期终于迈出了使用R的第一步,在参考他人的例子前提下,成功写了几行代码.用成本的角度来说,省去了部门去买昂贵的数据分析软件的金钱和时间,而对自己 ...

  4. 网站的Information Architecture--构建一个最优用户体验的site structure

    http://conversionxl.com/website-information-architecture-optimal-user-experience/ 在网站上应该有什么类型的conten ...

  5. <R语言编程艺术>的一个错误以及矩阵相加

    R语言编程艺术讲矩阵这节时,举了个随机噪声模糊罗斯福总统画像的例子.但是里面似乎有个错误,例子本意是区域外的值保持不变,而选定区域的值加一个随机值,但是实际情况是两个行列不相等的矩阵相加,会报错,如果 ...

  6. R+NLP︱text2vec包——四类文本挖掘相似性指标 RWMD、cosine、Jaccard 、Euclidean (三,相似距离)

    要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 在之前的开篇提到了text2vec ...

  7. 最大似然估计实例 | Fitting a Model by Maximum Likelihood (MLE)

    参考:Fitting a Model by Maximum Likelihood 最大似然估计是用于估计模型参数的,首先我们必须选定一个模型,然后比对有给定的数据集,然后构建一个联合概率函数,因为给定 ...

  8. Study notes for Clustering and K-means

    1. Clustering Analysis Clustering is the process of grouping a set of (unlabeled) data objects into ...

  9. R语言入门视频笔记--9--随机与数据描述分析

    古典概型的样本总量是一定的,且每种可能的可能性是相同的, 1.中位数:median(x) 2.百分位数:quantile(x)或者quantile(x,probe=seq(0,1,0.2)) #后面这 ...

随机推荐

  1. 计算机基础,Python - 回调函数,使用装饰器注册回调函数

    1. 参考: https://en.wikipedia.org/wiki/Callback_(computer_programming) https://developer.mozilla.org/e ...

  2. unique() 函数详解

    简介 顾名思义,unique,独一无二的.这个函数可以对容器中的元素进行"去重". 但是需要注意,这里的"去重",并没有把重复的元素删除,只是不重复的元素放到了 ...

  3. Java8新特性——Optional

    前言 在开发中,我们常常需要对一个引用进行判空以防止空指针异常的出现.Java8引入了Optional类,为的就是优雅地处理判空等问题.现在也有很多类库在使用Optional封装返回值,比如Sprin ...

  4. HashMap与HashTable源码学习及效率比较分析

    一.个人学习后的见解: 首先表明学习源码后的个人见解,后续一次依次进行分析: 1.线程安全:HashMap是非线程安全的,HashTable是线程安全的(HashTable中使用了synchroniz ...

  5. Session共享解决方案

    使用nginx做的负载均衡添加一个ip_hash配置 一.开两个Tomcat写测试程序 @WebServlet("/nginxSessionServlet") public cla ...

  6. linux面试经验

    互联网面试想必是每个学计算机的学生必不可少的环节,无论你的项目经验再多,你不准备基础知识,也还是无济于事.首先来说说关于工作的事情. 三年前,那时候我还是刚刚快要大四毕业的小鲜肉,那时候有个超大的招聘 ...

  7. Debug运行项目时报错,connected to the target VM, address: '127.0.0.1:50495', transport: 'socket'

    Debug运行项目时报错,无法进入Debug,猜想出错原因可能是未正确关闭IDEA. 解决方法,先直接运行项目,然后停掉项目,再用Debug模式启动,问题解决.

  8. 2016 年 31 款轻量高效的开源 JavaScript 插件和库

    目前有很多网站设计师和开发者喜欢使用由JavaScript开发的插件和库,但同时面临一个苦恼的问题:它们中的大多数实在是太累赘而且常常降低网站的性能.其实,其中也有不少轻量级的插件和库,它们不仅轻巧有 ...

  9. Java实现图片内容无损任意角度旋转

    转自:http://blog.csdn.net/heliang7/article/details/7309394 主要问题是如何在图片做旋转后计算出新图片的长宽. 在java 2d和基本math库的帮 ...

  10. Windows 网络显示监视器软件_spacedesk

    将各种设备拓展为 Windows 第二屏幕 官方网站 https://spacedesk.net/ 使用教程参阅: https://blog.csdn.net/sinat_21902709/artic ...