https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/

http://www.mi.fu-berlin.de/wiki/pub/ABI/Genomics12/MLvsMAP.pdf

经验风险最小化:

\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))

结构风险最小化:

\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f)

李航博士《统计学习方法》中第一章第九页中有两个论断

1 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。

2 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计

证明论断1:

极大似然估计:对于观测的随机变量D,其总体分布为

P(D;\theta)

S为抽样得到的样本,

S=(s_1,s_2,...,s_N)

样本是独立同分布得到的,因此样本的分布为

L(\theta) = \prod_{i=1}^{N} P(s_i;\theta)

S=(s_1,s_2,...,s_N)
确定,则上式可以看做是

\theta

的函数。

这个函数反映了在观察结果已知的情况下,
\theta

的“似然程度”,因此上式被叫做似然函数。用似然程度最大的那个

\theta_{*}

去做

\theta

的估计,这种估计方法叫做"极大似然估计"。取对数,极大平均似然函数为:

\max log L(\theta)=\max \frac{1}{N}\sum_{i=1}^{N}log P(s_i;\theta)

上式等价于

\min -log L(\theta)=\min \frac{1}{N}\sum_{i=1}^{N} -log P(s_i;\theta)

在统计学习中,S就是样本,

s_{i}=(x_i,y_i).x_i\mbox{为特征,}y_i{为标签}

当模型是条件概率分布时,则

P(s_i;\theta)=P(y_i|x_i;\theta)
\min -log L(\theta)=\min \frac{1}{N}\sum_{i=1}^{N} -log P(y_i|x_i;\theta) -----(1)

当损失函数是对数损失函数(

L(Y,P(Y|X)) = -log P(Y|X)

),则最小化经验风险的公式为

\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))
=\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,p(y_i|x_i;\theta))
=\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} -log p(y_i|x_i;\theta) -----(2)

对比(1)(2)两个公式,论断1得证。

证明论断2

极大似然估计将

\theta

看做是一个确定但未知的常量,而贝叶斯学派则认为

\theta

可以看做一个随机变量,从这个视角出发可得到条件概率

P(\theta|S)

因此利用贝叶斯公式得到

P(\theta|S)=\frac{P(S|\theta)P(\theta)}{P(S)}

最大后验概率估计是要最大化

P(\theta|S)

这个后验概率,因此

\max P(\theta|S) = \max P(S|\theta)P(\theta)

上式与极大似然估计相比,只多了个

P(\theta)

,左边和极大似然估计一样,因此对左边取对数处理求平均似然最大

\max \frac{1}{N}\sum_{i=1}^{N} log P(s_i|\theta)+log P(\theta)

当模型是条件概率分布时,则

P(s_i;\theta)=P(y_i|x_i;\theta)

因此,

\max \frac{1}{N}\sum_{i=1}^{N} log P(y_i|x_i;\theta)+log P(\theta)

取负号,转换为

\min \frac{1}{N}\sum_{i=1}^{N} -log P(y_i|x_i;\theta)-log P(\theta)   -----(3)

当损失函数是对数损失函数(

L(Y,P(Y|X)) = -log P(Y|X)

),模型是条件概率分布时,

结构风险最小化公式

\min \limits_{f\in F} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f)
=\min \limits_{f\in F} \frac{1}{N} \sum_{i=1}^{N} -log P(y_i|x_i;\theta)+\lambda J(f) -----(4)
比较公式(3)(4),则当
\lambda J(f) = -log P(\theta)

两者等价,论断2得证。

(汉武提问,

\lambda

在(4)中没有出现,其实

\lambda

为超参,在模型中一般首先指定,如果为1/2 , 则

-1/2*2log P(\theta)

), 所以无论怎么取,都可以得到对应的使得等价。

极大似然估计&最大后验概率估计的更多相关文章

  1. [白话解析] 深入浅出 极大似然估计 & 极大后验概率估计

    [白话解析] 深入浅出极大似然估计 & 极大后验概率估计 0x00 摘要 本文在少用数学公式的情况下,尽量仅依靠感性直觉的思考来讲解 极大似然估计 & 极大后验概率估计,并且从名著中找 ...

  2. (转载)极大似然估计&最大后验概率估计

    前言 不知看过多少次极大似然估计与最大后验概率估计的区别,但还是傻傻分不清楚.或是当时道行太浅,或是当时积累不够. 这次重游机器学习之路,看到李航老师<统计学习方法>中第一章关于经验风险最 ...

  3. 极大似然估计、贝叶斯估计、EM算法

    参考文献:http://blog.csdn.net/zouxy09/article/details/8537620 极大似然估计 已知样本满足某种概率分布,但是其中具体的参数不清楚,极大似然估计估计就 ...

  4. 机器学习(二十五)— 极大似然估计(MLE)、贝叶斯估计、最大后验概率估计(MAP)区别

    最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum aposteriori estimation, 简称MAP)是很常用的两种参 ...

  5. 详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

    转载声明:本文为转载文章,发表于nebulaf91的csdn博客.欢迎转载,但请务必保留本信息,注明文章出处. 原文作者: nebulaf91 原文原始地址:http://blog.csdn.net/ ...

  6. 4.机器学习——统计学习三要素与最大似然估计、最大后验概率估计及L1、L2正则化

    1.前言 之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计” ...

  7. 【机器学习基本理论】详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

    [机器学习基本理论]详解最大似然估计(MLE).最大后验概率估计(MAP),以及贝叶斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估计(Maximu ...

  8. 浅议极大似然估计(MLE)背后的思想原理

    1. 概率思想与归纳思想 0x1:归纳推理思想 所谓归纳推理思想,即是由某类事物的部分对象具有某些特征,推出该类事物的全部对象都具有这些特征的推理.抽象地来说,由个别事实概括出一般结论的推理称为归纳推 ...

  9. MLE极大似然估计和EM最大期望算法

    机器学习十大算法之一:EM算法.能评得上十大之一,让人听起来觉得挺NB的.什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题.神为什么是神,因为神能做很多人做不了的事.那么EM ...

随机推荐

  1. Cpp多重继承会产生的问题

    多重继承常常被认为是 OOP 中一种复杂且不必要的部分.多重继承面临 crash 的场景并非难以想象,来看下面的例子. 1. 名称冲突 来看以下情况: 如果 Dog 类以及 Bird 类都有一个名为 ...

  2. poj 3228(二分+最大流)

    题目链接:http://poj.org/problem?id=3228 思路:增设一个超级源点和一个超级汇点,源点与每一个gold相连,容量为gold数量,汇点与仓库相连,容量为仓库的容量,然后就是二 ...

  3. Unsupported major.minor version 51.0(jdk版本错误)

    解决方案: 步骤一: 在“项目”点右键->选择Perperties->在出现的菜单中选择Java Compiler->最上面选中Enable project Specific set ...

  4. 2011 ACM-ICPC 成都赛区解题报告(转)

    2011 ACM-ICPC 成都赛区解题报告 首先对F题出了陈题表示万分抱歉,我们都没注意到在2009哈尔滨赛区曾出过一模一样的题.其他的话,这套题还是非常不错的,除C之外的9道题都有队伍AC,最终冠 ...

  5. 使用 Nginx 和 GeoIP 模块来处理不同国家的访问

    安装 Nginx因为要用到 http_geoip_module 模块,系统自带的 nginx 一般不带这个模块,所以要下载 nginx 源代码后自行编译: # wget http://nginx.or ...

  6. Java-J2SE学习笔记-树状展现文件结构

    1.利用java.io相关类树状展现文件结构 2.判定给定路径是否为dir,是则递归,每一递归一层缩进一次 3.代码 package Test; import java.io.File; public ...

  7. OpenSSL 使用 base64 编码/解码

    简述 关于 OpenSSL 的介绍及安装请参见:Windows下编译OpenSSL 下面主要介绍有关 OpenSSL 使用 base64 编码/解码. 简述 编码解码 更多参考 编码/解码 #incl ...

  8. 一个简单的以User权限启动外部应用程序(用NetUserAdd函数和USER_INFO_1结构体动态添加用户,然后用CreateProcessWithLogonW启动程序)

    版权声明:本文为博主原创文章,未经博主允许不得转载. BOOL ExecuteAsUser(LPCWSTR lpszUserName, LPCWSTR lpszPassword, LPCWSTR lp ...

  9. 预编译头文件 StdAfx.h

    预编译头文件: 最常见的使用场景就是 StdAfx.h 文件,在这个文件中包含常用的头文件,比如windows.h,cstdio,string,别的 .cpp 文件去包含 StdAfx.h 头文件.编 ...

  10. jQuery RemoveAttr(checked)之后再Attr(checked)属性无效果的原因分析

    jQuery中attr()和prop()在修改checked属性时的区别 投稿:whsnow 字体:[增加 减小] 类型:转载   使用语句$.attr('checked',true),将复选框的属性 ...