[TOC]
更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/

极大似然估计

一、最大似然原理

二、极大似然估计

极大似然估计是建立在最大似然原理的基础上的一个统计方法。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即“模型已定,参数未知”。通过观察若干次实验的结果,利用实验结果得到某个参数值能够使样本出现的概率最大,则称为极大似然估计。

简而言之,极大似然估计的目的是利用已知的样本结果,反推最有可能导致这样结果的参数值。

三、似然函数

假设一个样本集$D$的$n$个样本都是独立同分布的,并且该样本集为

\[
D={x_1,x_2,\ldots,x_n}
\]

似然函数(likelihood function):联合概率密度函数$p(D|\theta)\(称为相对于\){x_1,x_2,\ldots,x_n}\(的\)\theta$的似然函数。

\[
l(\theta) = p(D|\theta) = p(x_1,x_2,\ldots,x_n|\theta) = \prod_{i=1}^n p(x_i|\theta)
\]

四、极大似然函数估计值

如果$\hat{\theta}\(是\)\theta$参数空间中能使似然函数$l(\theta)\(最大的\)\theta$值,则$\hat{\theta}\(是最可能的参数值,那么\)\hat{\theta}\(是\)\theta$的最大似然估计量,记作

\[
\hat{\theta} = d(x_1,x_2,\ldots,x_n) = d(D)
\]

并且$\hat{\theta}(x_1,x_2,\ldots,x_n)$称作极大似然函数估计值。

五、求解极大似然函数

给出求解最大$\theta$值的公式

\[
\hat{\theta} = arg \underbrace{max}_\theta l(\theta) = arg \underbrace{max}_\theta \prod_{i=1}^n p(x_i|\theta)
\]

为了方便计算,定义对数似然函数$H(\theta)$,即对似然函数求对数

\[
H(\theta) = \ln{l(\theta)}
\]

因此求最大$\theta$值的公式变成了

\[
\hat{\theta} = arg \underbrace{max}_\theta H(\theta) = arg \underbrace{max}_\theta \ln{l(\theta)} = arg \underbrace{max}_\theta \prod_{i=1}^n \ln{p(x_i|\theta)}
\]

并且可以发现公式中只有一个变量$\theta$

5.1 未知参数只有一个

如果$\theta$为标量,在似然函数满足连续、可微的情况下,则极大似然估计量是下面微分方程的解

\[
{\frac{dH(\theta)}{d\theta}} = {\frac{d\ln{l(\theta)}}{d\theta}} = 0
\]

5.2 位置参数有多个

如果$\theta$为$k$维向量,可以把$\theta$记作$\theta = [\theta_1,\theta_2,\ldots,\theta_k]^T$,对$\theta_1,\theta_2,\ldots,\theta_k$求梯度,可得

\[
\Delta_\theta=[{\frac{\partial}{\partial_{\theta_1}}},{\frac{\partial}{\partial_{\theta_2}}},\cdots,{\frac{\partial}{\partial_{\theta_s}}}]^T
\]

如果似然函数满足连续、可导的情况下,则最大似然估计量就是如下方程的解:

\[
\Delta_\theta{H(\theta)} = \Delta_\theta\ln{l(\theta)} = \sum_{i=1}^n \Delta_\theta \ln(p(x_i|\theta)) = 0
\]

5.3 总结

方程的解只是一个估计值,只有在样本趋于无限多的时候,才会逐渐接近真实值。

B-概率论-极大似然估计的更多相关文章

  1. 【ML数学知识】极大似然估计

    它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是,一个随机试验如有若干个可能的结果A,B,C,... ,若在一次试验中,结果A出现了,那么可以认为实验条件对A的出现有利,也即出现 ...

  2. LR为什么用极大似然估计,损失函数为什么是log损失函数(交叉熵)

    首先,逻辑回归是一个概率模型,不管x取什么值,最后模型的输出也是固定在(0,1)之间,这样就可以代表x取某个值时y是1的概率 这里边的参数就是θ,我们估计参数的时候常用的就是极大似然估计,为什么呢?可 ...

  3. 极大似然估计MLE 极大后验概率估计MAP

    https://www.cnblogs.com/sylvanas2012/p/5058065.html 写的贼好 http://www.cnblogs.com/washa/p/3222109.html ...

  4. [白话解析] 深入浅出 极大似然估计 & 极大后验概率估计

    [白话解析] 深入浅出极大似然估计 & 极大后验概率估计 0x00 摘要 本文在少用数学公式的情况下,尽量仅依靠感性直觉的思考来讲解 极大似然估计 & 极大后验概率估计,并且从名著中找 ...

  5. 极大既然估计和高斯分布推导最小二乘、LASSO、Ridge回归

    最小二乘法可以从Cost/Loss function角度去想,这是统计(机器)学习里面一个重要概念,一般建立模型就是让loss function最小,而最小二乘法可以认为是 loss function ...

  6. 参数估计:最大似然估计MLE

    http://blog.csdn.net/pipisorry/article/details/51461997 最大似然估计MLE 顾名思义,当然是要找到一个参数,使得L最大,为什么要使得它最大呢,因 ...

  7. 【MLE】最大似然估计Maximum Likelihood Estimation

    模型已定,参数未知 已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值.最大似然估计是建立在这样的思想上:已知某个参数能使这个 ...

  8. ML 徒手系列 最大似然估计

    1.最大似然估计数学定义: 假设总体分布为f(x,θ),X1,X2...Xn为总体采样得到的样本.其中X1,X2...Xn独立同分布,可求得样本的联合概率密度函数为: 其中θ是需要求得的未知量,xi是 ...

  9. 又看了一次EM 算法,还有高斯混合模型,最大似然估计

    先列明材料: 高斯混合模型的推导计算(英文版): http://www.seanborman.com/publications/EM_algorithm.pdf 这位翻译写成中文版: http://w ...

随机推荐

  1. 第10讲-Java集合框架

    第10讲 Java集合框架 1.知识点 1.1.课程回顾 1.2.本章重点 1.2.1 List 1.2.2 Set 1.2.3 Map 2.具体内容 2.1.Java集合框架 2.1.1 为什么需要 ...

  2. SpringBoot 参数校验的方法

    Introduction 有参数传递的地方都少不了参数校验.在web开发中,前端的参数校验是为了用户体验,后端的参数校验是为了安全.试想一下,如果在controller层中没有经过任何校验的参数通过s ...

  3. 【LeetCode】406-根据身高重建队列

    title: 406-根据身高重建队列 date: 2019-04-15 21:13:06 categories: LeetCode tags: Java容器 比较器 贪心思想 题目描述 假设有打乱顺 ...

  4. Go操作etcd

    etcd是近几年比较火热的一个开源的.分布式的键值对数据存储系统,提供共享配置.服务的注册和发现,本文主要介绍etcd的安装和使用. etcd etcd介绍 etcd是使用Go语言开发的一个开源的.高 ...

  5. java多线程之ThreadPoolExecutor

    ThreadPoolExecutor类 简介   java.uitl.concurrent.ThreadPoolExecutor类是线程池中最核心的一个类,因此如果要透彻地了解Java中的线程池,必须 ...

  6. Linux(Centos7)yum安装最新mysql

    环境 CentOS 7.1 (64-bit system) MySQL 5.6.24 CentOS 安装 参考:http://www.waylau.com/centos-7-installation- ...

  7. Sublime Text 3 中实现编译C语言程序

    这个是真坑,感觉用devc++写c程序特别的不爽,所以就用了sublime,但是,编译的时候又有不少问题, 下面就把我踩的坑记录下来 tools>Build System>New Buil ...

  8. Java并发synchronized详解

    今天和大家一起学习下并发编程,先举一个简单的生活例子,我们去医院或者银行排队叫号,那每个工作人员之间如何保证不会叫重号呢? public class TicketDemo extends Thread ...

  9. 机器学习常用性能度量中的Accuracy、Precision、Recall、ROC、F score等都是些什么东西?

    一篇文章就搞懂啦,这个必须收藏! 我们以图片分类来举例,当然换成文本.语音等也是一样的. Positive 正样本.比如你要识别一组图片是不是猫,那么你预测某张图片是猫,这张图片就被预测成了正样本. ...

  10. jqGrid 日期格式化,只显示日期,去掉小时分

    {name:'operateTime',index:'operateTime', formatter:"date", formatoptions: {newformat:'Y-m- ...