[TOC]
更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/

极大似然估计

一、最大似然原理

二、极大似然估计

极大似然估计是建立在最大似然原理的基础上的一个统计方法。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即“模型已定,参数未知”。通过观察若干次实验的结果,利用实验结果得到某个参数值能够使样本出现的概率最大,则称为极大似然估计。

简而言之,极大似然估计的目的是利用已知的样本结果,反推最有可能导致这样结果的参数值。

三、似然函数

假设一个样本集$D$的$n$个样本都是独立同分布的,并且该样本集为

\[
D={x_1,x_2,\ldots,x_n}
\]

似然函数(likelihood function):联合概率密度函数$p(D|\theta)\(称为相对于\){x_1,x_2,\ldots,x_n}\(的\)\theta$的似然函数。

\[
l(\theta) = p(D|\theta) = p(x_1,x_2,\ldots,x_n|\theta) = \prod_{i=1}^n p(x_i|\theta)
\]

四、极大似然函数估计值

如果$\hat{\theta}\(是\)\theta$参数空间中能使似然函数$l(\theta)\(最大的\)\theta$值,则$\hat{\theta}\(是最可能的参数值,那么\)\hat{\theta}\(是\)\theta$的最大似然估计量,记作

\[
\hat{\theta} = d(x_1,x_2,\ldots,x_n) = d(D)
\]

并且$\hat{\theta}(x_1,x_2,\ldots,x_n)$称作极大似然函数估计值。

五、求解极大似然函数

给出求解最大$\theta$值的公式

\[
\hat{\theta} = arg \underbrace{max}_\theta l(\theta) = arg \underbrace{max}_\theta \prod_{i=1}^n p(x_i|\theta)
\]

为了方便计算,定义对数似然函数$H(\theta)$,即对似然函数求对数

\[
H(\theta) = \ln{l(\theta)}
\]

因此求最大$\theta$值的公式变成了

\[
\hat{\theta} = arg \underbrace{max}_\theta H(\theta) = arg \underbrace{max}_\theta \ln{l(\theta)} = arg \underbrace{max}_\theta \prod_{i=1}^n \ln{p(x_i|\theta)}
\]

并且可以发现公式中只有一个变量$\theta$

5.1 未知参数只有一个

如果$\theta$为标量,在似然函数满足连续、可微的情况下,则极大似然估计量是下面微分方程的解

\[
{\frac{dH(\theta)}{d\theta}} = {\frac{d\ln{l(\theta)}}{d\theta}} = 0
\]

5.2 位置参数有多个

如果$\theta$为$k$维向量,可以把$\theta$记作$\theta = [\theta_1,\theta_2,\ldots,\theta_k]^T$,对$\theta_1,\theta_2,\ldots,\theta_k$求梯度,可得

\[
\Delta_\theta=[{\frac{\partial}{\partial_{\theta_1}}},{\frac{\partial}{\partial_{\theta_2}}},\cdots,{\frac{\partial}{\partial_{\theta_s}}}]^T
\]

如果似然函数满足连续、可导的情况下,则最大似然估计量就是如下方程的解:

\[
\Delta_\theta{H(\theta)} = \Delta_\theta\ln{l(\theta)} = \sum_{i=1}^n \Delta_\theta \ln(p(x_i|\theta)) = 0
\]

5.3 总结

方程的解只是一个估计值,只有在样本趋于无限多的时候,才会逐渐接近真实值。

B-概率论-极大似然估计的更多相关文章

  1. 【ML数学知识】极大似然估计

    它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是,一个随机试验如有若干个可能的结果A,B,C,... ,若在一次试验中,结果A出现了,那么可以认为实验条件对A的出现有利,也即出现 ...

  2. LR为什么用极大似然估计,损失函数为什么是log损失函数(交叉熵)

    首先,逻辑回归是一个概率模型,不管x取什么值,最后模型的输出也是固定在(0,1)之间,这样就可以代表x取某个值时y是1的概率 这里边的参数就是θ,我们估计参数的时候常用的就是极大似然估计,为什么呢?可 ...

  3. 极大似然估计MLE 极大后验概率估计MAP

    https://www.cnblogs.com/sylvanas2012/p/5058065.html 写的贼好 http://www.cnblogs.com/washa/p/3222109.html ...

  4. [白话解析] 深入浅出 极大似然估计 & 极大后验概率估计

    [白话解析] 深入浅出极大似然估计 & 极大后验概率估计 0x00 摘要 本文在少用数学公式的情况下,尽量仅依靠感性直觉的思考来讲解 极大似然估计 & 极大后验概率估计,并且从名著中找 ...

  5. 极大既然估计和高斯分布推导最小二乘、LASSO、Ridge回归

    最小二乘法可以从Cost/Loss function角度去想,这是统计(机器)学习里面一个重要概念,一般建立模型就是让loss function最小,而最小二乘法可以认为是 loss function ...

  6. 参数估计:最大似然估计MLE

    http://blog.csdn.net/pipisorry/article/details/51461997 最大似然估计MLE 顾名思义,当然是要找到一个参数,使得L最大,为什么要使得它最大呢,因 ...

  7. 【MLE】最大似然估计Maximum Likelihood Estimation

    模型已定,参数未知 已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值.最大似然估计是建立在这样的思想上:已知某个参数能使这个 ...

  8. ML 徒手系列 最大似然估计

    1.最大似然估计数学定义: 假设总体分布为f(x,θ),X1,X2...Xn为总体采样得到的样本.其中X1,X2...Xn独立同分布,可求得样本的联合概率密度函数为: 其中θ是需要求得的未知量,xi是 ...

  9. 又看了一次EM 算法,还有高斯混合模型,最大似然估计

    先列明材料: 高斯混合模型的推导计算(英文版): http://www.seanborman.com/publications/EM_algorithm.pdf 这位翻译写成中文版: http://w ...

随机推荐

  1. Caused by: com.fasterxml.jackson.databind.exc.InvalidDefinitionException: No serializer found for class org.apache.catalina.connector.CoyoteWriter and no properties discovered to create BeanSerializer

    一.什么是序列化In computer science, in the context of data storage, serialization is the process of transla ...

  2. c语言实现配置文件的读写

    配置文件的格式如下: key1 = value1 key2 = value2 . . . 名值对以一个=链接,一条记录以换行符分割 头文件: #include<stdio.h> #incl ...

  3. vue 页面跳转传参

    页面之间的跳转传参,正常前端js里写 window.location.href="xxxxx?id=1" 就可以了: 但是vue不一样 需要操作的是路由history,需要用到 V ...

  4. 人工智能-智能创意平台架构成长之路(四)-丰富多彩的banner图生成解密第一部分(对标阿里鹿班的设计)

    我们之前讲了很多都是平台架构的主体设计,应用架构设计以及技术架构的设计,那么现在我们就来分享一下丰富多彩的banner图是怎么生成出来的. banner图的生成我们也是不断的进行迭代和优化,这块是最核 ...

  5. 猿类如何捕获少女心--难以琢磨的try-catch

    背景故事 影片<金刚>是2005年上映的一部冒险电影,它讲述1933年的美国,一名勇于冒险的企业家及电影制作者,率领摄制队伍到荒岛拍摄,其中包括女主角安及编剧杰克,他们遇到恐龙及当地土著的 ...

  6. Redis小白入门系列

    一.从NoSQL说起 NoSQL 是 Not only SQL 的缩写,大意为"不只是SQL",说明这项技术是传统关系型数据库的补充而非替代.在整个NoSQL技术栈中 MemCac ...

  7. Docker下kafka学习三部曲之一:极速体验kafka

    Kafka是一种高吞吐量的分布式发布订阅消息系统,从本章开始我们先极速体验,再实战docker下搭建kafka环境,最后开发一个java web应用来体验kafka服务. 我们一起用最快的速度体验ka ...

  8. Quartz技术原理

    Quartz运行基本: (1)       创建任务jobDetail(放入具体的jobImpl),触发器trigger(保存job的触发策略),均放入调度器scheduler. (2)       ...

  9. STL容器(Stack, Queue, List, Vector, Deque, Priority_Queue, Map, Pair, Set, Multiset, Multimap)

    一.Stack(栈) 这个没啥好说的,就是后进先出的一个容器. 基本操作有: stack<int>q; q.push(); //入栈 q.pop(); //出栈 q.top(); //返回 ...

  10. 垃圾佬的旅游III(Hash + 暴力)

    题目链接:http://120.78.128.11/Problem.jsp?pid=3445 最开始的思路就是直接暴力求解,先把所有的数值两两存入结构体,再从小到大枚举.用二分的思路去判断数值以及出现 ...