负对数似然(negative log-likelihood)

negative log likelihood
文章目录
negative log likelihood
似然函数(likelihood function)
Overview
Definition
离散型概率分布(Discrete probability distributions)
连续型概率分布(Continuous probability distributions)
最大似然估计(Maximum Likelihood Estimation,MLE)
对数似然(log likelihood)
负对数似然(negative log-likelihood)
Reference
似然函数(likelihood function)
Overview
在机器学习中，似然函数是一种关于模型中参数的函数。“似然性(likelihood)”和"概率(probability)"词意相似，但在统计学中它们有着完全不同的含义：概率用于在已知参数的情况下，预测接下来的观测结果；似然性用于根据一些观测结果，估计给定模型的参数可能值。

Probability is used to describe the plausibility of some data, given a value for the parameter. Likelihood is used to describe the plausibility of a value for the parameter, given some data.

—from wikipedia[3] ^[3]
[
3]

其数学形式表示为：

假设X XX是观测结果序列，它的概率分布fx f_{x}f
x

依赖于参数θ \thetaθ，则似然函数表示为

L(θ∣x)=fθ(x)=Pθ(X=x) L(\theta|x)=f_{\theta}(x)=P_{\theta}(X=x)
L(θ∣x)=f
θ

(x)=P
θ

(X=x)

Definition
似然函数针对**离散型概率分布(Discrete probability distributions)和连续型概率分布(Continuous probability distributions)**的定义通常不同.

离散型概率分布(Discrete probability distributions)
假设X XX是离散随机变量,其概率质量函数p pp依赖于参数θ \thetaθ,则有

L(θ∣x)=pθ(x)=Pθ(X=x) L(\theta|x)=p_{\theta}(x)=P_{\theta}(X=x)
L(θ∣x)=p
θ

(x)=P
θ

(X=x)

L(θ∣x) L(\theta|x)L(θ∣x)为参数θ \thetaθ的似然函数,x xx为随机变量X XX的输出.

Sometimes the probability of "the value of for the parameter value " is written as P(X = x | θ) or P(X = x; θ).

连续型概率分布(Continuous probability distributions)
假设X XX是连续概率分布的随机变量,其密度函数(density function)f ff依赖于参数θ \thetaθ,则有

L(θ∣x)=fθ(x) L(\theta|x)=f_{\theta}(x)
L(θ∣x)=f
θ

(x)

最大似然估计(Maximum Likelihood Estimation,MLE)
假设每个观测结果x xx是独立同分布的，通过似然函数L(θ∣x) L(\theta|x)L(θ∣x)求使观测结果X XX发生的概率最大的参数θ \thetaθ，即argmaxθf(X;θ) argmax_{\theta}f(X;\theta)argmax
θ

f(X;θ) 。

在“模型已定，参数未知”的情况下，使用最大似然估计算法学习参数是比较普遍的。

对数似然(log likelihood)
由于对数函数具有单调递增的特点，对数函数和似然函数具有同一个最大值点。取对数是为了方便计算极大似然估计，MLE中直接求导比价困难，通常先取对数再求导，找到极值点。

负对数似然(negative log-likelihood)
实践中,softmax函数通常和负对数似然(negative log-likelihood,NLL)一起使用,这个损失函数非常有趣,如果我们将其与softmax的行为相关联起来一起理解.首先,让我们写下我们的损失函数:

L(y)=−log(y) L(y)=-log(y)
L(y)=−log(y)

回想一下,当我们训练一个模型时,我们渴望能够找到使得损失函数最小的一组参数(在一个神经网络中,参数指权重weights和偏移biases).

对数函数如下图红线所示：

由于是对概率分布求对数，概率p pp的值为0≤p≤1 0\leq{p}\leq10≤p≤1,取对数后为红色线条在[0,1] [0,1][0,1]区间中的部分，再对其取负数，得到负对数似然函数如下图所示：

我们希望得到的概率越大越好，因此概率越接近于1，则函数整体值越接近于0，即使得损失函数取到最小值。

最大似然估计的一般步骤如下:
(1) 写出似然函数;
(2) 对似然函数取对数,得到对数似然函数;
(3) 求对数似然函数的关于参数组的偏导数,并令其为0,得到似然方程组;
(4) 解似然方程组,得到参数组的值.

Reference
[1]王海良,李卓恒,林旭鸣.智能问答与深度学习[M].北京:电子工业出版社,2019:19-20.

[2]Lj Miranda.Understanding softmax and the negative log-likelihood.2017.

[link]https://ljvmiranda921.github.io/notebook/2017/08/13/softmax-and-the-negative-log-likelihood/

[3]wikipedia-likelihood function

[link]https://en.wikipedia.org/wiki/Likelihood_function#Log-likelihood
---------------------
作者：不一样的雅兰酱
来源：CSDN
原文：https://blog.csdn.net/silver1225/article/details/88914652
版权声明：本文为博主原创文章，转载请附上博文链接！

负对数似然(negative log-likelihood)的更多相关文章

挑子学习笔记：对数似然距离（Log-Likelihood Distance）
转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/log-likelihood_distance.html 本文是“挑子”在学习对数似然距离过程中的笔记摘录,文 ...
【MLE】最大似然估计Maximum Likelihood Estimation
模型已定,参数未知已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值.最大似然估计是建立在这样的思想上:已知某个参数能使这个 ...
二次代价函数、交叉熵(cross-entropy)、对数似然代价函数（log-likelihood cost）(04-1)
二次代价函数 $C = \frac{1} {2n} \sum_{x_1,...x_n} \|y(x)-a^L(x) \|^2$ 其中,C表示代价函数,x表示样本,y表示实际值,a表示输出值,n表示样本 ...
归纳学习(Inductive Learning),直推学习(Transductive Learning),困难负样本(Hard Negative)
归纳学习(Inductive Learning): 顾名思义,就是从已有训练数据中归纳出模式来,应用于新的测试数据和任务.我们常用的机器学习模式就是归纳学习. 直推学习(Transductive Le ...
似然和对数似然Likelihood & LogLikelihood
One of the most fundamental concepts of modern statistics is that of likelihood. In each of the disc ...
朴素贝叶斯-对数似然Python实现-Numpy
<Machine Learning in Action> 为防止连续乘法时每个乘数过小,而导致的下溢出(太多很小的数相乘结果为0,或者不能正确分类) 训练: def trainNB0(tr ...
sql server 对数运算函数log(x)和log10(x)
--LOG(x)返回x的自然对数,x相对于基数e的对数 --LOG10(x)返回x的基数为10的对数示例:select LOG(3),LOG(6),LOG10(1),LOG10(100),LOG10 ...
高斯混合模型（GMM）
复习: 1.概率密度函数,密度函数,概率分布函数和累计分布函数概率密度函数一般以大写“PDF”(Probability Density Function),也称概率分布函数,有的时候又简称概率分布函 ...
[白话解析] 深入浅出极大似然估计 & 极大后验概率估计
[白话解析] 深入浅出极大似然估计 & 极大后验概率估计 0x00 摘要本文在少用数学公式的情况下,尽量仅依靠感性直觉的思考来讲解极大似然估计 & 极大后验概率估计,并且从名著中找 ...

随机推荐

学习笔记::AC自动机
最先开始以为和自动刷题机是一个东西... 其实就是kmp的一个拓展.学完kmp再学这个就会发现其实不难 1.kmp是一个串匹配一个串,但是当我们想用多个串匹配一个文本的时候,kmp就不行了,因此我们有 ...
C++实现斐波那契第N项非递归与递归实现的时间比较
/* * 斐波那契数列.cpp * * Created on: 2018年4月9日 * Author: soyo */ #include<iostream> #include<cti ...
【190】修改 PowerShell & CMD 显示字体
方法一:Windows7更改替换cmd(powershell)字体完全方法教程说明:该方法将字体修改成只能显示英文,对于某些中文会乱码!(chcp 850) 方法二:添加中文字体(chcp 936) ...
洛谷 P3356 火星探险问题【最大费用最大流】
输出方案好麻烦啊拆点,石头的连(i,i',1,1)(i,i',inf,0)表示可以取一次价值1,空地直接连(i,i',inf,0),对于能走到的两个格子(不包括障碍),连接(i',j,inf,0), ...
51nod 1227 平均最小公倍数【欧拉函数+杜教筛】
以后这种题能用phi的就不要用mu-mu往往会带着个ln然后被卡常致死把题目要求转换为前缀和相减的形式,写出来大概是要求这样一个式子: \[ \sum_{i=1}^{n}\sum_{j=1}^{i} ...
关于element-ui的diallog拖动的实现
先给下载地址 https://files.cnblogs.com/files/maruihua/el-dragDialog.rar 需要注意的是如果给模态框加入拖动指令,一些定位样式会出问题,需谨慎 ...
HDFS执行getDatanodeReport时权限不足的解决办法
通过JAVA获取HDFS的getDatanodeReport方法时,报权限不足的错误信息. org.apache.hadoop.ipc.RemoteException(org.apache.hadoo ...
Android 线程池系列教程(4) 启动线程池中的线程和中止池中线程
Running Code on a Thread Pool Thread 上一课下一课 1.This lesson teaches you to Run a Runnable on a Thre ...
break跳出嵌套循环体
package com.wh.Object; public class Test { public static void main(String[] args) { // TODO Auto-gen ...
转 Dockerfile 常用指令 - 每天5分钟玩转 Docker 容器技术（16）
是时候系统学习 Dockerfile 了. 下面列出了 Dockerfile 中最常用的指令,完整列表和说明可参看官方文档. FROM指定 base 镜像. MAINTAINER设置镜像的作者,可以是 ...

负对数似然(negative log-likelihood)

负对数似然(negative log-likelihood)的更多相关文章

随机推荐

热门专题