softmax为什么使用指数函数？（最大熵模型的理解）

解释1：

他的假设服从指数分布族

解释2：

最大熵模型，即softmax分类是最大熵模型的结果。

关于最大熵模型，网上很多介绍：

在已知部分知识的前提下，关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断，其原则是承认已知事物（知识），且对未知事物不做任何假设，没有任何偏见。

所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

参考网址：

https://blog.csdn.net/xg123321123/article/details/54286514

对于输入x，判断类别y

如果使他满足最大熵模型，则条件概率满足公式：

其中wi(i=1,2,...m)wi(i=1,2,...m)为拉格朗日乘子。如果大家也学习过支持向量机，就会发现这里用到的凸优化理论是一样的，接着用到了拉格朗日对偶也一样。

最大熵模型这里引入了一个特征函数的概念：

可以定义为：

为什么需要特征函数？比较容易理解的是，特征函数其实是一个用户接口，我们可以通过定制特征函数来控制模型的训练。

注意，f(x,y)必须是实数函数，而最大熵模型一般要求这个函数是一个二值函数。也就是说通过这个特征函数把x和y之间千丝万缕的关系转化成了一个实数值。

至此，我们可以看到softmax的表达式和最大熵模型的最优求解的表达式形式上是相似的，如果我们用θx表达最大熵中Wf(x,y)就得到了softmax的表达式。

softmax为什么使用指数函数？（最大熵模型的理解）的更多相关文章

Maximum Entropy Model(最大熵模型)初理解
0,熵的描述熵(entropy)指的是体系的混沌的程度(可也理解为一个随机变量的不确定性),它在控制论.概率论.数论.天体物理.生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义, ...
最大熵模型（Maximum Etropy）—— 熵，条件熵，联合熵，相对熵，互信息及其关系，最大熵模型。。
引入1:随机变量函数的分布给定X的概率密度函数为fX(x), 若Y = aX, a是某正实数,求Y得概率密度函数fY(y). 解:令X的累积概率为FX(x), Y的累积概率为FY(y). 则 FY( ...
统计学习方法6—logistic回归和最大熵模型
目录 logistic回归和最大熵模型 1. logistic回归模型 1.1 logistic分布 1.2 二项logistic回归模型 1.3 模型参数估计 2. 最大熵模型 2.1 最大熵原理 ...
最大熵模型 Maximum Entropy Model
熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵 Information Theory .今天的主题是最大熵模型(Maximum Entropy Model,以下简称MaxEnt),M ...
class-逻辑回归与最大熵模型
我们知道,线性回归能够进行简单的分类,但是它有一个问题是分类的范围问题,只有加上一个逻辑函数,才能使得其概率值位于0到1之间,因此本次介绍逻辑回归问题.同时,最大熵模型也是对数线性模型,在介绍最大熵模 ...
100天搞定机器学习|Day55 最大熵模型
1.熵的定义熵最早是一个物理学概念,由克劳修斯于1854年提出,它是描述事物无序性的参数,跟热力学第二定律的宏观方向性有关:在不加外力的情况下,总是往混乱状态改变.熵增是宇宙的基本定律,自然的有序状 ...
最大熵模型The Maximum Entropy
http://blog.csdn.net/pipisorry/article/details/52789149 最大熵模型相关的基础知识 [概率论:基本概念CDF.PDF] [信息论:熵与互信息] [ ...
kafka 日常使用和数据副本模型的理解
kafka 日常使用和数据副本模型的理解在使用Kafka过程中,有时经常需要查看一些消费者的情况.Kafka健康状况.临时查看.同步一些数据,又由于Kafka只是用来做流式存储,又没有像Mysql或 ...
最大熵模型（MEM）
1. 最大熵原理最大熵Max Entropy原理:学习概率模型时,在所有可能的概率模型(即概率分布)中,熵最大的模型是最好的模型. 通常还有其他已知条件来确定概率模型的集合,因此最大熵原理为:在满足 ...

随机推荐

天梯赛 L2-002. （模拟）链表去重
题目链接题目描述给定一个带整数键值的单链表L,本题要求你编写程序,删除那些键值的绝对值有重复的结点.即对任意键值K,只有键值或其绝对值等于K的第一个结点可以被保留.同时,所有被删除的结点必须被保存 ...
shell if判断中常用的a-z表达式含义
shell if判断中常用的a-z表达式含义可通过在在linux中man test命令查看下列参数的详细用法 [ -a FILE ] 如果 FILE 存在则为真. [ -b FILE ] 如果 ...
css给表格每一列设置不同的样式
第一列#id table tr td:first-child{ overflow: visible; }第二列table tr td:first-child+td{color:#666;}第三列tab ...
JavaScript 金额、数字、千分位、千分位、保留几位小数、舍入舍去、支持负数
JavaScript 金额.数字千分位格式化.保留指定位数小数.支持四舍五入.进一法.去尾法字段说明: number:需要处理的数字: decimals:保留几位小数,默认两位,可不传: dec_ ...
Python Challenge 第 5 关攻略：peak
# -*- coding: utf-8 -*- # @Time : 2018/9/26 14:03 # @Author : cxa # @File : pickledemo.py # @Softwar ...
Python和MySQL数据库交互PyMySQL
Python数据库操作对于关系型数据库的访问,Python社区已经指定了一个标准,称为Python Database API SepcificationV2.0.MySQL.Qracle等特定数据库 ...
四B象限图
Tango ROS Streamer
谁想要在Android平台上编写机器人应用,或者谁希望扩展其与室内定位和3D感知新的传感器的机器人开发,Intermodalics创建的ROS Streamer应用的Tango. 这个Android应 ...
动态规划面试题基础合集1--数学三角形，LIS , LCS, CSD
动态规划的一般思路是分为四步,即:寻找最优子结构.递归定义最优子结构.自底向上求解最优子结构和构造最优解. 接下来我列举出几个常见的动态规划面试题进行说明. (1)数学三角形:比较简单,直接贴一个我看 ...

softmax为什么使用指数函数？（最大熵模型的理解）

softmax为什么使用指数函数？（最大熵模型的理解）的更多相关文章

随机推荐

热门专题