上面一篇文章中探讨了玻尔兹曼分布的起源: 在不清楚目标的真实分布,也不知道样本分布的时候,假设任意输入与输出组合都是同样可能发生的,这样是最公平,最无偏的先验. 因为无法直接统计出给定任意一种输入x,各种y出现的概率,所以把题目转换一下,与其直接求p(y|x),不如假设概率都是由一个能量函数E来决定,之后拟合E(x),同时调查p(y|E)需要满足怎样的形式. softmax函数中,E是由最后一层特征经过线性变换W·u得来的,因为神经网络的通用拟合性,可以看做能量E(x)实际上可以满足任何函数形式…