前言

今天来讲一下损失函数——交叉熵函数，什么是损失函数呢？大体就是真实与预测之间的差异，这个交叉熵（Cross Entropy）是Shannon信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息。在信息论中，交叉熵是表示两个概率分布 p，q 的差异，其中 p 表示真实分布，q 表示预测分布，那么 $H(p,q)$就称为交叉熵：

$H(p,q) = -\sum_{i=0}^n p(i)ln^{q(i)}$

交叉熵是一种常用的损失函数，特别适用于神经网络训练中。在这种函数中，我们用 p 来表示真实标记的分布，用 q 来表示经过训练后模型预测的标记分布。通过交叉熵损失函数，我们可以有效地衡量模型预测分布 q 与真实分布 p 之间的相似性。

交叉熵函数是逻辑回归（即分类问题）中常用的一种损失函数。

前置知识

有些同学和我一样，长时间没有接触数学，已经完全忘记了。除了基本的加减乘除之外，对于交叉熵函数中的一些基本概念，他们可能只记得和符号。今天我会和大家一起回顾一下，然后再详细解释交叉熵函数。首先，我们来简单了解一下指数和对数的基本概念。

指数

$x^3$ 是一个典型的立方函数，大家对平方和立方可能都有所了解。指数级增长的函数具有特定的增长规律，让我们更深入地记忆和理解它们的分布特性。

这个概念非常简单，无需举例子来说明。重要的是要记住一个关键点：指数函数的一个特殊性质是它们都经过点（0,1），这意味着任何数的0次幂都等于1。

对数

好的，铺垫已经完成了。现在让我们继续探讨对数函数的概念。前面讲解了指数函数，对数函数则是指数函数的逆运算。如果有一个指数函数表达式为$y = a^x$，那么它的对数表达式就是$x = \log_a y$。为了方便表示，我们通常将左侧的结果记为$y$，右侧的未知函数记为$x$，因此对数函数最终表示为$y = \log_a x$。为了更加深刻地记忆这一点，让我们看一下它的分布图例。

当讨论指数函数时，我们了解到其图像在( (0,1) ) 处穿过横轴。然而，当我们转而讨论对数函数时，其表示形式导致了这一点被调换至( (1,0) )，因此对于对数函数而言，它的恒过点即为( (1,0) )。

剩下关于对数的变换我就不再详细讲解了。现在让我们深入探讨一下熵的概念。

交叉熵函数

熵

在探讨交叉熵之前，我们先来了解一下熵的概念。熵是根据已知的实际概率计算信息量的度量，那么信息量又是什么呢？

信息论中，信息量的表示方式：$I(x_j) = -ln^{(px_j)}$

$x_j$：表示一个事件。

$px_j$：表示一个事件发生的概率。

$-ln^{(px_j)}$：表示某一个事件发生后会有多大的信息量，概率越低，所发生的信息量也就越大。

这里为了更好地说明，我来举个例子。比如说有些人非常喜欢追星。那么，按照一般的逻辑来说，我们可以谈谈明星结婚这件事的概率分布：

事件编号	事件	概率p	信息量 I
$x_1$	两口子都在为事业奋斗照顾家庭	0.7	$I(x_1) = -ln^{0.7}= 0.36$
$x_2$	两口子吵架	0.2	$I(x_2) = -ln^{0.2}= 1.61$
$x_3$	离婚了	0.1	$I(x_3) = -ln^{0.1}= 2.30$

从上面的例子可以看出，如果一个事件的概率很低，那么它所带来的信息量就会很大。比如，某某明星又离婚了！这个消息的信息量就非常大。相比之下，“奋斗”事件的信息量就显得小多了。

按照熵的公式进行计算，那么这个故事的熵即为：

熵：$H(p) = -\sum_j^n(px_j)ln^{(px_j)}$

计算得出：$H(p) = -[(px_1)ln^{(px_1)}+(px_2)ln^{(px_2)}+(px_3)ln^{(px_3)}] = -[0.7*0.36+0.2*1.61+0.1*2.3] = 0.804$

相对熵(KL散度)

上面我们讨论了熵的概念及其应用，熵仅考虑了真实概率分布。然而，我们的损失函数需要考虑真实概率分布与预测概率分布之间的差异。因此，我们需要进一步研究相对熵（KL散度），其计算公式为：

$H(p) = \sum_j^n(px_j)ln^{(px_j) \over (qx_j)}$

哎，这其实就是在原先的公式中加了一个$q(x_j)$而已。对了，这里的$q(x_j)$指的是加上了预测概率分布$q$。我们知道对数函数的对称点是（1,0）。因此，很容易推断出，当真实分布$p$和预测分布$q$越接近时，KL散度$D$的值就越小。当它们完全相等时，KL散度恒为0，即在点（1,0）。这样一来，我们就能够准确地衡量真实值与预测值之间的差异分布了。但是没有任何一个损失函数是能为0 的。

当谈到相对熵已经足够时，为何需要进一步讨论交叉熵呢？让我们继续深入探讨这个问题。

交叉熵

重头戏来了，我们继续看下相对熵函数的表达式：$H(p) = \sum_j^n(px_j)ln^{(px_j) \over (qx_j)}$

这里注意下，$log^{p \over q}$是可以变换的，也就是说$log^{p \over q}$ = $log^p -log^ q$，这么说，相对熵转换后的公式就是：$H(p) = \sum_j^n(px_j)ln - \sum_j^n(px_j)ln = -H(p) + H(p,q) $

当我们考虑到$H(p)$在处理不同分布时并没有太大作用时，这是因为$p$的熵始终保持不变，它是由真实的概率分布计算得出的。因此，损失函数只需专注于后半部分$H(p,q)$即可。

所以最终的交叉熵函数为：$-\sum_j^n(px_j)ln^{(qx_j)}$

这里需要注意的是，上面显示的是一个样本计算出的多个概率的熵值。通常情况下，我们考虑的是多个样本，而不仅仅是单一样本。因此，我们需要在前面添加样本的数量，最终表示为：$-\sum_i^m\sum_j^n(px_j)ln^{(qx_j)}$

代码实现

这里主要使用Python代码来实现，因为其他语言实现起来没有必要。好的，让我们来看一下代码示例：

import numpy as np

def cross_entropy(y_true, y_pred):

    # 用了一个最小值

    epsilon = 1e-15

    y_pred = np.clip(y_pred, epsilon, 1 - epsilon)

    # Computing cross entropy

    ce = - np.sum(y_true * np.log(y_pred))

    return ce

# Example usage:

y_true = np.array([1, 0, 1])

y_pred = np.array([0.9, 0.1, 0.8])

ce = cross_entropy(y_true, y_pred)

print(f'Cross Entropy: {ce}')

这里需要解释一下为什么要使用一个最小值。因为对数函数的特性是，其参数 ( x ) 可以无限接近于0，但不能等于0。因此，如果参数等于0，就会导致对数函数计算时出现错误或无穷大的情况。为了避免这种情况，我们选择使用一个足够小的最小值作为阈值，以确保计算的稳定性和正确性。

总结

在本文中，我们深入探讨了交叉熵函数作为一种重要的损失函数，特别适用于神经网络训练中。交叉熵通过衡量真实标签分布与模型预测分布之间的差异，帮助优化模型的性能。我们从信息论的角度解释了交叉熵的概念，它是基于Shannon信息论中的熵而来，用于度量两个概率分布之间的差异。

在讨论中，我们还回顾了指数和对数函数的基本概念，这些函数在交叉熵的定义和理解中起着重要作用。指数函数展示了指数级增长的特性，而对数函数则是其逆运算，用于计算相对熵和交叉熵函数中的对数项。

进一步探讨了熵的概念及其在信息论中的应用，以及相对熵（KL散度）作为衡量两个概率分布差异的指标。最后，我们详细介绍了交叉熵函数的定义和实际应用，以及在Python中的简单实现方式。

通过本文，希望读者能够对交叉熵函数有一个更加深入的理解，并在实际应用中运用此知识来优化和改进机器学习模型的训练效果。

Java开发者的神经网络进阶指南：深入探讨交叉熵损失函数的更多相关文章

JAVA开发者的Golang快速指南
Golang作为Docker.Kubernetes和OpenShift等一些酷辣新技术的首选编程语言,越来越受欢迎.尤其它们都是开源的,很多情况下,开源是非常有价值的.深入学习阅Golang等源代码库 ...
理解交叉熵(cross_entropy)作为损失函数在神经网络中的作用
交叉熵的作用通过神经网络解决多分类问题时,最常用的一种方式就是在最后一层设置n个输出节点,无论在浅层神经网络还是在CNN中都是如此,比如,在AlexNet中最后的输出层有1000个节点: 而即便是R ...
深度学习原理与框架-Tensorflow卷积神经网络-卷积神经网络mnist分类 1.tf.nn.conv2d(卷积操作) 2.tf.nn.max_pool(最大池化操作) 3.tf.nn.dropout(执行dropout操作) 4.tf.nn.softmax_cross_entropy_with_logits(交叉熵损失) 5.tf.truncated_normal(两个标准差内的正态分布)
1. tf.nn.conv2d(x, w, strides=[1, 1, 1, 1], padding='SAME') # 对数据进行卷积操作参数说明:x表示输入数据,w表示卷积核, stride ...
【读书笔记】读《高性能网站建设指南》及《高性能网站建设进阶指南：Web开发者性能优化最佳实践》
这两本书就一块儿搞了,大多数已经理解,简单做个标记.主要对自己不太了解的地方,做一些记录. 一.读<高性能网站建设指南> 0> 黄金性能法则:只有10%~20%的最终用户响应时间 ...
Java 服务端入门和进阶指南
作者:谢龙链接:https://www.zhihu.com/question/29581524/answer/44872235 来源:知乎著作权归作者所有,转载请联系作者获得授权. 现在互联网上资 ...
100个高质量Java开发者博客
ImportNew注:原文中还没有100个.作者希望大家一起来推荐高质量的Java开发博客,然后不段补充到这个列表.欢迎你也参与推荐优质的Java开发博客.(声明一下:我们的数学不是体育老师教的!:) ...
HTML5游戏开发进阶指南（亚马逊5星畅销书，教你用HTML5和JavaScript构建游戏！）
HTML5游戏开发进阶指南(亚马逊星畅销书,教你用HTML5和JavaScript构建游戏!) [印]香卡(Shankar,A.R.)著谢光磊译 ISBN 978-7-121-21226-0 201 ...
Chrome开发者工具不完全指南
Chrome开发者工具不完全指南(一.基础功能篇) Chrome开发者工具不完全指南(二.进阶篇) Chrome开发者工具不完全指南:(三.性能篇) Chrome开发者工具不完全指南(四.性能进阶篇) ...
java开发者最常去的20个英文网站
java开发者最常去的20个英文网站: 1.[http://www.javaalmanac.com] Java开发者年鉴一书的在线版本. 要想快速查到某种Java技巧的用法及示例代码, 这是一个不错的 ...
转:100个高质量Java开发者博客
原文来自于:http://www.importnew.com/7469.html ImportNew注:原文中还没有100个.作者希望大家一起来推荐高质量的Java开发博客,然后不段补充到这个列表.欢 ...

随机推荐

dotnet 使用 ConfigureAwait.Fody 库设置默认的 await 同步上下文切换配置
在 dotnet 里面,使用 await 进行异步逻辑,默认是会尝试切换回调用 await 的线程同步上下文.这个机制对于大多数的上层应用来说都是符合逻辑且方便的逻辑,例如对于带 UI 线程的 WPF ...
dotnet 使用 XWT 构建跨平台客户端入门篇
本文告诉大家如何入门开始开发一个基于 mono 组织开源的 XWT 跨平台客户端 UI 框架的应用,本文的 xwt 是在 GitHub 上完全开源的,基于 MIT 协议的,底层采用 GTK# 的 UI ...
设置Mysql数据库允许远程连接
Mysql数据库用户权限设置 1.进入容器 docker exec -it mysql_test /bin/bash 注意:由于我是通过docker安装的数据库,所以在操作之前需要进入容器,直接安装在 ...
4.10 + (double)(rand()%10)/100.0
黑色星期四坏消息: 没有奥赛课,所以大概率调不出来 CF1479D 好消息: 5k 回来了,调题有望中午起床直接来的机房,有学科自习就说氟硫氢不知道结果被叫回去了而且今天班里没水了,趁着大 ...
【进阶篇】基于 Redis 实现分布式锁的全过程
目录前言一.关于分布式锁二.RedLock 红锁(不推荐) 三.基于 setIfAbsent() 方法四.使用示例 4.1RedLock 使用 4.2setIfAbsent() 方法使用五. ...
为什么需要学习ITSM/ITIL
假如你需要管理一个超过20人的IT服务组织,一般会面临以下问题: 人多事杂活重,每个人都很累,工作却还是一团糟糕, 用户方怨声载道,领导也颇有微词,同事间也经常互相甩锅埋坑, 工作只是救火或者混日子, ...
面向教师的OBS直播速成教程
引言本文是面向教师讲述的如何使用OBS软件进行课程直播的速成教程. 本文配套视频链接如下️ 面向教师的OBS直播教学速成教程_哔哩哔哩_bilibili 环境准备 1. 下载对应本机系统版本的并安装 ...
VNC远程控制软件是什么？有没有更好的远程桌面控制解决方案？
看官老爷们,你们是否需要远程访问或远程支持解决方案?来了解下VNC吧. 什么是VNC? VNC是虚拟网络计算(VNC)是一种远程桌面共享技术,用于从世界任何地方远程访问和控制计算机. VNC的工作原理 ...
C语言：if语句嵌套应用（小剧场）
#include <stdio.h> int main() { int num,i; printf("一天Jackson.W打开了电脑想学习C语言\n"); print ...
.net core 微信支付-微信小程序支付(服务端C#代码)
前言前段时间研究了下微信支付-小程序支付的功能.但微信支付文档中关于.net C#的语言的sdk没有,只有java go 和php版本的,当然社区也有很多已经集成好的微信支付.net core sd ...

事件编号	事件	概率p	信息量 I
\(x_1\)	两口子都在为事业奋斗照顾家庭	0.7	\(I(x_1) = -ln^{0.7}= 0.36\)
\(x_2\)	两口子吵架	0.2	\(I(x_2) = -ln^{0.2}= 1.61\)
\(x_3\)	离婚了	0.1	\(I(x_3) = -ln^{0.1}= 2.30\)

Java开发者的神经网络进阶指南：深入探讨交叉熵损失函数

前言