Java开发者的神经网络进阶指南:深入探讨交叉熵损失函数
前言
今天来讲一下损失函数——交叉熵函数,什么是损失函数呢?大体就是真实与预测之间的差异,这个交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。在信息论中,交叉熵是表示两个概率分布 p,q 的差异,其中 p 表示真实分布,q 表示预测分布,那么 \(H(p,q)\)就称为交叉熵:
\(H(p,q) = -\sum_{i=0}^n p(i)ln^{q(i)}\)
交叉熵是一种常用的损失函数,特别适用于神经网络训练中。在这种函数中,我们用 p 来表示真实标记的分布,用 q 来表示经过训练后模型预测的标记分布。通过交叉熵损失函数,我们可以有效地衡量模型预测分布 q 与真实分布 p 之间的相似性。
交叉熵函数是逻辑回归(即分类问题)中常用的一种损失函数。
前置知识
有些同学和我一样,长时间没有接触数学,已经完全忘记了。除了基本的加减乘除之外,对于交叉熵函数中的一些基本概念,他们可能只记得和符号。今天我会和大家一起回顾一下,然后再详细解释交叉熵函数。首先,我们来简单了解一下指数和对数的基本概念。
指数
\(x^3\) 是一个典型的立方函数,大家对平方和立方可能都有所了解。指数级增长的函数具有特定的增长规律,让我们更深入地记忆和理解它们的分布特性。
这个概念非常简单,无需举例子来说明。重要的是要记住一个关键点:指数函数的一个特殊性质是它们都经过点(0,1),这意味着任何数的0次幂都等于1。
对数
好的,铺垫已经完成了。现在让我们继续探讨对数函数的概念。前面讲解了指数函数,对数函数则是指数函数的逆运算。如果有一个指数函数表达式为\(y = a^x\),那么它的对数表达式就是\(x = \log_a y\)。为了方便表示,我们通常将左侧的结果记为\(y\),右侧的未知函数记为\(x\),因此对数函数最终表示为\(y = \log_a x\)。为了更加深刻地记忆这一点,让我们看一下它的分布图例。
当讨论指数函数时,我们了解到其图像在( (0,1) ) 处穿过横轴。然而,当我们转而讨论对数函数时,其表示形式导致了这一点被调换至( (1,0) ),因此对于对数函数而言,它的恒过点即为( (1,0) )。
剩下关于对数的变换我就不再详细讲解了。现在让我们深入探讨一下熵的概念。
交叉熵函数
熵
在探讨交叉熵之前,我们先来了解一下熵的概念。熵是根据已知的实际概率计算信息量的度量,那么信息量又是什么呢?
信息论中,信息量的表示方式:\(I(x_j) = -ln^{(px_j)}\)
\(x_j\):表示一个事件。
\(px_j\):表示一个事件发生的概率。
\(-ln^{(px_j)}\):表示某一个事件发生后会有多大的信息量,概率越低,所发生的信息量也就越大。
这里为了更好地说明,我来举个例子。比如说有些人非常喜欢追星。那么,按照一般的逻辑来说,我们可以谈谈明星结婚这件事的概率分布:
事件编号 | 事件 | 概率p | 信息量 I |
---|---|---|---|
\(x_1\) | 两口子都在为事业奋斗照顾家庭 | 0.7 | \(I(x_1) = -ln^{0.7}= 0.36\) |
\(x_2\) | 两口子吵架 | 0.2 | \(I(x_2) = -ln^{0.2}= 1.61\) |
\(x_3\) | 离婚了 | 0.1 | \(I(x_3) = -ln^{0.1}= 2.30\) |
从上面的例子可以看出,如果一个事件的概率很低,那么它所带来的信息量就会很大。比如,某某明星又离婚了!这个消息的信息量就非常大。相比之下,“奋斗”事件的信息量就显得小多了。
按照熵的公式进行计算,那么这个故事的熵即为:
熵:\(H(p) = -\sum_j^n(px_j)ln^{(px_j)}\)
计算得出:\(H(p) = -[(px_1)ln^{(px_1)}+(px_2)ln^{(px_2)}+(px_3)ln^{(px_3)}] = -[0.7*0.36+0.2*1.61+0.1*2.3] = 0.804\)
相对熵(KL散度)
上面我们讨论了熵的概念及其应用,熵仅考虑了真实概率分布。然而,我们的损失函数需要考虑真实概率分布与预测概率分布之间的差异。因此,我们需要进一步研究相对熵(KL散度),其计算公式为:
\(H(p) = \sum_j^n(px_j)ln^{(px_j) \over (qx_j)}\)
哎,这其实就是在原先的公式中加了一个\(q(x_j)\)而已。对了,这里的\(q(x_j)\)指的是加上了预测概率分布\(q\)。我们知道对数函数的对称点是(1,0)。因此,很容易推断出,当真实分布\(p\)和预测分布\(q\)越接近时,KL散度\(D\)的值就越小。当它们完全相等时,KL散度恒为0,即在点(1,0)。这样一来,我们就能够准确地衡量真实值与预测值之间的差异分布了。但是没有任何一个损失函数是能为0 的。
当谈到相对熵已经足够时,为何需要进一步讨论交叉熵呢?让我们继续深入探讨这个问题。
交叉熵
重头戏来了,我们继续看下相对熵函数的表达式:\(H(p) = \sum_j^n(px_j)ln^{(px_j) \over (qx_j)}\)
这里注意下,\(log^{p \over q}\)是可以变换的,也就是说\(log^{p \over q}\) = \(log^p -log^ q\),这么说,相对熵转换后的公式就是:$H(p) = \sum_jn(px_j)ln - \sum_jn(px_j)ln = -H(p) + H(p,q) $
当我们考虑到\(H(p)\)在处理不同分布时并没有太大作用时,这是因为\(p\)的熵始终保持不变,它是由真实的概率分布计算得出的。因此,损失函数只需专注于后半部分\(H(p,q)\)即可。
所以最终的交叉熵函数为:\(-\sum_j^n(px_j)ln^{(qx_j)}\)
这里需要注意的是,上面显示的是一个样本计算出的多个概率的熵值。通常情况下,我们考虑的是多个样本,而不仅仅是单一样本。因此,我们需要在前面添加样本的数量,最终表示为:\(-\sum_i^m\sum_j^n(px_j)ln^{(qx_j)}\)
代码实现
这里主要使用Python代码来实现,因为其他语言实现起来没有必要。好的,让我们来看一下代码示例:
import numpy as np
def cross_entropy(y_true, y_pred):
# 用了一个最小值
epsilon = 1e-15
y_pred = np.clip(y_pred, epsilon, 1 - epsilon)
# Computing cross entropy
ce = - np.sum(y_true * np.log(y_pred))
return ce
# Example usage:
y_true = np.array([1, 0, 1])
y_pred = np.array([0.9, 0.1, 0.8])
ce = cross_entropy(y_true, y_pred)
print(f'Cross Entropy: {ce}')
这里需要解释一下为什么要使用一个最小值。因为对数函数的特性是,其参数 ( x ) 可以无限接近于0,但不能等于0。因此,如果参数等于0,就会导致对数函数计算时出现错误或无穷大的情况。为了避免这种情况,我们选择使用一个足够小的最小值作为阈值,以确保计算的稳定性和正确性。
总结
在本文中,我们深入探讨了交叉熵函数作为一种重要的损失函数,特别适用于神经网络训练中。交叉熵通过衡量真实标签分布与模型预测分布之间的差异,帮助优化模型的性能。我们从信息论的角度解释了交叉熵的概念,它是基于Shannon信息论中的熵而来,用于度量两个概率分布之间的差异。
在讨论中,我们还回顾了指数和对数函数的基本概念,这些函数在交叉熵的定义和理解中起着重要作用。指数函数展示了指数级增长的特性,而对数函数则是其逆运算,用于计算相对熵和交叉熵函数中的对数项。
进一步探讨了熵的概念及其在信息论中的应用,以及相对熵(KL散度)作为衡量两个概率分布差异的指标。最后,我们详细介绍了交叉熵函数的定义和实际应用,以及在Python中的简单实现方式。
通过本文,希望读者能够对交叉熵函数有一个更加深入的理解,并在实际应用中运用此知识来优化和改进机器学习模型的训练效果。
Java开发者的神经网络进阶指南:深入探讨交叉熵损失函数的更多相关文章
- JAVA开发者的Golang快速指南
Golang作为Docker.Kubernetes和OpenShift等一些酷辣新技术的首选编程语言,越来越受欢迎.尤其它们都是开源的,很多情况下,开源是非常有价值的.深入学习阅Golang等源代码库 ...
- 理解交叉熵(cross_entropy)作为损失函数在神经网络中的作用
交叉熵的作用 通过神经网络解决多分类问题时,最常用的一种方式就是在最后一层设置n个输出节点,无论在浅层神经网络还是在CNN中都是如此,比如,在AlexNet中最后的输出层有1000个节点: 而即便是R ...
- 深度学习原理与框架-Tensorflow卷积神经网络-卷积神经网络mnist分类 1.tf.nn.conv2d(卷积操作) 2.tf.nn.max_pool(最大池化操作) 3.tf.nn.dropout(执行dropout操作) 4.tf.nn.softmax_cross_entropy_with_logits(交叉熵损失) 5.tf.truncated_normal(两个标准差内的正态分布)
1. tf.nn.conv2d(x, w, strides=[1, 1, 1, 1], padding='SAME') # 对数据进行卷积操作 参数说明:x表示输入数据,w表示卷积核, stride ...
- 【读书笔记】读《高性能网站建设指南》及《高性能网站建设进阶指南:Web开发者性能优化最佳实践》
这两本书就一块儿搞了,大多数已经理解,简单做个标记.主要对自己不太了解的地方,做一些记录. 一.读<高性能网站建设指南> 0> 黄金性能法则:只有10%~20%的最终用户响应时间 ...
- Java 服务端入门和进阶指南
作者:谢龙 链接:https://www.zhihu.com/question/29581524/answer/44872235 来源:知乎 著作权归作者所有,转载请联系作者获得授权. 现在互联网上资 ...
- 100个高质量Java开发者博客
ImportNew注:原文中还没有100个.作者希望大家一起来推荐高质量的Java开发博客,然后不段补充到这个列表.欢迎你也参与推荐优质的Java开发博客.(声明一下:我们的数学不是体育老师教的!:) ...
- HTML5游戏开发进阶指南(亚马逊5星畅销书,教你用HTML5和JavaScript构建游戏!)
HTML5游戏开发进阶指南(亚马逊星畅销书,教你用HTML5和JavaScript构建游戏!) [印]香卡(Shankar,A.R.)著 谢光磊译 ISBN 978-7-121-21226-0 201 ...
- Chrome开发者工具不完全指南
Chrome开发者工具不完全指南(一.基础功能篇) Chrome开发者工具不完全指南(二.进阶篇) Chrome开发者工具不完全指南:(三.性能篇) Chrome开发者工具不完全指南(四.性能进阶篇) ...
- java开发者最常去的20个英文网站
java开发者最常去的20个英文网站: 1.[http://www.javaalmanac.com] Java开发者年鉴一书的在线版本. 要想快速查到某种Java技巧的用法及示例代码, 这是一个不错的 ...
- 转:100个高质量Java开发者博客
原文来自于:http://www.importnew.com/7469.html ImportNew注:原文中还没有100个.作者希望大家一起来推荐高质量的Java开发博客,然后不段补充到这个列表.欢 ...
随机推荐
- vue通过input选取apk文件上传,显示进度条
<template> <div class=""> <form action="" method="post" ...
- WSL2使用桥接网络,并指定IP
前言 微软终于解决了宇宙级难题了,一直以来的WSL2每次启动IP都是动态分配的,并且是NAT的网络.当然网上对此也有一些解决方案,编写脚本在启动时修改,但是太麻烦了,这次很完美的解决了这个难题. 检查 ...
- Python竖版大屏2 | 用pyecharts开发可视化的奇妙探索!
目录 1.SHINE主题 2.LIGHT主题 3.MACARONS主题 4.INFOGRAPHIC主题 5.WALDEN主题 6.WESTEROS主题 7.WHITE主题 8.WONDERLAND主题 ...
- 飞桨动态图PyLayer机制
一.主要用法 如下是官方文档上的使用样例: import paddle from paddle.autograd import PyLayer # Inherit from PyLayer class ...
- ansible(6)--ansible的copy和fetch模块
1. copy模块 功能:从 ansible 服务端主控端复制文件到远程主机: copy模块的主要参数如下: 参数 说明 src 复制的源文件路径,若源文件为目录,默认进行递归复制,如果路劲以&quo ...
- DNS(1) -- DNS服务及dns资源类型
目录 1.1 DNS服务概述 1.2 DNS域名结构 1.3 DNS解析原理 1.3.1 DNS查询类型 1.3.2 解析答案 1.4 DNS资源记录类型 1.1 DNS服务概述 DNS(Domain ...
- JDK源码阅读-------自学笔记(八)(数组演示冒泡排序和二分查找)
冒泡排序 算法 比较相邻的元素.如果第一个比第二个大,就交换他们两个 对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对.在这一点,最后的元素应该会是最大的数 针对所有的元素重复以上的步骤,除 ...
- VS Code 代码片段编写教程
VS Code 代码片段编写教程 最近要做一个vs code的代码片段插件,于是搜索和学习相关内容,整理分享给大家! [!TIP] 本篇博客50%+内容由BingChat提供,然后作者对内容进行验证和 ...
- Base64编码解码 支持解码为 16进制
https://base64.xhlylx.com/
- HashMap设置初始容量一直都用错了?
1 背景 今天在代码审查的时候,发现一位离职的同事留下了这样一串代码: Map<String,String> map = new HashMap<>((int)(list.si ...