sequence_loss的解释

潘峰YiRan 2024-11-06 10:55:33 原文

在做seq2seq的时候，经常需要使用sequence_loss这是损失函数。

现在分析一下sequence_loss这个函数到底在做什么

# coding: utf-8

import numpy as np

import tensorflow as tf

from tensorflow.contrib.seq2seq import sequence_loss

logits_np = np.array([

   [[1.0, 2.0], [1.0, 2.0]],

    [[1.0, 2.0], [1.0, 2.0]]

])

targets_np = np.array([

    [0,1],

    [1,1]

], dtype=np.int32)

logits = tf.convert_to_tensor(logits_np)

targets = tf.convert_to_tensor(targets_np)

cost = sequence_loss(logits=logits,

                     targets=targets,

                     weights=tf.ones_like(targets, dtype=tf.float64))

init = tf.global_variables_initializer()

with tf.Session() as sess:

    sess.run(init)

    r = sess.run(cost)

    print(r)

# sequence_loss的结果是0.563261687518082

求loss值

\[logits=\left[\begin{matrix} [1.0, 2.0] & [1.0, 2.0] \cr [1.0, 2.0] & [1.0, 2.0]\end{matrix}\right]
\]

\[target=\left[\begin{matrix} 0.0 & 1.0 \cr 1.0 & 1.0 \end{matrix}\right]
\]

\[cost=sequence\_loss( logits=logits,targets=targets,weights=tf.ones_like(targets, dtype=tf.float64))
\]

sequence_loss的求值过程

1.softmax求值

2.交叉熵选择

3.求平均值

1.softmax

将得分或者概率fi，统一转化到0到1之间，就是计算权重占比（归一化处理）

但是在计算权重的时候，分数都通过自然数e映射转换，目的是，让大的分数更大，让小的分数更小，增加区分度

\[f_i(z)=-log( \frac{ e^{f_i} }{ \sum{e^{f_j} }} )
\]

其输入值是一个向量，向量中元素为任意实数的得分值

输出一个向量，其中每个元素值在0到1之间，且所有元素之和为1（计算每个得分在总分中的占比。这里通过指数映射了一下）

\[f_i(z)=-log( \frac{ e^{f_i} }{ \sum{e^{f_j} }} )
\]

logits = [

[[1.0, 2.0], [1.0, 2.0]],

[[1.0, 2.0], [1.0, 2.0]]

]

\[softmax=\left[\begin{matrix} [ \frac{ e^{1.0} }{ e^{1.0}+e^{2.0}} , \frac{ e^{2.0} }{ e^{1.0}+e^{2.0}}] & [\frac{ e^{1.0} }{ e^{1.0}+e^{2.0}},\frac{ e^{2.0} }{ e^{1.0}+e^{2.0}}] \cr [\frac{ e^{1.0} }{ e^{1.0}+e^{2.0}},\frac{ e^{2.0} }{ e^{1.0}+e^{2.0}}] & [\frac{ e^{1.0} }{ e^{1.0}+e^{2.0}},\frac{ e^{2.0} }{ e^{1.0}+e^{2.0}}]\end{matrix}\right]
\]

2求交叉熵

targets = [

[0,1],

[1,1]

]

根据targets, 确定选取哪个值。

\[crross\_softmax=\left[\begin{matrix} -log(\frac{ e^{1.0} }{ e^{1.0}+e^{2.0}}) & -log(\frac{ e^{2.0} }{ e^{1.0}+e^{2.0}}) \cr -log(\frac{ e^{2.0} }{ e^{1.0}+e^{2.0}}) & -log(\frac{ e^{2.0} }{ e^{1.0}+e^{2.0}}\end{matrix}) \right]
\]

再求平均值

loss1=(-log(2.718/(2.718+7.387))+(-log(7.387/(2.718+7.387))))/2

loss2=(-log(7.387/(2.718+7.387))+(-log(7.387/(2.718+7.387))))/2

loss=(loss1+loss2)/2

loss=0.563

sequence_loss的解释的更多相关文章

ZIP压缩算法详细分析及解压实例解释
最近自己实现了一个ZIP压缩数据的解压程序,觉得有必要把ZIP压缩格式进行一下详细总结,数据压缩是一门通信原理和计算机科学都会涉及到的学科,在通信原理中,一般称为信源编码,在计算机科学里,一般称为数据 ...
说说BPM数据表和日志表中几个状态字段的详细解释
有个客户说需要根据这些字段的值作为判断条件做一些定制化需求,所以需要知道这些字段的名词解释,以及里面存储的值具体代表什么意思我只好为你们整理奉上这些了! Open Work Sheet 0 Sav ...
【完全开源】知乎日报UWP版：项目结构说明、关键源代码解释
目录说明项目结构关键代码演示视频说明上一篇博客将源码放出来了,但是并没有做过多的介绍,所以如果自己硬看可能需要花费很长的时间,尤其这些代码并不是自己写的.项目不算复杂但是也不算简单,这篇文 ...
nodejs、npm、grunt——名词解释
最近着手开发一个新项目,打算从工程化的角度整理一套自己的前端开发.发布体系. grunt这些工具,之前别人用我也用,并没有认真想过它们的前世今生,正好趁着这个机会,我来理一理目前业界比较流行这些工具的 ...
HTTP各状态码解释
状态码含义 100 客户端应当继续发送请求.这个临时响应是用来通知客户端它的部分请求已经被服务器接收,且仍未被拒绝.客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应.服务器必 ...
JavaScript中‘this’关键词的优雅解释
本文转载自:众成翻译译者:MinweiShen 链接:http://www.zcfy.cc/article/901 原文:https://rainsoft.io/gentle-explanation ...
XML简介与CDATA解释
简介XML 是一种受到广泛支持的 Internet 标准,用于以一种特殊的方式编码结构化数据.实际上,以 XML 编码的数据可以通过任何编程语言解码,人们甚至可以使用标准的文本编辑器来阅读或编写 XM ...
free-简单明了解释清楚怎么看内存使用
free命令可以用来查看系统内存使用情况.我一般习惯-m参数以MB的方式查看 [root@localhost ~]# free -m total used free shared buffers ca ...
.htaccess语法之RewriteCond与RewriteRule指令格式详细解释
htaccess语法之RewriteCond与RewriteRule指令格式详细解释 (2012-11-09 18:09:08) 转载▼ 标签: htaccess it 分类: 网络上文htacc ...

随机推荐

asp.net core-14.JWT认证授权生成 JWT Token
源码下载语言组织能力不好 ,看这个视频用visual studio code打开文件,运行dotnet watch run 之后在postman里面去访问拿到Token后
此项目与Visual Studio的当前版本不兼容的报错
问题再现:程序是用visual studio 2013开发的,放在本地运行报此项目与Visual Studio的当前版本不兼容.本地是visual studio 2010. 解决办法: <1&g ...
怎样对小数进行向上取整 / 向下取整 / 四舍五入 / 保留n位小数 / 生成随机数
1. 向上取整使用: Math.ceil() Math.ceil(0.1); Math.ceil(1.9); 2. 向下取整使用: Math.floor() Math.floor(0.1); Math ...
iOS音频频谱动画，仿QQ录音频谱
先上效果图: display.gif 有需要的请移步GitHub下载: https://github.com/HuangGY1993/GYSpectrum 用法很简单,示例: SpectrumView ...
laravel 的安装与配置
1.工作环境 php 7.0+ .MySQL5.1+ 这里可以用开发环境包一键安装: 自己用的是wamp(windows)http://www.wampserver.com/en/ linux系统和m ...
c#winform listview设置每项的间距
代码如下: [DllImport("user32.dll", CharSet = CharSet.Auto, SetLastError = false)] private stat ...
高射炮打蚊子，杀鸡用绝世好剑：在SAP Kyma上运行UI5应用
国人在表述"大材小用"这个场景时,总喜欢用一些实物来类比,比如:高射炮打蚊子. 英国QF 3.7英寸(94mm)高射炮,战斗全重超过9.3吨,全长近5米,最大射程约18公里,最大射 ...
SpringCloud之Zuul网关原理及其配置
Zuul是spring cloud中的微服务网关.网关: 是一个网络整体系统中的前置门户入口.请求首先通过网关,进行路径的路由,定位到具体的服务节点上. Zuul是一个微服务网关,首先是一个微服务.也 ...
Window10下Python3.7 安装与卸载
1.进入官网https://www.python.org/,点击Downloads下的Windows按钮,进入下载页面. 2.如下图所示,点击下载. 3.安装Python3.7.4 4.打开cmd,输 ...
网络编程基础之TCP编程学习（一）
网络编程基础了解 socket套接字 socket是一种通讯机制,它包含一整套的调用接口和数据结构的定义,他给应用程序提供了使用如TCP/UDP等网络通讯的手段. linux中的网络编程通过socke ...