激活函数之softmax介绍及C++实现

下溢(underflow)：当接近零的数被四舍五入为零时发生下溢。许多函数在其参数为零而不是一个很小的正数时才会表现出质的不同。例如，我们通常要避免被零除或避免取零的对数。

上溢(overflow)：当大量级的数被近似为∞或-∞时发生上溢。进一步的运算通常会导致这些无限值变为非数字。

必须对上溢和下溢进行数值稳定的一个例子是softmax函数(softmax function).softmax函数经常用于预测与Multinoulli分布相关联的概率，定义为：

考虑一下当所有x_i都等于某个常数c时会发生什么。从理论分析上说，我们可以发现所有的输出都应该为1/n。从数值计算上说，当c量级很大时，这可能不会发生。如果c是很小的负数，exp(c)就会下溢。这意味着softmax函数的分母会变成0，所以最后的结果是未定义的。当c是非常大的正数时，exp(c)的上溢再次导致整个表达式未定义。这两个困难能通过计算softmax(z)同时解决，其中z=x-max_ix_i.简单的代数计算表明，softmax解析上的函数值不会因为从输入向量减去或加上标量而改变。减去max_ix_i导致exp的最大参数为0，这排除了上溢的可能性。同样地，分母中至少有一个值为1的项，这就排除了因分母下溢而导致被零除的可能性。

还有一个小问题。分子中的下溢仍可以导致整体表达式被计算为零。这意味着，如果我们在计算log(softmax(x))时，先计算softmax再把结果传给log函数，会错误地得到-∞。相反，我们必须实现一个单独的函数，并以数值稳定的方式计算log(softmax)。我们可以使用相同的技巧来稳定log(softmax)函数。

Softmax函数：在数学，尤其是概率论和相关领域中，Softmax函数，或称归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的K维的向量z的”压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。该函数的形式通常按下面的式子给出：其中，j=1,…,K.

Softmax函数实际上是有限项离散概率分布的梯度对数归一化。因此，Softmax函数在包括多项逻辑回归，多项线性判别分析，朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。

The softmax function is often used in the final layer of a neural network-based classifier. Such networks are commonly trained under a log loss (or cross-entropy) regime, giving a non-linear variant of multinomial logistic regression.

Softmax可作为神经网络中的输出层，用于多分类(sigmoid只能用于二分类，而softmax可用于多分类。使用Logistic函数来实现二分类问题，对于多分类问题，可以使用多项Logistic回归，该方法也被称之为softmax函数)；Softmax还可以解决学习速度衰退的问题；softmax还可作为loss function。

softmax函数的导数如下：

以上内容主要摘自：《深度学习中文版》和维基百科

以下是C++实现的测试code：

#include "funset.hpp"
#include <math.h>
#include <iostream>
#include <string>
#include <vector>
#include <opencv2/opencv.hpp>
#include "common.hpp"

// ========================= Activation Function: softmax =====================
template<typename _Tp>
int activation_function_softmax(const _Tp* src, _Tp* dst, int length)
{
	const _Tp alpha = *std::max_element(src, src + length);
	_Tp denominator{ 0 };

	for (int i = 0; i < length; ++i) {
		dst[i] = std::exp(src[i] - alpha);
		denominator += dst[i];
	}

	for (int i = 0; i < length; ++i) {
		dst[i] /= denominator;
	}

	return 0;
}

template<typename _Tp>
int activation_function_softmax_derivative(const _Tp* src, _Tp* dst, int length)
{
	std::vector<_Tp> y(length, (_Tp)0);
	activation_function_softmax(src, y.data(), length);

	fprintf(stderr, "Error: activation_function_softmax_derivative to do ...\n");
	return -1;
}

int test_activation_function()
{
	std::vector<float> src{ 1.23f, 4.14f, -3.23f, -1.23f, 5.21f, 0.234f, -0.78f, 6.23f };
	int length = src.size();
	std::vector<float> dst(length);

	fprintf(stderr, "source vector: \n");
	fbc::print_matrix(src);
	fprintf(stderr, "calculate activation function:\n");

	fprintf(stderr, "type: sigmoid result: \n");
	fbc::activation_function_sigmoid(src.data(), dst.data(), length);
	fbc::print_matrix(dst);
	fprintf(stderr, "type: sigmoid derivative result: \n");
	fbc::activation_function_sigmoid_derivative(src.data(), dst.data(), length);
	fbc::print_matrix(dst);
	fprintf(stderr, "type: sigmoid fast result: \n");
	fbc::activation_function_sigmoid_fast(src.data(), dst.data(), length);
	fbc::print_matrix(dst);

	fprintf(stderr, "type: softplus result: \n");
	fbc::activation_function_softplus(src.data(), dst.data(), length);
	fbc::print_matrix(dst);
	fprintf(stderr, "type: softplus derivative result: \n");
	fbc::activation_function_softplus_derivative(src.data(), dst.data(), length);
	fbc::print_matrix(dst);

	fprintf(stderr, "type: ReLU result: \n");
	fbc::activation_function_ReLU(src.data(), dst.data(), length);
	fbc::print_matrix(dst);
	fprintf(stderr, "type: ReLU derivative result: \n");
	fbc::activation_function_ReLU_derivative(src.data(), dst.data(), length);
	fbc::print_matrix(dst);

	fprintf(stderr, "type: Leaky ReLUs result: \n");
	fbc::activation_function_Leaky_ReLUs(src.data(), dst.data(), length);
	fbc::print_matrix(dst);
	fprintf(stderr, "type: Leaky ReLUs derivative result: \n");
	fbc::activation_function_Leaky_ReLUs_derivative(src.data(), dst.data(), length);
	fbc::print_matrix(dst);

	fprintf(stderr, "type: Leaky ELUs result: \n");
	fbc::activation_function_ELUs(src.data(), dst.data(), length);
	fbc::print_matrix(dst);

	fprintf(stderr, "type: softmax result: \n");
	fbc::activation_function_softmax(src.data(), dst.data(), length);
	fbc::print_matrix(dst);
	fprintf(stderr, "type: softmax derivative result: \n");
	fbc::activation_function_softmax_derivative(src.data(), dst.data(), length);
	fbc::print_matrix(dst);

	return 0;
}

GitHub：https://github.com/fengbingchun/NN_Test

激活函数之softmax介绍及C++实现的更多相关文章

02tensorflow非线性回归以及分类的简单实用，softmax介绍
import tensorflow as tf import numpy as np import matplotlib.pyplot as plt # 使用numpy生成200个随机点 x_data ...
Tensorflow 2.0 深度学习实战 —— 详细介绍损失函数、优化器、激活函数、多层感知机的实现原理
前言 AI 人工智能包含了机器学习与深度学习,在前几篇文章曾经介绍过机器学习的基础知识,包括了监督学习和无监督学习,有兴趣的朋友可以阅读< Python 机器学习实战 >.而深度学习开始只 ...
激活函数Sigmoid、Tanh、ReLu、softplus、softmax
原文地址:https://www.cnblogs.com/nxf-rabbit75/p/9276412.html 激活函数: 就是在神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端. 常见 ...
直白介绍卷积神经网络（CNN）【转】
英文地址:https://ujjwalkarn.me/2016/08/11/intuitive-explanation-convnets/ 中文译文:http://mp.weixin.qq.com/s ...
激活函数（relu，prelu，elu，+BN）对比on cifar10
激活函数(relu,prelu,elu,+BN)对比on cifar10 可参考上一篇: 激活函数 ReLU.LReLU.PReLU.CReLU.ELU.SELU 的定义和区别一．理论基础 ...
softmax 杂谈
在多分类问题中,我们可以使用 softmax 函数,对输出的值归一化为概率值.下面举个例子: import sys sys.path.append("E:/zlab/") from ...
Keras手写识别例子（1）----softmax
转自:https://morvanzhou.github.io/tutorials/machine-learning/keras/2-2-classifier/#测试模型下载数据: # downlo ...
【NLP面试QA】激活函数与损失函数
目录 Sigmoid 函数的优缺点是什么 ReLU的优缺点什么是交叉熵为什么分类问题的损失函数为交叉熵而不能是 MSE? 多分类问题中,使用 sigmoid 和 softmax 作为最后一层激活函 ...

随机推荐

VCF和GVCF格式说明
注意:本文的内容主要来自于GATK官网的讲解,所以vcf也是GATK产生的,用其他caller,比如varscan2产生的vcf文件的内容注释可能不一致. 参考:https://gatkforums. ...
扒开系统调用的三层皮（下）/给MenuOS增加time和time-asm命令
上周从用户态的角度去理解系统调用这周通过内核的方式调试和跟踪系统调用来理解 rm menu -rf 强制删除原menu文件 git clone https://github.com/mengni ...
PayPal2019春招实习生笔试题的某一题
题目简单描述:给你n个点的坐标(x, y),均为浮点数. 如果任意两个点之间的欧几里得距离小于给定的一个浮点值,则认为这两个点之间有关联,并且关联具有传递性,总之就是尽可能扩大一个集合. 输入: d ...
POJ-1458 LCS（线性动态规划）
此题经典线性动态规划. 代码如下: #include<iostream> #include<cstdio> #include<cstdlib> #include&l ...
windows环境下mysql的解压安装以及备份和还原
系统环境为server2012 1.下载mysql解压版,解压安装包到指定目录 2.在以上目录中,复制一份my-default.ini文件,重命名为my.ini,进行如下修改(按照需要): [mysq ...
ideal开发工具环境设置
ideal现在是很流行的一种java开发工具,不得不说,它真的很好用.当你使用的时候,需要设置环境. 首先,如果产生乱码,解决如下: 设置为UTF-8 如果项目是maven项目,设置如下: 也可以设置 ...
转：eclipse与myeclipse恢复已删除的文件和代码
UVA 1642 Magical GCD（经典gcd）
题意:给你n(n<=100000)个正整数,求一个连续子序列使序列的所有元素的最大公约数与个数乘积最大题解:我们知道一个原理就是对于n+1个数与n个数的最大公约数要么相等,要么减小并且减小至少 ...
「SSH 黑魔法」：代理、端口转发和 shell 共享
在好朋友的推荐下,我看了这个视频: The Black Magic Of SSH 这个视频里面,介绍了 ssh 的一些高级应用:结合工作的经历,两类问题会对我们平时的工作帮助很大: 1. 两个人怎么 ...
Asp.Net MVC 请求原理分析
分析Asp.Net MVC的请求过程,我们从以下几方面看: 配置:IIS网站的配置可以分为两个块:全局 Web.Config 和本站 Web.Config . Asp.Net Routing属于全局性 ...

激活函数之softmax介绍及C++实现

激活函数之softmax介绍及C++实现的更多相关文章

随机推荐

热门专题