BP神经网络——交叉熵作代价函数

Sigmoid函数

当神经元的输出接近 1时，曲线变得相当平，即σ′(z)的值会很小，进而也就使∂C/∂w和∂C/∂b会非常小。造成学习缓慢，下面有一个二次代价函数的cost变化图，epoch从15到50变化很小。

引入交叉熵代价函数

针对上述问题，希望对输出层选择一个不包含sigmoid的权值更新，使得

由链式法则，得到

由σ′(z) = σ(z)(1− σ(z))以及σ(z)=a，可以将上式转换成

对方程进行关于a的积分，可得

对样本进行平均之后就是下面的交叉熵代价函数

对比之前的输出层delta，相当于去掉了前面的

相应的代码仅改动了一行(58->59)，新的cost变化图如下。

在训练和测试数据各5000个时，识别正确数从4347稍提高到4476。

 # coding:utf8

 import cPickle

 import numpy as np

 import matplotlib.pyplot as plt

 class Network(object):

     def __init__(self, sizes):

         self.num_layers = len(sizes)

         self.sizes = sizes

         self.biases = [np.random.randn(y, 1) for y in sizes[1:]]  # L(n-1)->L(n)

         self.weights = [np.random.randn(y, x)

                         for x, y in zip(sizes[:-1], sizes[1:])]

     def feedforward(self, a):

         for b_, w_ in zip(self.biases, self.weights):

             a = self.sigmoid(np.dot(w_, a)+b_)

         return a

     def SGD(self, training_data, test_data,epochs, mini_batch_size, eta):

         n_test = len(test_data)

         n = len(training_data)

         plt.xlabel('epoch')

         plt.title('cost')

         cy=[]

         cx=range(epochs)

         for j in cx:

             self.cost = 0.0

             np.random.shuffle(training_data)  # shuffle

             for k in xrange(0, n, mini_batch_size):

                 mini_batch = training_data[k:k+mini_batch_size]

                 self.update_mini_batch(mini_batch, eta)

             cy.append(self.cost/n)

             print "Epoch {0}: {1} / {2}".format(

                     j, self.evaluate(test_data), n_test)

         plt.plot(cx,cy)

         plt.scatter(cx,cy)

         plt.show()

     def update_mini_batch(self, mini_batch, eta):

         for x, y in mini_batch:

             delta_b, delta_w,cost = self.backprop(x, y)

             self.weights -= eta/len(mini_batch)*delta_w

             self.biases -= eta/len(mini_batch)*delta_b

             self.cost += cost

     def backprop(self, x, y):

         b=np.zeros_like(self.biases)

         w=np.zeros_like(self.weights)

         a_ = x

         a = [x]

         for b_, w_ in zip(self.biases, self.weights):

             a_ = self.sigmoid(np.dot(w_, a_)+b_)

             a.append(a_)

         for l in xrange(1, self.num_layers):

             if l==1:

                 # delta= self.sigmoid_prime(a[-1])*(a[-1]-y)  # O(k)=a[-1], t(k)=y

                 delta= a[-1]-y  # cross-entropy

             else:

                 sp = self.sigmoid_prime(a[-l])   # O(j)=a[-l]

                 delta = np.dot(self.weights[-l+1].T, delta) * sp

             b[-l] = delta

             w[-l] = np.dot(delta, a[-l-1].T)

         cost=0.5*np.sum((b[-1])**2)

         return (b, w,cost)

     def evaluate(self, test_data):

         test_results = [(np.argmax(self.feedforward(x)), y)

                         for (x, y) in test_data]

         return sum(int(x == y) for (x, y) in test_results)

     def sigmoid(self,z):

         return 1.0/(1.0+np.exp(-z))

     def sigmoid_prime(self,z):

         return z*(1-z)

 if __name__ == '__main__':

         def get_label(i):

             c=np.zeros((10,1))

             c[i]=1

             return c

         def get_data(data):

             return [np.reshape(x, (784,1)) for x in data[0]]

         f = open('mnist.pkl', 'rb')

         training_data, validation_data, test_data = cPickle.load(f)

         training_inputs = get_data(training_data)

         training_label=[get_label(y_) for y_ in training_data[1]]

         data = zip(training_inputs,training_label)

         test_inputs = training_inputs = get_data(test_data)

         test = zip(test_inputs,test_data[1])

         net = Network([784, 30, 10])

         net.SGD(data[:5000],test[:5000],50,10, 3.0,)   # 4476/5000 (4347/5000)

BP神经网络——交叉熵作代价函数的更多相关文章

神经网络(NN)+反向传播算法（Backpropagation/BP）+交叉熵+softmax原理分析
神经网络如何利用反向传播算法进行参数更新,加入交叉熵和softmax又会如何变化? 其中的数学原理分析:请点击这里.
交叉熵代价函数——当我们用sigmoid函数作为神经元的激活函数时，最好使用交叉熵代价函数来替代方差代价函数，以避免训练过程太慢
交叉熵代价函数 machine learning算法中用得很多的交叉熵代价函数. 1.从方差代价函数说起代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigm ...
最大似然估计 (Maximum Likelihood Estimation), 交叉熵 (Cross Entropy) 与深度神经网络
最近在看深度学习的"花书" (也就是Ian Goodfellow那本了),第五章机器学习基础部分的解释很精华,对比PRML少了很多复杂的推理,比较适合闲暇的时候翻开看看.今天准备写 ...
理解交叉熵(cross_entropy)作为损失函数在神经网络中的作用
交叉熵的作用通过神经网络解决多分类问题时,最常用的一种方式就是在最后一层设置n个输出节点,无论在浅层神经网络还是在CNN中都是如此,比如,在AlexNet中最后的输出层有1000个节点: 而即便是R ...
深度学习原理与框架-Tensorflow卷积神经网络-卷积神经网络mnist分类 1.tf.nn.conv2d(卷积操作) 2.tf.nn.max_pool(最大池化操作) 3.tf.nn.dropout(执行dropout操作) 4.tf.nn.softmax_cross_entropy_with_logits(交叉熵损失) 5.tf.truncated_normal(两个标准差内的正态分布)
1. tf.nn.conv2d(x, w, strides=[1, 1, 1, 1], padding='SAME') # 对数据进行卷积操作参数说明:x表示输入数据,w表示卷积核, stride ...
BP神经网络算法推导及代码实现笔记zz
一. 前言: 作为AI入门小白,参考了一些文章,想记点笔记加深印象,发出来是给有需求的童鞋学习共勉,大神轻拍! [毒鸡汤]:算法这东西,读完之后的状态多半是 --> “我是谁,我在哪?” 没事的 ...
基于BP神经网络的字符识别研究
基于BP神经网络的字符识别研究原文作者:Andrew Kirillov. http://www.codeproject.com/KB/cs/neural_network_ocr.aspx 摘要:本文 ...
Python3 BP神经网络
转自麦子学院 """ network.py ~~~~~~~~~~ A module to implement the stochastic gradient descen ...
NO.2：自学tensorflow之路------BP神经网络编程
引言在上一篇博客中,介绍了各种Python的第三方库的安装,本周将要使用Tensorflow完成第一个神经网络,BP神经网络的编写.由于之前已经介绍过了BP神经网络的内部结构,本文将直接介绍Tens ...

随机推荐

php无缝连接滚动
最近用到了,仿照别人的写了一个 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "ht ...
有关PHP安装，基础学习
首先要安装 wamp 和 NavicatMySQLFront (要在非中文目录下) 打开DW 点击站点 ——新建站点:设置站点名称,选择本地站点文件夹:wap\www 服务器:添加 + 服务器名 ...
TPLink 备份文件bin文件解析
TPLink 路由器备份文件bin文件测试路由器 WR885,备份文件加密方式DES,密钥:478DA50BF9E3D2CF linux端: openssl enc -d -des-ecb -nop ...
极客DIY：开源WiFi智能手表制作
如果你喜欢拥有一款属于自己的无线手表,那么请不要错过,相信阅读完这篇文章对你会很有帮助. 硬件规格 ESP8266(32Mbit闪存) MPU-9250(陀螺仪传感器)以及 AK8963(内置磁力计) ...
jQuery轮播图
yii2 轮播样式: <style type="text/css"> *{margin:0;padding:0} body{margin:50px} li{list- ...
Thread和Service应用场合的区别
Thread和Service的区别: 1) Thread 是程序执行的最小单元,它是分配CPU的基本单位,可以用 Thread 来执行一些异步的操作. 如果是Local Service,那么对应的 S ...
解决magento添加产品在前台不显示问题
有时候我们在magento系统添加产品,前台不显示,最模板分析可能以下几个原因: 1 添加新品要重新index一下,magento是静态的.html页面,不reindex不出来的.在System→I ...
解决CSS小于12px的文字在谷歌浏览器显示问题
做前端设计的人经常要接触CSS方面的问题,估计有不少人会遇到Chrome谷歌浏览器中CSS设置字体小于12px显示不正常,强创网络在做magento模板过程中就遇到了,起初以为是自己写的CSS的问题, ...
dedecms SQL数据库连接信息注解(借鉴)
<?php $cfg_dbhost = 'localhost'; //数据库地址,这里的localhost指的是本机$cfg_dbname = 'hunuo'; //数据库名$cfg_dbuse ...
keynotes egestas，PPT 渐变背景下载-imsoft.cnblogs

BP神经网络——交叉熵作代价函数

Sigmoid函数

引入交叉熵代价函数

BP神经网络——交叉熵作代价函数的更多相关文章

随机推荐

热门专题