深度神经网络算法,是基于神经网络算法的一种拓展,其层数更深,达到多层,本文以简单神经网络为例,利用梯度下降算法进行反向更新来训练神经网络权重和偏向参数,文章最后,基于Python
库实现了一个简单神经网络算法程序,并对异或运算和0-9字符集进行预测。

一、问题引入

  利用如下图像结构,通过训练集对其参数进行训练,当有新的测试数据时,通过更新函数,获得正确的预测值,更新函数方程为:

    Oij
= activation(sum(xi*wij)+bij)

  图中为简单的两层神经网络结构,4,5对应的为隐藏层,6为输出层,
activation代表激活函数,常用的有logistic和tanh函数,b称为偏向。

二、神经网络正向更新和反向更新规则介绍

  对于正向更新:

    Oij
= activation(sum(xi*wij)+bij)

  对于反向更新:

    对于输出层:Errj
= activation_derivate(Oj)*(Tj-Oj)

    对于隐藏层:Errj
= activation_derivate(Oj)*sum(Errk*Wjk)

    delta(Wij)
= l*Errj*Oij

    delta(bj)
= l*Errj

    wij
= wij
+ delta(wij)

    bj
= bj
+ delta(bj)

  其中:

    j代表第j层

    k代表输出层

    T代表实际标记值

    O代表输出值

    activation代表激活函数,常用的有logistic和tanh函数

    activation_derivate代表激活函数的倒数

三、一个简单神经网络的数学运算实例

  我们以一个3×2×1神经网络为例,说明如何利用正向更新和反向更新来训练神经网络,完成一次更新:

aaarticlea/png;base64," alt="" name="图像1" width="387" height="180" align="left" />

x1

x2

x3

w14

w15

w24

w25

w34

w35

w46

w56

b4

b5

b6

1

0

1

0.2

-0.3

0.4

0.1

-0.5

0.2

-0.3

-0.2

-0.4

-0.2

0.1

  同时,我们设定学习率l=0.9,实际输出值为1

import numpy as np
x1 = 1
x2 = 0
x3 = 1
w14 = 0.2
w15 = -0.3
w24 = 0.4
w25 = 0.1
w34 = -0.5
w35 = 0.2
w46 = -0.3
w56 = -0.2
b4 = -0.4
b5 = 0.2
b6 = 0.1
l = 0.9
t = 1 # 定义activation函数和倒数
def logistic(x):
return 1/(1+np.exp(-x)) def logistic_derivate(x):
return x*(1-x) # 正向更新
z4 = x1*w14 + x2*w24 + x3*w34 + b4
z5 = x1*w15 + x2*w25 + x3*w35 + b5
O4 = logistic(z4)
O5 = logistic(z5)
z6 = O4*w46 + O5 * w56 + b6
O6 = logistic(z6)
print(O4,O5,O6)
结果:0.331812227832 0.524979187479 0.473888898824
# 求取各个神经元节点误差值
E6 = logistic_derivate(O6)*(t-O6)
E5 = logistic_derivate(O5)*E6*w56
E4 = logistic_derivate(O4)*E6*w46
print(E6,E5,E4)
结果:0.131169078214 -0.00654208506417 -0.00872456196543
# 反向更新权重和偏向
w46 = w46 + l*E6*O4
w56 = w56 + l*E6*O5
w14 = w14 + l*E4*x1
w24 = w14 + l*E4*x2
w34 = w34 + l*E4*x3
w15 = w15 + l*E5*x1
w25 = w25 + l*E5*x2
w35 = w35 + l*E5*x3
print(w46,w56,w14,w15,w24,w25,w34,w35)
结果:-0.260828846342 -0.138025067507 0.192147894231 -0.305887876558 0.192147894231 0.1 -0.507852105769 0.194112123442
b4 = b4 + l*E4
b5 = b5 + l*E5
b6 = b6 + l*E6
print(b4,b5,b6)
结果:-0.407852105769 0.194112123442 0.21805217039

四、简单神经网络算python实现程序

  介绍程序前,首先引入一个矩阵点乘基本运算

import numpy as np

# 一维矩阵

a = np.arange(0,9)

print(a)

b = a[::-1]

print(b)

print(np.dot(a,b))

# 二维矩阵

a = np.arange(1,5).reshape(2,2)

print(a)

b = np.arange(5,9).reshape(2,2)

print(b)

c = np.dot(a,b)

print(c)

结果:

[0 1 2 3 4 5 6 7 8]

[8 7 6 5 4 3 2 1 0]

84

[[1 2]

[3 4]]

[[5 6]

[7 8]]

[[19 22]

[43 50]]

  在实际编程过程中,引入7,8节点来代替偏向的作用,省去了计算偏向的过程,此时所有其它节点偏向为0,简化代码编程实现,下面式代码实例:

  aaarticlea/png;base64," alt="" name="图像3" width="380" height="234" align="left" />

  

import numpy as np

# 定义两个sigmoid函数及其倒数
def tanh(x):
return np.tanh(x) def tanh_derivative(x):
return 1.0 - np.tanh(x)*np.tanh(x) def logistic(x):
return 1/(1 + np.exp(-x)) def logistic_derivative(x):
return logistic(x)*(1-logistic(x)) # 定义一个简单神经网络类
class NeuralNetwork:
def __init__(self,layers,activation = 'tanh'):
'''
layers:定义神经网络各层神经元的个数,例如[10,10,3]表示3层神经网络,第一层10个神经元,以此类推
activation:定义神经网络的激活函数,可选值(tanh,logistic)
'''
if activation == 'logistic':
self.activation = logistic
self.activation_deriv = logistic
elif activation == 'tanh':
self.activation = tanh
self.activation_deriv = tanh_derivative # 定义并初始化权重,怎么初始化?
self.weights = []
for i in range(1,len(layers) - 1):
self.weights.append((2*np.random.random((layers[i-1] + 1,layers[i] + 1))-1)*0.25)
self.weights.append((2*np.random.random((layers[i] + 1,layers[i+1]))-1)*0.25) # 训练
def fit(self,X,y,learning_rate = 0.2,epochs = 10000):
X = np.atleast_2d(X)
temp = np.ones([X.shape[0],X.shape[1] + 1])
temp[:,0:-1] = X
X = temp
y = np.array(y) # 使用抽样梯度算法
for k in range(epochs):
# 从所有样本中,随机取一行
i = np.random.randint(X.shape[0])
a = [X[i]] # 完成正向的所有更新
for l in range(len(self.weights)):
a.append(self.activation(np.dot(a[l],self.weights[l]))) # 计算输出层错误率
error = y[i] - a[-1]
deltas = [error*self.activation_deriv(a[-1])] # 计算隐藏层
for l in range(len(a) -2,0,-1):
deltas.append(deltas[-1].dot(self.weights[l].T)*self.activation_deriv(a[l]))
deltas.reverse() # 反向更新权重
for i in range(len(self.weights)):
layer = np.atleast_2d(a[i])
delta = np.atleast_2d(deltas[i])
self.weights[i] += learning_rate * layer.T.dot(delta) # 预测,即正向更新过程
def predict(self,x):
x = np.array(x)
temp = np.ones(x.shape[0] + 1)
temp[0:-1] = x
a= temp for l in range(0,len(self.weights)):
a = self.activation(np.dot(a,self.weights[l]))
return a

五、利用神经网络进行异或运算预测

from SimplyNeuralNetwork import NeuralNetwork
import numpy as np nn = NeuralNetwork([2,2,1],'tanh') # 验证异或逻辑
x = np.array([[0,0],[0,1],[1,0],[1,1]])
y = np.array([0,1,1,0])
nn.fit(x,y)
for i in [0,0],[0,1],[1,0],[1,1]:
print(i,nn.predict(i))

  如下倒数4行为预测结果,根据异或运算,和实际结果一致:

六、利用神经网络进行0-9数字预测

import numpy as np
from sklearn.datasets import load_digits
from sklearn.metrics import confusion_matrix,classification_report
from sklearn.preprocessing import LabelBinarizer
from SimplyNeuralNetwork import NeuralNetwork
from sklearn.cross_validation import train_test_split digits = load_digits()
X = digits.data
y = digits.target # 将测试样本值转换为0-1之间的值
X -=X.min()
X /= X.max() nn = NeuralNetwork([64,100,10],'logistic')
X_train,X_test,y_train,y_test = train_test_split(X,y)
labels_train = LabelBinarizer().fit_transform(y_train)
print(y_train)
print(labels_train)
labels_test = LabelBinarizer().fit_transform(y_test)
print("start fitting") nn.fit(X_train,labels_train,epochs = 3000)
predictions = [] for i in range(X_test.shape[0]):
o = nn.predict(X_test[i])
predictions.append(np.argmax(o)) print(confusion_matrix(y_test,predictions))
print(classification_report(y_test, predictions))

  如下对角线表示预测成功的记录数,最下方表示预测成功率统计数据,数据显示,成功率93%,预测效果已经很好:

day-11 python自带库实现2层简单神经网络算法的更多相关文章

  1. day-9 sklearn库和python自带库实现最近邻KNN算法

    K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...

  2. day-8 python自带库实现ID3决策树算法

    前一天,我们基于sklearn科学库实现了ID3的决策树程序,本文将基于python自带库实现ID3决策树算法. 一.代码涉及基本知识 1. 为了绘图方便,引入了一个第三方treePlotter模块进 ...

  3. python自带库及第三方库api察看

    今天发现一个很有意思的功能,python自带了所有库的文档查看器,配置如下: 配置pydoc服务,cmd中输入如下代码: python –m pydoc –p 1234 回车后 ,使用过程中,该窗口不 ...

  4. 升级python的sqlite库版本

    今天了解了一下用python获取chrome cookie信息,在研究的过程中,发现打开数据库失败,后来调查了一下发现是由于sqlite3库太老的缘故,起码需要3.8以上,然后看了一下python 2 ...

  5. python自带的web服务器

    python自带的web服务器 python自带的包可以建立简单的web服务器 BaseHTTPServer 提供基本的web服务和处理类 SimpleHTTPServer 包含执行get请求的Sim ...

  6. 关于python 自带csv库的使用心得 附带操作实例以及excel下乱码的解决

    因为上次帮我们产品处理过一个文件,他想生成能excel处理操作的.但是上次由于时间非常紧张,所以并没有处理好. 正好无聊就来好好研究一下 ,找算法要了几个 csv文件.来好好玩一玩. 全篇使用了pyt ...

  7. python面试题库——3数据库和缓存

    第三部分 数据库和缓存(46题) 列举常见的关系型数据库和非关系型都有那些? 关系型数据库: Oracle.DB2.Microsoft SQL Server.Microsoft Access.MySQ ...

  8. Python 的 Numpy 库

    Numpy: # NumPy库介绍 # NumPy的安装 #  NumPy系统是Python的一种开源的数值计算扩展 #  可用来存储和处理大型矩阵. #  因为不是Python的内嵌模块,因此 ...

  9. 【转】使用Python的Requests库进行web接口测试

    原文地址:使用Python的Requests库进行web接口测试 1.Requests简介 Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写, ...

随机推荐

  1. [译]GLUT教程 - 安装

    Lighthouse3d.com >> GLUT Tutorial >> Basics >> Setup 你需要什么 要用GLUT库开发程序,你可以下载最新版本3. ...

  2. JVM构架、GC垃圾回收机制的理解

     JVM是Java Virtual Machine(Java虚拟机)的缩写 1.程序计数器 它的作用可以看做是当前线程所执行的字节码的行号指示器. 每个线程都有一个程序计算器,就是一个指针,指向方法区 ...

  3. onsubmit校验表单时利用ajax的return false无效解决方法

    代码: function checkNewEmail(){ var re_email=new RegExp("\\w+@\\w+\\.\\w+\\.?\\w*"); var new ...

  4. iOS开发 | 自定义不规则label

    其中有一个不太规则的label:   image.png 这个label顶部的两个角是圆角,底部的两个角是直角,底部还有一个小三角. 思路 CAShapeLayer联合UIBezierPath画一个不 ...

  5. 最长公共子序列Lcs (51Nod - 1006)

    20180604   11:28   给出两个字符串A B,求A与B的最长公共子序列(子序列不要求是连续的).   比如两个串为:   abcicba abdkscab   ab是两个串的子序列,ab ...

  6. 19-2-28Python的了解以及变量、常量、数据类型、if语句的结构

    Python目前有两个大版本,一个是2.x版本,一个是3.x版本. Python2x:源码冗余,混乱:且默认ASCII码,只能识别英文字母数字. Python3x:源码整合,美观,清晰,简单.默认ut ...

  7. js实现区县联动

    1. 引入区县联动函数如下,将provinceList中数据改为需要联动的数据信息 var addressInit = function(_cmbProvince, _cmbCity, _cmbAre ...

  8. 【tp5.1】composer安装PHPExcel以及导入\导出Excel

    一.安装PHPExcel 1.下载:PHPExcel  https://github.com/PHPOffice/PHPExcel 2.解压后:Classes文件夹改名为PHPExcel 3.把文件夹 ...

  9. 第三章 最简单的C程序设计——顺序程序设计

    一.数据的表现形式及其运算 1.常量和变量 在计算机高级语言中,数据有两种表现形式:常量和变量. 1.1.常量 在程序运行过程中,其值不能被改变的量称为常量.如:5,6,32,0.111. 数值常量就 ...

  10. HyperLedger Fabric 1.4 交易流程(6.3)

    区块链最主要的特性之一是去中心化,没有了中心机构的集中处理,为了达成数据的一致性,就需要网络中全民参与管理,并以某种方法达成共识,所以区块链的交易流程也就是共识的过程.       在Fabric中, ...