TensorFlow笔记-05-反向传播,搭建神经网络的八股
TensorFlow笔记-05-反向传播,搭建神经网络的八股
反向传播
- 反向传播:
- 训练模型参数,在所有参数上用梯度下降,使用神经网络模型在训练数据上的损失函数最小
- 损失函数:(loss)
- 计算得到的预测值 y 与已知答案 y_ 差距
- 损失函数的计算有很多方法,均方误差MSE是比较常用的方法之一
- 关于损失函数,会在下一篇仔细讲
- 均方误差:
- 求前向传播计算结果与已知答案之差的平方再求平均
- 用 Tensorflow 函数表示:
- loss = tf.reduce_mean(tf.square(y-y_))
- 求前向传播计算结果与已知答案之差的平方再求平均
- 反向传播训练方法:
- 以减小 loss 值为优化目标,有梯度下降,moment 优化器,adm 优化器等优化方法
- 这三种优化方法分别是:
- train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss)
- train_step = tf.train.GMomentumOptimizer(0.001, 0.9).minimize(loss)
- train_step = tf.train.AdamOptimizer(0.001).minimize(loss)
搭建神经网络的八股
- 先回顾神经网络的实现过程,可以总结出:神经网络的搭建分4步:
- 1.准备工作
- 2.前向传播
- 3.反向传播
- 4.循环迭代
回顾一下,帮助理解
- 1.准备数据,提取特征,作为输入喂给神经网络
- 2.搭建神经网络结构,从输入到输出(先搭建计算图,再用会话执行)
(NN前向传播算法===>计算输出) - 3.大量特征数据喂给NN,迭代优化NN参数
(NN反向传播算法===>优化参数训练模型) - 4.使用训练好的模型,预测和分类
- 通过源代码,进一步理解 神经网络的实现过程
案例及代码
- 例子:随机产生32组生产出的零件的体积和重量,训练3000轮,每500轮输出一次损失函数
- 代码06文件:https://xpwi.github.io/py/TensorFlow/tf06.py
# coding:utf-8
# 导入模块,生成随机数据集
import tensorflow as tf
# 导入numpy模块,numpy是python的科学计算模块
import numpy as np
# 一次喂入神经网络多少组数据,数值不可以过大
BATCH_SIZE = 8
seed = 23455
# 基于seed产生随机数
rng = np.random.RandomState(seed)
# 随机数返回32行2列的矩阵 表示32组 体积和重量 作为输入数据集
X = rng.rand(32, 2)
# 从32行2列的矩阵中 去除一行判断如果和小于1 给Y赋值1 如果和不小于1 给Y赋值0
# 作为输入数据集的标签(正确答案)
Y = [[int(x0 + x1 <1)] for (x0, x1) in X]
print("X:\n", X)
print("Y:\n", Y)
# 定义神经网络的输入,参数和输出,定义前向传播过程
x = tf.placeholder(tf.float32, shape=(None, 2))
# y_即为0或1
y_ = tf.placeholder(tf.float32, shape=(None, 1))
# w1为2行3列
w1 = tf.Variable(tf.random_normal([2, 3], stddev=1, seed=1))
w2 = tf.Variable(tf.random_normal([3, 1], stddev=1, seed=1))
# matmul矩阵相乘
a = tf.matmul(x, w1)
y = tf.matmul(a, w2)
# 定义损失函数及反向传播方法
loss = tf.reduce_mean(tf.square(y-y_))
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss)
# 其他优化方法
# train_step = tf.train.GMomentumOptimizer(0.001, 0.9).minimize(loss)
# train_step = tf.train.AdamOptimizer(0.001).minimize(loss)
# 生成会话,训练STEPS轮
with tf.Session() as sess:
init_op = tf.global_variables_initializer()
sess.run(init_op)
# 输出目前(未经训练)的参数取值
print("w1:\n", sess.run(w1))
print("w2:\n", sess.run(w2))
print("\n")
# 训练模型3000轮
STEPS = 3000
for i in range(STEPS):
start = (i*BATCH_SIZE) % 32
end = start + BATCH_SIZE
sess.run(train_step, feed_dict={x: X[start:end], y_: Y[start:end]})
# 没500轮打印一次loss值
if i % 500 == 0:
total_loss = sess.run(loss, feed_dict={x: X, y_: Y})
print("After %d training step(s), loss on all data is %g" %(i, total_loss))
# 输出训练后的参数取值
print("\n")
print("w1:\n", sess.run(w1))
print("w2:\n", sess.run(w2))
运行结果
X:
[[0.83494319 0.11482951]
[0.66899751 0.46594987]
[0.60181666 0.58838408]
[0.31836656 0.20502072]
[0.87043944 0.02679395]
[0.41539811 0.43938369]
........
[0.10409134 0.88235166]
[0.06727785 0.57784761]
[0.38492705 0.48384792]
[0.69234428 0.19687348]
[0.42783492 0.73416985]
[0.09696069 0.04883936]]
Y:
[[1], [0], [0], [1], [1], [1], [1], [0], [1], [1], [1], [0], [0], [0], [0], [0], [0], [1], [0], [0], [1], [1], [0], [1], [0], [1], [1], [1], [1], [1], [0], [1]]
w1:
[[-0.8113182 1.4845988 0.06532937]
[-2.4427042 0.0992484 0.5912243 ]]
w2:
[[-0.8113182 ]
[ 1.4845988 ]
[ 0.06532937]]
# 可以看到loss逐渐减小
After 0 training step(s), loss on all data is 5.13118
After 500 training step(s), loss on all data is 0.429111
After 1000 training step(s), loss on all data is 0.409789
After 1500 training step(s), loss on all data is 0.399923
After 2000 training step(s), loss on all data is 0.394146
After 2500 training step(s), loss on all data is 0.390597
w1:
[[-0.7000663 0.91363174 0.0895357 ]
[-2.3402493 -0.14641264 0.58823055]]
w2:
[[-0.06024268]
[ 0.91956186]
[-0.06820709]]
运行结果分析
由神经网路的实现结果,我们可以看出,总共训练3000轮,每轮从X的数据集合Y的标签中抽取相对应的从start开始到end结束个特征值和标签,喂入神经网络,用sess,run求出loss,没500轮打印一次loss值,经过3000轮后我们打印出最终训练好的参数w1, w2
搭建神经网络的八股
- 搭建神经网络的八股:准备,前向传播,反向传播,迭代
- 以上面的代码为例
- (1)准备
- 1.import
- 2.常量定义
- 3.生成数据集
- (2)前向传播: 定义输入,参数和输出
- x =
- y_ =
- w1 =
- w2 =
- a =
- y =
- (3)反向传播:定义损失函数,反向传播的方法
- loss =
- train_step =
- (4)在with中完成迭代,生成会话,训练STEPS轮
with tf.Session() as sess:
init_op = tf.global_variables_initializer()
sess.run(init_op)
# 训练模型3000轮
STEPS = 3000
for i in range(STEPS):
start = (i*BATCH_SIZE) % 32
end = start + BATCH_SIZE
sess.run(train_step, feed_dict={x: X[start:end], y_: Y[start:end]})
# 没500轮打印一次loss值
if i % 500 == 0:
total_loss = sess.run(loss, feed_dict={x: X, y_: Y})
print("After %d training step(s), loss on all data is %g" %(i, total_loss))
这样4步就可以实现神经网络的搭建了
更多文章链接:Tensorflow 笔记
- 本笔记不允许任何个人和组织转载
TensorFlow笔记-05-反向传播,搭建神经网络的八股的更多相关文章
- tensorflow笔记之反向传播时用到的几种方法
1. 梯度下降, tf.train.GradientDescentOptimizer(0.05),梯度下降的问题在与不一定能获得全局最优解,并且因为要在所有数据上最小化损失,所以损失函数是在所有训练数 ...
- tensorflow学习笔记(2)-反向传播
tensorflow学习笔记(2)-反向传播 反向传播是为了训练模型参数,在所有参数上使用梯度下降,让NN模型在的损失函数最小 损失函数:学过机器学习logistic回归都知道损失函数-就是预测值和真 ...
- Tensorflow笔记——神经网络图像识别(一)前反向传播,神经网络八股
第一讲:人工智能概述 第三讲:Tensorflow框架 前向传播: 反向传播: 总的代码: #coding:utf-8 #1.导入模块,生成模拟数据集 import t ...
- 【pytorch】学习笔记(四)-搭建神经网络进行关系拟合
[pytorch学习笔记]-搭建神经网络进行关系拟合 学习自莫烦python 目标 1.创建一些围绕y=x^2+噪声这个函数的散点 2.用神经网络模型来建立一个可以代表他们关系的线条 建立数据集 im ...
- CS231n 2016 通关 第四章-反向传播与神经网络(第一部分)
在上次的分享中,介绍了模型建立与使用梯度下降法优化参数.梯度校验,以及一些超参数的经验. 本节课的主要内容: 1==链式法则 2==深度学习框架中链式法则 3==全连接神经网络 =========== ...
- Cs231n课堂内容记录-Lecture 4-Part1 反向传播及神经网络
反向传播 课程内容记录:https://zhuanlan.zhihu.com/p/21407711?refer=intelligentunit 雅克比矩阵(Jacobian matrix) 参见ht ...
- 【TensorFlow篇】--反向传播
一.前述 反向自动求导是 TensorFlow 实现的方案,首先,它执行图的前向阶段,从输入到输出,去计算节点值,然后是反向阶段,从输出到输入去计算所有的偏导. 二.具体 1.举例 图是第二个阶段,在 ...
- Nginx学习笔记(反向代理&搭建集群)
一.前言 1.1 大型互联网架构演变历程 1.1.1 淘宝技术 淘宝的核心技术(国内乃至国际的 Top,这还是2011年的数据) 拥有全国最大的分布式 Hadoop 集群(云梯,2000左右节点,24 ...
- 20180929 北京大学 人工智能实践:Tensorflow笔记05
(完)
随机推荐
- php--------删除一个路径下的所有文件夹和文件
php遍历一个文件夹内的所有文件和文件夹,并删除所有文件夹和子文件夹下的所有文件的代码,通过递归方式实现达到清空一个目录的效果,代码简单实用. 也适合在thinkphp中清理缓存,在thinkphp中 ...
- AC自动机练习
多模板串匹配一般有两种方法 暴力kmp, 适用于模板串少的情形 直接trie上暴力, 适用于模板串比较短的情形, 并且可以动态插入合并 建立AC自动机, 复杂度是严格线性的, 但不能动态插入 cons ...
- P4721 【模板】分治 FFT
其实是分治ntt,因为fft会爆精度,真*裸题 分治过程和fft的一模一样,主要就是ntt精度高,用原根来代替fft中的\(w_n^k\) 1.定义:设m>1,(a,m)==1,满足\(a^r= ...
- Java使用FFmpeg处理视频文件指南
Java使用FFmpeg处理视频文件指南 本文主要讲述如何使用Java + FFmpeg实现对视频文件的信息提取.码率压缩.分辨率转换等功能: 之前在网上浏览了一大圈Java使用FFmpeg处理音视频 ...
- ccfZ字形扫描
问题描述 在图像编码的算法中,需要将一个给定的方形矩阵进行Z字形扫描(Zigzag Scan).给定一个n×n的矩阵,Z字形扫描的过程如下图所示: 对于下面的4×4的矩阵, 1 5 3 9 3 7 5 ...
- MVC5 学习笔记 controller
主要参考书籍<ASP.NET MVC5 高级编程(第5版) > 作者:Jon Galloway等 1. MVC 表示 模型-视图-控制器.MVC是一种用于开发应用程序的模式,具备良好的架构 ...
- 使用Div + CSS布局页面
在设计网页时,能够控制好各个模块在页面中的位置是非常关键的.本章将讲解利用Div+CSS对页面元素进行定位的方法. Div是HTML中指定的专门用于布局设计的容器对象 Div是CSS布局的核心对象. ...
- spring中@Scope作用域的注解
@Scope简单点说就是用来指定bean的作用域 官方解释是:scope用来声明IOC容器中的对象应该处的限定场景或者说该对象的存活空间,即在IOC容器在对象进入相应的scope之前,生成并装配这些对 ...
- POJ 1008 简单模拟题
e.... 虽然这是一道灰常简单的模拟题.但是米做的时候没有读懂第二个日历的计时方法.然后捏.敲完之后华丽的WA了进一个点.坑点就在一年的最后一天你是该输出本年的.e ...但是我好想并没有..看di ...
- javaweb web.xml版本
web.xml版本的xsd分为如下几个版本 web-app_2_2.xsd web-app_2_3.xsd web-app_2_4.xsd web-app_2_5.xsd .... web-app_3 ...