TensorFlow 支持自动求导,可以使用 TensorFlow 优化器来计算和使用梯度.它使用梯度自动更新用变量定义的张量.本节将使用 TensorFlow 优化器来训练网络. 前面章节中,我们定义了层.权重.损失.梯度以及通过梯度更新权重.用公式实现可以帮助我们更好地理解,但随着网络层数的增加,这可能非常麻烦. 本节将使用 TensorFlow 的一些强大功能,如 Contrib(层)来定义神经网络层及使用 TensorFlow 自带的优化器来计算和使用梯度. 通过前面的学习,我们已经知道…
Hornik 等人的工作(http://www.cs.cmu.edu/~bhiksha/courses/deeplearning/Fall.2016/notes/Sonia_Hornik.pdf)证明了一句话,“只有一个隐藏层的多层前馈网络足以逼近任何函数,同时还可以保证很高的精度和令人满意的效果.” 本节将展示如何使用多层感知机(MLP)进行函数逼近,具体来说,是预测波士顿的房价.第2章使用回归技术对房价进行预测,现在使用 MLP 完成相同的任务. 准备工作 对于函数逼近,这里的损失函数是 M…
深度前馈网络(前馈神经网络,多层感知机) 神经网络基本概念 前馈神经网络在模型输出和模型本身之间没有反馈连接;前馈神经网络包含反馈连接时,称为循环神经网络. 前馈神经网络用有向无环图表示. 设三个函数组成的链:\(f_3(f_2(f_1))\),$f_1$为网络第一层,叫输入层.$f_2$为第二层,依次类推,中间层叫做隐藏层.最后一层为输出层.链的全长称为模型的深度. 每个隐藏层都有张量值,这些隐藏层的维数为模型的宽度. 概念 解释 输入层 网络的第一层 隐藏层 网络的中间N层 输出层 网络的最…
反向传播(BPN)算法是神经网络中研究最多.使用最多的算法之一,它用于将输出层中的误差传播到隐藏层的神经元,然后用于更新权重. 学习 BPN 算法可以分成以下两个过程: 正向传播:输入被馈送到网络,信号从输入层通过隐藏层传播到输出层.在输出层,计算误差和损失函数. 反向传播:在反向传播中,首先计算输出层神经元损失函数的梯度,然后计算隐藏层神经元损失函数的梯度.接下来用梯度更新权重. 这两个过程重复迭代直到收敛. 前期准备 首先给网络提供 M 个训练对(X,Y),X 为输入,Y 为期望的输出.输入…
最近十年以来,神经网络一直处于机器学习研究和应用的前沿.深度神经网络(DNN).迁移学习以及计算高效的图形处理器(GPU)的普及使得图像识别.语音识别甚至文本生成领域取得了重大进展. 神经网络受人类大脑的启发,也被称为连接模型.像人脑一样,神经网络是大量被称为权重的突触相互连接的人造神经元的集合. 就像我们通过年长者提供的例子来学习一样,人造神经网络通过向它们提供的例子来学习,这些例子被称为训练数据集.有了足够数量的训练数据集,人造神经网络可以提取信息,并用于它们没有见过的数据. 神经网络并不是…
高中数学学过,函数在一阶导数为零的地方达到其最大值和最小值.梯度下降算法基于相同的原理,即调整系数(权重和偏置)使损失函数的梯度下降. 在回归中,使用梯度下降来优化损失函数并获得系数.本节将介绍如何使用 TensorFlow 的梯度下降优化器及其变体. 按照损失函数的负梯度成比例地对系数(W 和 b)进行更新.根据训练样本的大小,有三种梯度下降的变体: Vanilla 梯度下降:在 Vanilla 梯度下降(也称作批梯度下降)中,在每个循环中计算整个训练集的损失函数的梯度.该方法可能很慢并且难以…
每个神经元都必须有激活函数.它们为神经元提供了模拟复杂非线性数据集所必需的非线性特性.该函数取所有输入的加权和,进而生成一个输出信号.你可以把它看作输入和输出之间的转换.使用适当的激活函数,可以将输出值限定在一个定义的范围内. 如果 xi 是第 j 个输入,Wj 是连接第 j 个输入到神经元的权重,b 是神经元的偏置,神经元的输出(在生物学术语中,神经元的激活)由激活函数决定,并且在数学上表示如下:   这里,g 表示激活函数.激活函数的参数 ΣWjxj​+b 被称为神经元的活动. 这里对给定输…
Keras 是与 TensorFlow 一起使用的更高级别的作为后端的 API.添加层就像添加一行代码一样简单.在模型架构之后,使用一行代码,你可以编译和拟合模型.之后,它可以用于预测.变量声明.占位符甚至会话都由 API 管理. 具体做法 定义模型的类型.Keras 提供了两种类型的模型:序列和模型类 API.Keras 提供各种类型的神经网络层:   在 model.add() 的帮助下将层添加到模型中.依照 Keras 文档描述,Keras 提供全连接层的选项(针对密集连接的神经网络):…
本节基于回归学习对 MNIST 数据集进行处理,但将添加一些 TensorBoard 总结以便更好地理解 MNIST 数据集. MNIST由https://www.tensorflow.org/get_started/mnist/beginners提供. 大部分人已经对 MNIST 数据集很熟悉了,它是机器学习的基础,包含手写数字的图像及其标签来说明它是哪个数字. 对于逻辑回归,对输出 y 使用独热(one-hot)编码.因此,有 10 位表示输出,每位的值为 1 或 0,独热意味着对于每个图片…
大多数人了解 Pandas 及其在处理大数据文件方面的实用性.TensorFlow 提供了读取这种文件的方法. 前面章节中,介绍了如何在 TensorFlow 中读取文件,本节将重点介绍如何从 CSV 文件中读取数据并在训练之前对数据进行预处理. 本节将采用哈里森和鲁宾菲尔德于 1978 年收集的波士顿房价数据集(http://lib.stat.cmu.edu/datasets/boston),该数据集包括 506 个样本场景,每个房屋含 14 个特征: CRIM:城镇人均犯罪率 ZN:占地 2…