对比学习用 Keras 搭建 CNN RNN 等常用神经网络
Keras 是一个兼容 Theano 和 Tensorflow 的神经网络高级包, 用他来组件一个神经网络更加快速, 几条语句就搞定了. 而且广泛的兼容性能使 Keras 在 Windows 和 MacOS 或者 Linux 上运行无阻碍.
今天来对比学习一下用 Keras 搭建下面几个常用神经网络:
- 回归
- RNN回归
- 分类
- CNN分类
- RNN分类
- 自编码分类
它们的步骤差不多是一样的:
- [导入模块并创建数据]
- [建立模型]
- [定义优化器]
- [激活模型]
- [训练模型]
- [检验模型]
- [可视化结果]
为了对比学习,用到的数据也差不多是一样的,
所以本文只把注意力放在 2. [建立模型] 上面,其它步骤大同小异,可以去参考里提到的教学网站观看或者直接看源代码。
1. 回归
目的是对一组数据进行拟合。
1. 用 Sequential 建立 model
2. 再用 model.add 添加神经层,添加的是 Dense 全连接神经层。
参数有两个,一个是输入数据和输出数据的维度,本代码的例子中 x 和 y 是一维的。
如果需要添加下一个神经层的时候,不用再定义输入的纬度,因为它默认就把前一层的输出作为当前层的输入。在这个例子里,只需要一层就够了。
# build a neural network from the 1st layer to the last layer
model = Sequential()
model.add(Dense(output_dim=1, input_dim=1))
2. RNN回归
我们要用 sin 函数预测 cos 数据,会用到 LSTM 这个网络。
1. 搭建模型,仍然用 Sequential。
2. 然后加入 LSTM 神经层。
- batch_input_shape 就是在后面处理批量的训练数据时它的大小是多少,有多少个时间点,每个时间点有多少个数据。
- output_dim 意思是 LSTM 里面有二十个 unit。
- return_sequences 意思是在每个时间点,要不要输出output,默认的是 false,现在我们把它定义为 true。如果等于 false,就是只在最后一个时间点输出一个值。
- stateful,默认的也是 false,意义是批和批之间是否有联系。直观的理解就是我们在读完二十步,第21步开始是接着前面二十步的。也就是第一个 batch中的最后一步与第二个 batch 中的第一步之间是有联系的。
3. 有个不同点是 TimeDistributed。
在上一个回归问题中,我们是直接加 Dense 层,因为只在最后一个输出层把它变成一个全连接层。
今天这个问题是每个时间点都有一个 output,那需要 dense 对每一个 output 都进行一次全连接的计算。
model = Sequential()
# build a LSTM RNN
model.add(LSTM(
batch_input_shape=(BATCH_SIZE, TIME_STEPS, INPUT_SIZE), # Or: input_dim=INPUT_SIZE, input_length=TIME_STEPS,
output_dim=CELL_SIZE,
return_sequences=True, # True: output at all steps. False: output as last step.
stateful=True, # True: the final state of batch1 is feed into the initial state of batch2
))
# add output layer
model.add(TimeDistributed(Dense(OUTPUT_SIZE)))
adam = Adam(LR)
model.compile(optimizer=adam,
loss='mse',)
3. 分类
数据用的是 Keras 自带 MNIST 这个数据包,再分成训练集和测试集。x 是一张张图片,y 是每张图片对应的标签,即它是哪个数字。
简单介绍一下相关模块:
- models.Sequential,用来一层一层一层的去建立神经层;
- layers.Dense 意思是这个神经层是全连接层。
- layers.Activation 激活函数。
- optimizers.RMSprop 优化器采用 RMSprop,加速神经网络训练方法。
import numpy as np
np.random.seed(1337) # for reproducibility
from keras.datasets import mnist
from keras.utils import np_utils
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.optimizers import RMSprop
在回归网络中用到的是 model.add 一层一层添加神经层,今天的方法是直接在模型的里面加多个神经层。好比一个水管,一段一段的,数据是从上面一段掉到下面一段,再掉到下面一段。
- 第一段就是加入 Dense 神经层。32 是输出的维度,784 是输入的维度。
第一层传出的数据有 32 个feature,传给激活单元. - 激活函数用到的是 relu 函数。
经过激活函数之后,就变成了非线性的数据。 - 然后再把这个数据传给下一个神经层,这个 Dense 我们定义它有 10 个输出的 feature。同样的,此处不需要再定义输入的维度,因为它接收的是上一层的输出。
- 接下来再输入给下面的 softmax 函数,用来分类。
# Another way to build your neural net
model = Sequential([
Dense(32, input_dim=784),
Activation('relu'),
Dense(10),
Activation('softmax'),
])
4. CNN分类
数据仍然是用 mnist。
1. 建立网络第一层,建立一个 Convolution2D,参数有 filter 的数量。
- filter 就是滤波器,用32个滤波器扫描同一张图片,每个滤波器会总结出一个 feature。每个滤波器会生成一整张图片,有32个滤波器就会生成32张代表不同特征的图片,
- nb_row nb_col 代表这个滤波器有多少行多少列。
- border_mode 代表这个滤波器在过滤时候用什么方式,这里我们用 same。
因为是第一层,所以需要定义输入数据的维度,1, 28, 28 就是图片图片的维度。
滤波器完成之后,会生成32层的数据,但是图片的长和宽是不变的,仍然是28×28。 - 之后再加一个 relu 激活函数。
# Another way to build your CNN
model = Sequential() # Conv layer 1 output shape (32, 28, 28)
model.add(Convolution2D(
nb_filter=32,
nb_row=5,
nb_col=5,
border_mode='same', # Padding method
dim_ordering='th', # if use tensorflow, to set the input dimension order to theano ("th") style, but you can change it.
input_shape=(1, # channels
28, 28,) # height & width
))
model.add(Activation('relu'))
2. Pooling 是一个向下取样的过程.
它可以缩小生成出来的长和宽,高度不需要被压缩。
- pool_size 是向下取样的时候,考虑多长多宽的图片。
- strides 步长,是取完一个样之后要跳几步再取样,再跳几步再取样。
# Pooling layer 1 (max pooling) output shape (32, 14, 14)
model.add(MaxPooling2D(
pool_size=(2, 2),
strides=(2, 2),
border_mode='same', # Padding method
))
3. 接下来建立第二个神经层
- 有 64 个 filter,5, 5 的长宽,再跟着一个激活函数。
- 再跟着一个 MaxPooling2D 取样。
# Conv layer 2 output shape (64, 14, 14)
model.add(Convolution2D(64, 5, 5, border_mode='same'))
model.add(Activation('relu')) # Pooling layer 2 (max pooling) output shape (64, 7, 7)
model.add(MaxPooling2D(pool_size=(2, 2), border_mode='same'))
4. 接下来进入全联接层
- 用 Flatten 把卷出来的三维的层,抹平成二维的。
- 接下来就加一个 Dense 全联接层,抹平就是为了可以把这一个一个点全连接成一个层.
- 接着再加一个激活函数。
# Fully connected layer 1 input shape (64 * 7 * 7) = (3136), output shape (1024)
model.add(Flatten())
model.add(Dense(1024))
model.add(Activation('relu'))
5. 在第二个全连接层,输出 10 个 unit, 用 softmax 作为分类。
# Fully connected layer 2 to shape (10) for 10 classes
model.add(Dense(10))
model.add(Activation('softmax'))
5. RNN分类
RNN 是一个序列化的神经网,我们处理图片数据的时候,也要以序列化的方式去考虑。
图片是由一行一行的像素组成,我们就一行一行地去序列化地读取数据。最后再进行一个总结,来决定它到底是被分辨成哪一类。
用到的参数含义:
- TIME_STEPS 是要读取多少个时间点的数据,如果一次读一行需要读28次。
- INPUT_SIZE 每次每一行读取多少个像素。
- BATCH_SIZE 每一批训练多少张。
- BATCH_INDEX 用来生成数据。
- OUTPUT_SIZE 分类结果的长度,0到9,所以长度为 10。
- CELL_SIZE 网络中隐藏层要放多少个 unit。
LR 是学习率。
1. 用 Sequential 建立模型,就是一层一层地加上神经层。
# build RNN model
model = Sequential()
2. 加上 SimpleRNN。
batch_input_shape 就是在后面处理批量的训练数据时它的大小是多少,有多少个时间点,每个时间点有多少个像素。
# RNN cell
model.add(SimpleRNN(
# for batch_input_shape, if using tensorflow as the backend, we have to put None for the batch_size.
# Otherwise, model.evaluate() will get error.
batch_input_shape=(None, TIME_STEPS, INPUT_SIZE), # Or: input_dim=INPUT_SIZE, input_length=TIME_STEPS,
output_dim=CELL_SIZE,
unroll=True,
))
3. 加 Dense 输出层。
输出 output 长度为 10,接着用 softmax 激活函数用于分类。
# output layer
model.add(Dense(OUTPUT_SIZE))
model.add(Activation('softmax'))
4. 在训练的时候有一个小技巧,就是怎么去处理批量。
输出结果时每 500 步输出一下测试集的准确率和损失。
需要用到 BATCH_INDEX,一批批地截取数据,下一批的时候,这个 BATCH_INDEX 就需要累加,后面的时间点和步长没有变化都是28。
y 的批量和 x 的处理是一样的,只不过 y 只有二维,所以它只有两个参数。
后面有一个判断语句,如果这个 index 大于训练数据的总数,index 就变为 0,再从头开始一批批处理。
# training
for step in range(4001):
# data shape = (batch_num, steps, inputs/outputs)
X_batch = X_train[BATCH_INDEX: BATCH_INDEX+BATCH_SIZE, :, :]
Y_batch = y_train[BATCH_INDEX: BATCH_INDEX+BATCH_SIZE, :]
cost = model.train_on_batch(X_batch, Y_batch)
BATCH_INDEX += BATCH_SIZE
BATCH_INDEX = 0 if BATCH_INDEX >= X_train.shape[0] else BATCH_INDEX if step % 500 == 0:
cost, accuracy = model.evaluate(X_test, y_test, batch_size=y_test.shape[0], verbose=False)
print('test cost: ', cost, 'test accuracy: ', accuracy)
6. 自编码分类
自编码,简单来说就是把输入数据进行一个压缩和解压缩的过程。
原来有很多 Feature,压缩成几个来代表原来的数据,解压之后恢复成原来的维度,再和原数据进行比较。
做的事情是把 datasets.mnist
数据的 28×28=784 维的数据,压缩成 2 维的数据,然后在一个二维空间中可视化出分类的效果。
模型结构:
encoding_dim
,要压缩成的维度。
# in order to plot in a 2D figure
encoding_dim = 2 # this is our input placeholder
input_img = Input(shape=(784,))
建立 encoded
层和 decoded
层,再用 autoencoder
把二者组建在一起。训练时用 autoencoder
层。
1. encoded
用4层 Dense
全联接层
激活函数用 relu
,输入的维度就是前一步定义的 input_img
。
接下来定义下一层,它的输出维度是64,输入是上一层的输出结果。
在最后一层,我们定义它的输出维度就是想要的 encoding_dim=2
。
2. 解压的环节,它的过程和压缩的过程是正好相反的。
相对应层的激活函数也是一样的,不过在解压的最后一层用到的激活函数是 tanh
。因为输入值是由 -0.5 到 0.5 这个范围,在最后一层用这个激活函数的时候,它的输出是 -1 到 1,可以是作为一个很好的对应。
# encoder layers
encoded = Dense(128, activation='relu')(input_img)
encoded = Dense(64, activation='relu')(encoded)
encoded = Dense(10, activation='relu')(encoded)
encoder_output = Dense(encoding_dim)(encoded) # decoder layers
decoded = Dense(10, activation='relu')(encoder_output)
decoded = Dense(64, activation='relu')(decoded)
decoded = Dense(128, activation='relu')(decoded)
decoded = Dense(784, activation='tanh')(decoded) # construct the autoencoder model
autoencoder = Model(input=input_img, output=decoded)
接下来直接用 Model
这个模块来组建模型
输入就是图片,输出是解压的最后的结果。
# construct the encoder model for plotting
encoder = Model(input=input_img, output=encoder_output)
当我们想要看由 784 压缩到 2维后,这个结果是什么样的时候,也可以只单独组建压缩的板块,此时它的输入是图片,输出是压缩环节的最后结果。
最后分类的可视化结果:
对比学习用 Keras 搭建 CNN RNN 等常用神经网络的更多相关文章
- 使用Keras搭建cnn+rnn, BRNN,DRNN等模型
Keras api 提前知道: BatchNormalization, 用来加快每次迭代中的训练速度 Normalize the activations of the previous layer a ...
- CNN实战篇-手把手教你利用开源数据进行图像识别(基于keras搭建)
我一直强调做深度学习,最好是结合实际的数据上手,参照理论,对知识的掌握才会更加全面.先了解原理,然后找一匹数据来验证,这样会不断加深对理论的理解. 欢迎留言与交流! 数据来源: cifar10 (其 ...
- keras入门(三)搭建CNN模型破解网站验证码
项目介绍 在文章CNN大战验证码中,我们利用TensorFlow搭建了简单的CNN模型来破解某个网站的验证码.验证码如下: 在本文中,我们将会用Keras来搭建一个稍微复杂的CNN模型来破解以上的 ...
- 用Keras搭建神经网络 简单模版(三)—— CNN 卷积神经网络(手写数字图片识别)
# -*- coding: utf-8 -*- import numpy as np np.random.seed(1337) #for reproducibility再现性 from keras.d ...
- 用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践
https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类 ...
- [转] 用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践
转自知乎上看到的一篇很棒的文章:用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文 ...
- CNN眼中的世界:利用Keras解释CNN的滤波器
转载自:https://keras-cn.readthedocs.io/en/latest/legacy/blog/cnn_see_world/ 文章信息 本文地址:http://blog.keras ...
- 基于Keras搭建MLP
Keras是一套基于Tensorflow.Theano及CNTK后端的高层神经网络API,可以非常友好地支持快速实验,本文从零开始介绍了如何使用Keras搭建MLP并给出两个示例. 基于Ubuntu安 ...
- 深度学习-CNN+RNN笔记
以下叙述只是简单的叙述,CNN+RNN(LSTM,GRU)的应用相关文章还很多,而且研究的方向不仅仅是下文提到的1. CNN 特征提取,用于RNN语句生成图片标注.2. RNN特征提取用于CNN内容分 ...
随机推荐
- php基础知识(一)--2017-04-14
1.Php的两种打开方式: 第一种方式:地址栏打开:http://localhost/0414/qq.php 地址栏输入localhost/ 就是phpstudy下的www文件夹 第二种:新 ...
- POJ 3252 组合数学?
大神们的题解我一个都没看懂........... 十分的尴尬 题意:算出闭区间内二进制中0的个数大于等于1的个数的数字有多少个 思路: 组合数学(n小于500的时候都可以出解,只不过高精比较麻烦). ...
- SVN——Jenkins自动发布
最近公司项目处于开发阶段,很多功能开发完后就需要发布到测试环境等待测试去验收,这个时候如果手动更新网站的话,是很费时费力的. 于是乎,我们做成了自动发布,这样我们只管提交代码到SVN就行了,发布由软件 ...
- FluentAPI关系映射配置
都有哪几种关系? 1vs多,多vs多 1. 概念or关系映射相关方法: 1) 基本套路:this.Has***(o=>o.AAA).With***() 当前这个表和AAA属性的表关系是Has定义 ...
- java处理日期时间代码
public static String FORMATE_DATE_STR = "yyyy-MM-dd"; public static String FORMATE_TIME_ST ...
- solarwind之network Atlas
1. 连接密码为空,连接到Orion 2. 连接后如下图 3. 直接拖动节点即可进行绘制地图 4. 查看它的相关属性
- elasticsearch集群添加节点
最简配置文件: cluster.name: your_cluster_name node.name: your_ip network.host: 0.0.0.0 http.port: your_p ...
- RocketMQ学习笔记(10)----RocketMQ的Producer 事务消息使用
1. 事务消息原理图 RocketMQ除了支持普通消息,顺序消息之外,还支持了事务消息. 1. 什么是分布式事务? 分布式事务就是指事务的参与者.支持事务的服务器.资源服务器以及事务管理器分别位于不同 ...
- node——文件夹创建
//创建文件夹 var fs=require('fs'); //1.异步 fs.mkdir("./第一个目录",function(err){ if (err) { return c ...
- 正式版的Linux Kernel 5.1来了,非LTS
大神Linus Torvalds于今天发布了Linux Kernel 5.1内核正式版,在对现有功能进行改进的同时还带来了很多重要的改进.本次版本更新历时一个半月,不过值得注意的是它并非是长期支持版本 ...