VAEs最早由“Diederik P. Kingma and Max Welling, “Auto-Encoding Variational Bayes, arXiv (2013)”和“Danilo Jimenez Rezende, Shakir Mohamed, and Daan Wierstra, “Stochastic Backpropagation and Approximate Inference in Deep Generative Models,” arXiv (2014)”同时发现。

原理:

对自编码器来说,它只是将输入数据投影到隐空间中,这些数据在隐空间中的位置是离散的,因此在此空间中进行采样,解码后的输出很可能是毫无意义的。

而对VAEs来说,它将输入数据转换成2个分布,一个是平均值的分布,一个是方差的分布(这就像高斯混合型了),添加上一些噪音,组合后,再进行解码。

如图(网上找的,应该是论文里的,暂时没看论文)

为什么分为2个分布?

可以这么理解:假设均值和方差都有n个,那么编码部分相当于用n个高斯分布(每个输入是不同权重的n个分布的组合)去模拟输入。

再通过一系列变换,转化为隐空间的若干维度,其每个维度可能具有某种意义。比如下面代码使用2维隐空间,可以看作是均值和方差维度。

方差部分指数化,保证非负。添加噪音让隐空间更具有意义的连续性。

然后我们从隐空间采样,由于隐空间具有意义上的连续性,那么解码后的东东就可能类似输入。

损失loss如何定义?为什么?

loss由2部分构成,第一部分就是解码输出与原始输入的loss,可以定义为交叉熵或者均方误差等。

第二部分是约束项。如上图黄色框,m平方作为L2正则化项,前2项可以看做方差减去其泰勒展开,当σ趋近0时,方差也即e^σ为1。那么最小化前2项必然使得σ趋近0(求导即可知)。

由此,这第二部分,m平方项约束使得均值为0,前2项约束使得方差为1。这样约束使得隐空间具有连续性,且强制输入数据在隐空间中的表示范围收拢。

这样在隐空间中2个数据表示的中间,就有一种过渡区域。如果仅以第一部分约束,效果可能就和自编码器一样了,模型会过拟合。


下面进入代码部分

以MNIST数据集作为训练样本。

from keras import backend as K

from keras.models import Model

from keras.metrics import binary_crossentropy

import numpy as np

from keras.layers import Conv2D,Flatten,Dense,Input,Lambda,Reshape,Conv2DTranspose,Layer

from keras.datasets import mnist

from keras.callbacks import EarlyStopping

编码器使用卷积层,输出2个部分

img_shape=(28,28,1)
batch_size=16
latent_dim=2 input_img=Input(shape=img_shape)
x=Conv2D(32,3,padding='same',activation='relu')(input_img)# 28,28,32
x=Conv2D(64,3,padding='same',activation='relu',strides=(2,2))(x)# 14,14,64
x=Conv2D(64,3,padding='same',activation='relu')(x)#14,14,64
x=Conv2D(64,3,padding='same',activation='relu')(x)#14,14,64
# 保存Flatten之前的shape
shape_before_flattening=K.int_shape(x)
x=Flatten()(x)#14*14*64
x=Dense(32,activation='relu')(x)#
# 将输入图像拆分为2个向量
z_mean=Dense(latent_dim)(x)#
z_log_var=Dense(latent_dim)(x)

定义采样方法

def sampling(args):
z_mean,z_log_var=args
# 得到一个平均值为0,方差为1的正态分布,shape为(?,2)
epsilon=K.random_normal(shape=(K.shape(z_mean)[0],latent_dim),mean=0,stddev=1.)#K.shape返回仍是tensor
# tensor*tensor为elementwise操作
return z_mean+K.exp(z_log_var)*epsilon
z=Lambda(sampling)([z_mean,z_log_var])# 采样

解码

# 解码过程,逆操作
decode_input=Input(K.int_shape(z)[1:])
# np.prod表示对数组某个axis进行乘法操作,如果axis不指定,则将所有的元素乘积返回一个值
x=Dense(np.prod(shape_before_flattening[1:]),activation='relu')(decode_input)#14*14*64
# 逆Flatten操作
x=Reshape(shape_before_flattening[1:])(x)#14,14,64
# 反卷积,strides=2将14*14变为28*28,跟Conv2D相反
x=Conv2DTranspose(32,3,padding='same',activation='relu',strides=2)(x)#28,28,32
# 注意这里的激活函数
x=Conv2D(1,3,padding='same',activation='sigmoid')(x)#28,28,1
# 解码model
decoder=Model(decode_input,x)
# 解码后的图片数据
z_decoded=decoder(z)

定义loss,使用一个自定义layer实现

class CustomVariationalLayer(Layer):
def vae_loss(self,x,z_decoded):
x=K.flatten(x)
z_decoded=K.flatten(z_decoded)
# loss为原始输入和编码-解码后的输出比较
xent_loss=binary_crossentropy(x,z_decoded)
# 约束
# mean部分表示L2正则损失,K.exp(z_log_var)-(1+z_log_var)保证方差为1,如果不约束,网络可能偷懒
kl_loss=5e-4*K.mean(K.exp(z_log_var)-(1+z_log_var)+K.square(z_mean),axis=-1)
return K.mean(xent_loss+kl_loss) def call(self,inputs):
x=inputs[0]
z_decoded=inputs[1]
loss=self.vae_loss(x,z_decoded)
# 继承方法
self.add_loss(loss,inputs=inputs)#将根据inputs计算的损失loss加到本layer
return x #不用,但是需要返回点啥 y=CustomVariationalLayer()([input_img,z_decoded])

加载数据,定义、训练模型

(x_train,y_train),(x_test,y_test)=mnist.load_data()

x_train=x_train.astype('float32')/255.
# 表示添加一个通道维度,通道数为1(颜色只有一种模式)
x_train=x_train.reshape(x_train.shape+(1,))
x_test=x_test.astype('float32')/255.
x_test=x_test.reshape(x_test.shape+(1,))
vae=Model(input_img,y)
# 自定义层y里面已经包含了loss,这里不需要指定
vae.compile(optimizer='rmsprop',loss=None)
# 不需要标签,所以y为None,我们只需要知道一个图片的原始输入是否和编码-解码后的输出一致
vae.fit(x=x_train,y=None,shuffle=True,epochs=10,batch_size=batch_size,validation_data=(x_test,None),callbacks=[EarlyStopping(patience=2)],verbose=2)

测试

import matplotlib.pyplot as plt
from scipy.stats import norm # 潜空间中任意矢量可以解码成数字
n = 10
digit_size = 28
figure = np.zeros((digit_size * n, digit_size * n))
# norm.ppf([v1,v2...])表示正态分布积分值为vi时,对应的x轴坐标值xi
grid_x = norm.ppf(np.linspace(0.05, 0.95, n))#可以看作均值
grid_y = norm.ppf(np.linspace(0.05, 0.95, n))#方差
for i, yi in enumerate(grid_x):
for j, xi in enumerate(grid_y):
z_sample = np.array([[xi, yi]])
# np.tile将数组重复n次,如[1,2]->[1,2,1,2]。然后reshape到输入格式
z_sample = np.tile(z_sample, batch_size).reshape(batch_size, 2)
x_decoded = decoder.predict(z_sample, batch_size=batch_size)
# 因为x_decoded为16个相同矢量得到的推导,取第一个就行,再将 28*28*1 reshape到 28*28
digit = x_decoded[0].reshape(digit_size, digit_size)
figure[i * digit_size: (i + 1) * digit_size,
j * digit_size: (j + 1) * digit_size] = digit
plt.figure(figsize=(10, 10))
plt.imshow(figure, cmap='Greys_r')
plt.show()

结果如下,可以看到,图片是连续变化的。

VAEs(变分自编码)之keras实践的更多相关文章

  1. Keras实践:模型可视化

    Keras实践:模型可视化 安装Graphviz 官方网址为:http://www.graphviz.org/.我使用的是mac系统,所以我分享一下我使用时遇到的坑. Mac安装时在终端中执行: br ...

  2. Keras实践:实现非线性回归

    Keras实践:实现非线性回归 代码 import os os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE" import ke ...

  3. GAN(生成对抗网络)之keras实践

    GAN由论文<Ian Goodfellow et al., “Generative Adversarial Networks,” arXiv (2014)>提出. GAN与VAEs的区别 ...

  4. 分享几个 PHP 编码的最佳实践

    对于初学者而言,可能很难理解为什么某些做法更安全. 但是,以下一些技巧可能超出了 PHP 的范围. 始终使用大括号 让我们看下面的代码: if (isset($condition) && ...

  5. 2.keras实现-->字符级或单词级的one-hot编码 VS 词嵌入

    1. one-hot编码 # 字符集的one-hot编码 import string samples = ['zzh is a pig','he loves himself very much','p ...

  6. ​结合异步模型,再次总结Netty多线程编码最佳实践

    更多技术分享可关注我 前言 本文重点总结Netty多线程的一些编码最佳实践和注意事项,并且顺便对Netty的线程调度模型,和异步模型做了一个汇总.原文:​​结合异步模型,再次总结Netty多线程编码最 ...

  7. 文本离散表示(二):新闻语料的one-hot编码

    上一篇博客介绍了文本离散表示的one-hot.TF-IDF和n-gram方法,在这篇文章里,我做了一个对新闻文本进行one-hot编码的小实践. 文本的one-hot相对而言比较简单,我用了两种方法, ...

  8. 通过keras例子理解LSTM 循环神经网络(RNN)

    博文的翻译和实践: Understanding Stateful LSTM Recurrent Neural Networks in Python with Keras 正文 一个强大而流行的循环神经 ...

  9. 算术编码Arithmetic Coding-高质量代码实现详解

    关于算术编码的具体讲解我不多细说,本文按照下述三个部分构成. 两个例子分别说明怎么用算数编码进行编码以及解码(来源:ARITHMETIC CODING FOR DATA COIUPRESSION): ...

随机推荐

  1. 11 canvas 画布 - 基础

    一.概述 canvas它和其它的HTML5标签的使用基本一致,但是它相当于在浏览器中建立一个画布,可以再这个画布上画图.创建动画甚至是3D游戏.由于canvas要适配不同终端的分辨率,所以尽可能的在标 ...

  2. 利用swoole coroutine协程实现redis异步操作

    <?php #注意:如果不开启兼容模式,会遇到这样的现象,用swoole协程的方法访问常规方法添加到redis中的数据,可能访问不到(直接返回NULL)!这可能是两者采用了不同的技术标准所致! ...

  3. 洛谷P1282 多米诺骨牌【线性dp】

    题目:https://www.luogu.org/problemnew/show/P1282 题意: 给定n个牌,每个牌有一个上点数和下点数.可以通过旋转改变交换上下点数. 问使得上点数之和和下点数之 ...

  4. Java项目出现的问题--学习--SSM

    01 反向工程正常运行但是没有出现应该有的包 进行反向工程时记得要刷新一下才能看到的 03 复制包只有当前目录的包,目录下的文件不包含 当sec下的包以hierarcical形式排布时复制只能复制当前 ...

  5. 根据xml文件生成javaBean

    原 根据xml文件生成javaBean 2017年08月15日 18:32:26 吃完喝完嚼益达 阅读数 1727 版权声明:本文为博主原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出 ...

  6. CF1230 E. Kamil and Making a Stream gcd+暴力

    比赛的时候TLE,第二天发现合并方向合并错了~ 改了一下顺序就切了~ 又掉分了,好难过QAQ...... Code: #include <bits/stdc++.h> #define N ...

  7. Bert系列 源码解读 四 篇章

    Bert系列(一)——demo运行 Bert系列(二)——模型主体源码解读 Bert系列(三)——源码解读之Pre-trainBert系列(四)——源码解读之Fine-tune 转载自: https: ...

  8. Redis evalsha 命令

    相当于根据sha1校验码,执行缓存在服务器的一段代码. 这个命令的使用方法类似eval--参数的传入方式等等 使用需要redis版本 >= 2.6.0 语法 *> evalsha sha1 ...

  9. 2016多校7.14 Warmup 题解

    先讲1007,是一个数位dp,询问一个区间内,各位数的和是一个素数的数字的个数.其实我并不会数位dp,这题直接套用了上次多校lyf队长的dp代码,改了点返回参数没想到直接AC了.代码如下: #incl ...

  10. CF1204B

    CF1204B-Mislove Has Lost an Array 题意: 给你n,l,r 表示在区间1-n内至少有l个不相同的数至多有r个不相同的数,而且这些数不是1就是偶数而且每个偶数/2得到的数 ...