论文笔记：Variational Capsules for Image Analysis and Synthesis

Variational Capsules for Image Analysis and Synthesis

2018-07-16 16:54:36

Paper： https://arxiv.org/pdf/1807.04099.pdf

随着深度学习的崛起，已经有很多不同的应用领域都取得了巨大的成功，其中就包括：image analysis 以及 synthesis。

Image analysis 通常是指：用一个判别性模型从图像中去抽取信息；

Image synthesis 是指：用产生式模型根据一个给定的分布，来产生图像样本。

这两个任务是高度相关的，并且希望能够互相补充和促进。不同的方法被用来分析这两个模块， analysis blocks (即：分类器)，synthesis blocks (即：自回归模型，GAN, VAEs) 等。在这些方法中，analysis blocks 被用来产生可控制的条件来给 synthesis block，或者提供给生成的图像一些约束条件。但是，大部分的条件下，synthesis 和 analysis blocks 都不是联合进行训练的，所以对于同时解决这两个问题的思路来说，得到的可能不是最优解。所以，构建一个联合的框架来处理这两个任务，仍然是一个没有被解决的问题，使得这两个任务可以相互补充和协助。

为了克服上述困难，我们提出一种新的方法，即：变分胶囊网络（Variational Capsule Network (VSs)），在一个联合的判别和产生式的框架下，进行图像的建模。我们知道 capsule 最开始的时候，是由大佬 hinton 提出的，并且将其建模为：一组神经元的集合（groups of neurons whose activity vector represent vairous properties of particular entity）。所提出的 variational capsules 是一种新型的 capsule，which use the divergence of each capsule with a prior distribution rather than the length of the activity vector to represent the probability that an entity exsits. 划重点！！！这里意思是：本文所提出的新的 capsule 是用先验分布的 KL-散度来衡量对应的示例是否存在，而不是依赖于激活向量的长度。变分胶囊将一张图像建模为多个示例的混合，将已有的示例映射到 posterior，使得其能够与 prior 恰当的进行匹配。

如图1所示：我们的框架服从 VAE 一样的结构，是有两个部分构成的：

an encoder: mapping the input images into variatinoal capsules;

a generator (or decoder): generating images from masked varaitional capsules.

在训练阶段，the encoder 目标是检测或者分类现有的 entity，然后使得激活的胶囊能够很好的服从先验分布，

　　　　　　the decoder 尝试从激活向量中去重构原始的图像。

在测试阶段，the encoder 可以通过预测胶囊，来分析输入的图像；

the decoder 通过从先验分布中进行采样，从而可以合成一个新的样本；

本文的创新可以分为如下四个部分：

1. 提供了一种新型的 capsule，即：variational capsules；

2. 提供了一种图像分析和合成的统一框架；

3. 提供了一种新的技术来进行基于条件的图像生成（conditional image generation）；

4. 充分的实验验证了本文方法的有效性。

我们先来看看原始的 capsule network 训练的时候，它用的是什么距离？

而本文则尝试用 KL-D 来度量，即：

来看本文 3.1 小节：

The capsules proposed in Hinton's paper use the length of the instantiation vector to represent the probability of the existing entity.

为了促进新型胶囊的采样，我们设计的胶囊能够以概率的方式：the activation capsules follow a known prior distribution while the noactive ones do the opposite.

服从 VAEs，我们选择 KL 散度作为度量两个分布匹配程度的度量方法。所以，带有先验分布的胶囊网络的 KL-散度，代表了一个胶囊示例是否存在的概率，i.e. 对应已有示例的胶囊有较小的 KL散度，而不存在的示意，则有较大的 KL 距离。

Following the original VAEs [10], the prior p(z) is assumed to follow isotropic multivariate Gaussian distribution, i.e., p(z) ∼ N(0; I),

while the proposed capsule q_φ(c|x) follows multivariate Gaussian distribution whose mean and covariance are parameterized by N(µ(x); diag(σ²(x))).

The KL- divergence of each capsule c with the prior p(z), i.e., D_KL(q_φ(c|x)||p(z)), can be computed using Eq. (2).

Let L_KL(c) denote the above divergence, we use a separate margin loss L_k for each capsule c_k (where k indicates the index of the capsule), which is defined as:

另外，为了获得更好的结果，本文结合了 MSE loss 以及对抗loss，所以总体的训练loss 函数为：

其中，adversarial loss and mse loss 的损失函数分别为：

论文笔记：Variational Capsules for Image Analysis and Synthesis的更多相关文章

论文笔记：Capsules for Object Segmentation
Capsules for Object Segmentation 2018-04-16 21:49:14 Introduction: ----
基于3D卷积神经网络的人体行为理解（论文笔记）（转）
基于3D卷积神经网络的人体行为理解(论文笔记) zouxy09@qq.com http://blog.csdn.net/zouxy09 最近看Deep Learning的论文,看到这篇论文:3D Co ...
Deep Learning论文笔记之（三）单层非监督学习网络分析
Deep Learning论文笔记之(三)单层非监督学习网络分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感 ...
【论文笔记】SamWalker: Social Recommendation with Informative Sampling Strategy
SamWalker: Social Recommendation with Informative Sampling Strategy Authors: Jiawei Chen, Can Wang, ...
Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
Deep Learning论文笔记之（八）Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
Twitter 新一代流处理利器——Heron 论文笔记之Heron架构
Twitter 新一代流处理利器--Heron 论文笔记之Heron架构标签(空格分隔): Streaming-process realtime-process Heron Architecture ...
Deep Learning论文笔记之（六）Multi-Stage多级架构分析
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些 ...

随机推荐

html5-figure和figcaption元素
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8&qu ...
20155228 实验一《Java开发环境的熟悉》实验报告
20155228 实验一<Java开发环境的熟悉>实验报告实验内容使用JDK编译.运行简单的Java程序: 使用IDEA 编辑.编译.运行.调试Java程序. 实验要求没有Linux ...
MySQL 查询表中某字段值重复的数据
MySQL中,查询表(dat_bill_2018_11)中字段(product_id)值重复的记录: ; 说明:先用GROUP BY 对 product_id 进行分组,同时使用COUNT(*)进行统 ...
4.7 引入NULL对象
[1]引入NULL对象范例 Book.h #ifndef _BOOK_H #define _BOOK_H #include <string> using namespace std; cl ...
给定一个正整数,实现一个方法求出离该整数最近的大于自身的换位数 <把一个整数各个数位进行全排列>
"""给定一个正整数,实现一个方法求出离该整数最近的大于自身的换位数 -> 把一个整数各个数位进行全排列""" # 使用 permu ...
Chrome表单自动填充如何取消(暂时可行的解决办法)
做项目时一直遇到一个问题,那就是用chrome测试的时候页面上的表单一直会自动填充,并且伴有黄色的背景颜色,有时候感觉很方便,有时候又很想去掉. 之前也多次寻找过方法,但是网上的方法都差不多,很多都是 ...
Python HTMLTestRunner 学习
HTMLTestRunner 是基于 unittest 单元测试的 HTML报告的一个第三库安装: 1. 安装:下载HTMLTestRunner.py文件:地址http://tungwaiy ...
glog日志库移植Android平台
1.在linux平台下使用ndk交叉编译链编译glog生成libglog.a静态库. 2.将生成的库文件与头文件放到Android项目中,使用JNI方法调用. 3.编译遇到错误“stderr.stdo ...
通过经纬度获取所属城市信息-php
测试经纬度信息,37.863036,113.598909.通过地图查询,所在城市为:阳泉. <?php class test{ public static $test_key = 'dfgfdg ...
Golang并发编程中select简单了解
select可以监听channel的数据流动select的用法与switch语法非常类似,由select开始的一个新的选择块,每个选择条件由case语句来描述与switch语句可以选择任何使用相等比 ...

论文笔记：Variational Capsules for Image Analysis and Synthesis

论文笔记：Variational Capsules for Image Analysis and Synthesis的更多相关文章

随机推荐

热门专题