论文笔记:Variational Capsules for Image Analysis and Synthesis
Variational Capsules for Image Analysis and Synthesis
2018-07-16 16:54:36
Paper: https://arxiv.org/pdf/1807.04099.pdf
随着深度学习的崛起,已经有很多不同的应用领域都取得了巨大的成功,其中就包括:image analysis 以及 synthesis。
Image analysis 通常是指:用一个判别性模型从图像中去抽取信息;
Image synthesis 是指:用产生式模型根据一个给定的分布,来产生图像样本。
这两个任务是高度相关的,并且希望能够互相补充和促进。不同的方法被用来分析这两个模块, analysis blocks (即:分类器),synthesis blocks (即:自回归模型,GAN, VAEs) 等。在这些方法中,analysis blocks 被用来产生可控制的条件来给 synthesis block,或者提供给生成的图像一些约束条件。但是,大部分的条件下,synthesis 和 analysis blocks 都不是联合进行训练的,所以对于同时解决这两个问题的思路来说,得到的可能不是最优解。所以,构建一个联合的框架来处理这两个任务,仍然是一个没有被解决的问题,使得这两个任务可以相互补充和协助。
为了克服上述困难,我们提出一种新的方法,即:变分胶囊网络(Variational Capsule Network (VSs)),在一个联合的判别和产生式的框架下,进行图像的建模。我们知道 capsule 最开始的时候,是由大佬 hinton 提出的,并且将其建模为:一组神经元的集合(groups of neurons whose activity vector represent vairous properties of particular entity)。所提出的 variational capsules 是一种新型的 capsule,which use the divergence of each capsule with a prior distribution rather than the length of the activity vector to represent the probability that an entity exsits. 划重点!!!这里意思是:本文所提出的新的 capsule 是用 先验分布的 KL-散度来衡量对应的示例是否存在,而不是依赖于激活向量的长度。变分胶囊将一张图像建模为多个示例的混合,将已有的示例映射到 posterior,使得其能够与 prior 恰当的进行匹配。
如图1所示:我们的框架服从 VAE 一样的结构,是有两个部分构成的:
an encoder: mapping the input images into variatinoal capsules;
a generator (or decoder): generating images from masked varaitional capsules.
在训练阶段,the encoder 目标是检测或者分类现有的 entity,然后使得激活的胶囊能够很好的服从先验分布,
the decoder 尝试从激活向量中去重构原始的图像。
在测试阶段,the encoder 可以通过预测胶囊,来分析输入的图像;
the decoder 通过从先验分布中进行采样,从而可以合成一个新的样本;
本文的创新可以分为如下四个部分:
1. 提供了一种新型的 capsule,即:variational capsules;
2. 提供了一种图像分析和合成的统一框架;
3. 提供了一种新的技术来进行基于条件的图像生成(conditional image generation);
4. 充分的实验验证了本文方法的有效性。
我们先来看看原始的 capsule network 训练的时候,它用的是什么距离?
而本文则尝试用 KL-D 来度量,即:
来看本文 3.1 小节:
The capsules proposed in Hinton's paper use the length of the instantiation vector to represent the probability of the existing entity.
为了促进新型胶囊的采样,我们设计的胶囊能够以概率的方式:the activation capsules follow a known prior distribution while the noactive ones do the opposite.
服从 VAEs,我们选择 KL 散度 作为度量两个分布匹配程度的度量方法。所以,带有先验分布的胶囊网络的 KL-散度,代表了一个胶囊示例是否存在的概率,i.e. 对应已有示例的胶囊有较小的 KL散度,而不存在的示意,则有较大的 KL 距离。
Following the original VAEs [10], the prior p(z) is assumed to follow isotropic multivariate Gaussian distribution, i.e., p(z) ∼ N(0; I),
while the proposed capsule qφ(c|x) follows multivariate Gaussian distribution whose mean and covariance are parameterized by N(µ(x); diag(σ2(x))).
The KL- divergence of each capsule c with the prior p(z), i.e., DKL(qφ(c|x)||p(z)), can be computed using Eq. (2).
Let LKL(c) denote the above divergence, we use a separate margin loss Lk for each capsule ck (where k indicates the index of the capsule), which is defined as:
另外,为了获得更好的结果,本文结合了 MSE loss 以及 对抗loss,所以总体的训练loss 函数为:
其中,adversarial loss and mse loss 的损失函数分别为:
论文笔记:Variational Capsules for Image Analysis and Synthesis的更多相关文章
- 论文笔记:Capsules for Object Segmentation
Capsules for Object Segmentation 2018-04-16 21:49:14 Introduction: ----
- 基于3D卷积神经网络的人体行为理解(论文笔记)(转)
基于3D卷积神经网络的人体行为理解(论文笔记) zouxy09@qq.com http://blog.csdn.net/zouxy09 最近看Deep Learning的论文,看到这篇论文:3D Co ...
- Deep Learning论文笔记之(三)单层非监督学习网络分析
Deep Learning论文笔记之(三)单层非监督学习网络分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感 ...
- 【论文笔记】SamWalker: Social Recommendation with Informative Sampling Strategy
SamWalker: Social Recommendation with Informative Sampling Strategy Authors: Jiawei Chen, Can Wang, ...
- Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
- 论文笔记之:Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
- Deep Learning论文笔记之(八)Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
- Twitter 新一代流处理利器——Heron 论文笔记之Heron架构
Twitter 新一代流处理利器--Heron 论文笔记之Heron架构 标签(空格分隔): Streaming-process realtime-process Heron Architecture ...
- Deep Learning论文笔记之(六)Multi-Stage多级架构分析
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些 ...
随机推荐
- 步进电机 28BYJ-48介绍和驱动及编程
28BYJ-48步进电机: 步进电机是一种将电脉冲转化为角位移的执行机构.通俗一点讲:当步进驱动器接收到一个脉冲信号,它就驱动步进电机按设定的方向转动一个固定的角度(及步进角).您可以通过控制脉冲个来 ...
- Python 3 -- 数据结构(list, dict, set,tuple )
看了<Head First Python>后,觉得写的很不错,适合新手.此处为读书笔记,方便日后查看. Python 提供了4中数据结构:list,dict,set,tuple. 每种结构 ...
- Spark学习之路 (十六)SparkCore的源码解读(二)spark-submit提交脚本
一.概述 上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理逻辑,从spark-submit一步步深入进去看看任务提交的整体流程,首先看一下整体的流程概要图 ...
- Java volatile详解
转自:http://www.cnblogs.com/dolphin0520/p/3920373.html volatile这个关键字可能很多朋友都听说过,或许也都用过.在Java 5之前,它是一个备受 ...
- SQL中的 group by 1, order by 1 语句
看到group by 1,2 和 order by 1, 2.看不懂,google,搜到了Stack Overflow 上有回答 What does SQL clause “GROUP BY 1” m ...
- mysql+servlet+jsp实现数据库的增删改查
首先,了解数据库目前我们仅仅用来存放数据,在这里我们在数据库中生成一个表,包含id,classname,teacher,location.Tomcat用来配置eclipse,只有这样我们才能使用JSP ...
- Linux基础命令---join
join 找出两个文件中相同的字段,根据相同字段合并两个文件,将合并结果显示到标准输出. 此命令的适用范围:RedHat.RHEL.Ubuntu.CentOS.SUSE.openSUSE.Fedora ...
- .NET 常用ORM之Gentle.Net
.Net常用的就是微软的EF框架和Nhibernate,这两个框架用的都比较多就不做详细介绍了,今天我们来看看Gentle.Net,Gentle.Net是一个开源的优秀O/R Mapping的对象持久 ...
- input file accept类型
Valid Accept Types: For CSV files (.csv), use: <input type="file" accept=".csv&quo ...
- Android Camera2 参数调节关键字翻译集合,常用关键字解析
https://blog.csdn.net/qq_29333911/article/details/79400617 black_level_lock黑电平补偿是否锁定当前值,或者可以自由更改.col ...