论文信息

论文标题:Probabilistic Contrastive Learning for Domain Adaptation
论文作者:Junjie Li, Yixin Zhang, Zilei Wang, Keyu Tu
论文来源:aRxiv 2022
论文地址:download 
论文代码:download

1 Abstract

  标准的对比学习用于提取特征,然而对于 Domain Adaptation 任务,表现不佳,主要原因是在优化过程中没有涉及类权值优化,这不能保证所产生的特征都围绕着从源数据中学习到的类权值。为解决这一问题,本文中提出一种简单而强大的概率对比学习(PCL),它不仅产生紧凑的特征,而且还使它们分布在类权值周围。

2 Introduction

  

  对于分类任务,需要确保特征本身的可区分性,才能获得良好的性能,即:具有相同语义的特性应该尽可能紧凑。然而,在 Domain Adaptation 中,由于目标域缺乏地面真实标签,目标域上学习到的特征通常是分散和难以区分的,如 Figure 1(a) 所示。但是对比学习可以在未标记数据上学习语义上紧凑的特征表示,这倾向于将语义上相似的特征聚在一起。因此,可在目标域上进行特征对比学习(FCL),使目标域的特征更容易区分,如 Figure 1(b) 所示。然而,本文发现 FCL 在 Domain Adaptation 方面带来的改善非常有限(64.3%→64.5%)(见 Figure 2)。这一实证结果自然提出了一个问题:为什么特征对比学习在域自适应方向表现差?

  

  首先,验证对比学习是否确实提高目标域特征的可区分性。具体地说,先冻结特征提取器,并使用地面真实标签来训练分类器。如 Figure 2 所示,在这种设置下,FCL 的准确率提高了6.1%(74.6%→80.7%),但实际的准确率仅提高了 0.2%(64.3%→64.5%)。实验结果表明,FCL 确实可以提高特征的可区分性。此外,在分类的学习过程中可能存在一些问题,导致将对比学习直接应用于领域自适应的表现不佳。

  事实上,对于分类任务,类权值(全连接层的权值)需要接近特征的类中心,而且特征本身是足够可区分的。也就是说,特征需要接近其对应的类权重。目前的对比学习方法通常使用分类器之前的特征来计算对比损失,其中在优化过程中不涉及类权值的信息。因此,FCL 不能强制特性围绕类权重。而在 Domain Adaptation 中,源域上有监督信号,而源数据和目标数据通常来自不同的分布。因此,学习到的类权值会偏离目标数据,因为它们只通过来自源域的监督信号进行优化。虽然由于 FCL 的引入,目标特征可以区分,但类权重很难有效地区分它们,如 Figure 1(b) 所示。因此,一个关键问题是如何将类信息带到优化过程中,以便强制将特性定位在相应的类权重周围。

  因此,提出了一个很自然的问题:只要引入类权重信息,是否有可能具有接近类权重的特征?为了引入类权重信息,一个简单的思想是直接使用分类器后的特征来计算对比损失。然而,我们发现该方法并不能有效地提高 FCL 的性能,这说明简单地引入类权值并不能有效地减少特征与类权值之间的距离。因此,需要仔细设计一个对比学习损失,可以明确地缩小特征和类权重之间的距离。

  为深入理解这个问题,首先考虑了什么样的信息可以表明该特性接近于它的类权重。为方便起见,定义了一组类权值 $W=\left(\mathbf{w}_{1}, \ldots, \mathbf{w}_{C}\right)$,一个特征向量 $\mathbf{f}_{i}$ ,分类概率 $\mathbf{p}_{i}$,$C$ 是类别的数量,概率 $p_{i}$ 的第 $c$ 分量 $p_{i, c}$,由 $p_{i, c}=\frac{\exp \left(\mathbf{w}_{c}^{\top} \mathbf{f}_{i}\right)}{\sum_{j \neq c} \exp \left(\mathbf{w}_{j}^{\top} \mathbf{f}_{i}\right)+\exp \left(\mathbf{w}_{c}^{\top} \mathbf{f}_{i}\right)}$ 定义。假设 $\mathbf{f}_{i}$ 接近 $\mathbf{w}_{c}$,这意味着 $\mathbf{w}_{c}^{\top} \mathbf{f}_{i}$  变大,$p_{i, c}$ 将接近 $1$。同时,当 $p_{i, c}$ 接近于 1 时, $\left\{p_{i, j}\right\}_{j \neq c}$ 将接近于 0,因为 $\sum_{j} p_{i, j}=1$。也就是说,当 $f_i$ 接近一个类权重时,概率 $p_i$ 将近似 one-hot 形式。

  受这种直觉的启发,我们鼓励特征的概率尽可能接近一个 one-hot 形式,以减少特征和类权重之间的距离。在本工作中,我们发现,只要特征被概率取代,并且去除 L2 归一化,对比损失将自动迫使特征的概率接近单热形式,Figure 1(c) 说明了这些结果。

3 Method

  我们用特征提取器 $E$ 和分类器 $F$ 定义模型 $M=F \circ E$。这里 $F$ 有参数 $W=\left(\mathbf{w}_{1}, \ldots, \mathbf{w}_{C}\right)$,其中 $C$ 是类的数量,$\mathbf{w}_{k}$ 是第 $k$ 个类的类权重(也称为类原型)。

3.1 Feature Contrastive Learning

  源域图像已有清晰的监督信号,不再需要对比学习。因此,只计算目标域数据的对比学习损失。具体来说,设 $\mathcal{B}=\left\{\left(x_{i}, \tilde{x}_{i}\right)\right\}_{i=1}^{N}$ 是从目标域采样得的批数据,其中 $N$ 是批大小,$x_{i}$ 和 $\tilde{x}_{i}$ 是一个样本的两个随机变换。然后,我们使用 $E$ 来提取特征,并得到 $\mathcal{F}=\left\{\left(\mathbf{f}_{i}, \tilde{\mathbf{f}}_{i}\right)\right\}_{i=1}^{N}$。特征 $\mathbf{f}_{i}$ 和 $\tilde{\mathbf{f}}_{i}$ 是正样本对,其他样本是负样本对。InfoNCE 损失如下:

    $\ell_{\mathbf{f}_{i}}=-\log \frac{\exp \left(s g\left(\mathbf{f}_{i}\right)^{\top} g\left(\tilde{\mathbf{f}}_{i}\right)\right)}{\sum_{j \neq i} \exp \left(\operatorname{sg}\left(\mathbf{f}_{i}\right)^{\top} g\left(\mathbf{f}_{j}\right)\right)+\sum_{k} \exp \left(s g\left(\mathbf{f}_{i}\right)^{\top} g\left(\tilde{\mathbf{f}}_{k}\right)\right)} \quad\quad\quad(1)$

  其中,$g(\mathbf{f})=\frac{\mathbf{f}}{\|\mathbf{f}\|_{2}}$ 是标准的 L2 标准化,$s $ 是温度可调参。

3.2 Naive Solution

  为引入类权重的信息,最直接的方法是利用分类器后的特征来计算对比损失,【即后文的 LCL】。4.1 节显示 LCL 不能提高 FCL 的性能,这是因为 然 LCL 引入了类权值的信息,但 LCL 损失的优化过程并没有直接限制特征和类权值之间的距离。

  交叉熵损失函数回顾:

    $\operatorname{loss}(\mathrm{x}, \text { class })=-\log \left(\frac{\exp (\mathrm{x}[\text { class }])}{\sum_{\mathrm{j}} \exp (\mathrm{x}[\mathrm{j}])}\right)=-\mathrm{x}[\operatorname{class}]+\log \left(\sum_{\mathrm{j}} \exp (\mathrm{x}[\mathrm{j}])\right)$

  https://blog.csdn.net/yyhaohaoxuexi/article/details/113824125

3.3 Probabilistic Contrastive Learning

  本文不是设计一种新的信息损失形式,而是关注如何通过构造一个新的输入 $\mathbf{f}_{i}^{\prime}$ 来计算对比损失,使特征 $f_i$ 接近类权重。也就是说,关于 $\mathbf{f}_{i}^{\prime}$ 的损失仍然是由

    ${\large \ell_{\mathbf{f}_{i}^{\prime}}=-\log \frac{\exp \left(s \mathbf{f}_{i}^{\prime} \tilde{\mathbf{f}}^{\prime}{ }_{i}\right)}{\sum_{j \neq i} \exp \left(s \mathbf{f}_{i}^{\prime} \mathbf{f}_{j}^{\prime}\right)+\sum_{k} \exp \left(s \mathbf{f}_{i}^{\prime \top} \tilde{\mathbf{f}}_{k}^{\prime}\right)} .}  \quad\quad\quad(2)$

  然后我们的目标是设计一个合适的 $\mathbf{f}_{i}^{\prime}$,这样 $\ell_{\mathbf{f}_{i}^{\prime}}$ 越小,$f_i$ 就越接近类的权重。

  从 Eq.2 中可知,$\ell_{\mathbf{f}_{i}^{\prime}}$ 越小,表示 $\mathbf{f}_{i}^{\prime \top} \tilde{\mathbf{f}}_{i}^{\prime}$ 越大。因此,上述问题可以粗略地简化为 $\mathbf{f}_{i}^{\prime} \tilde{\mathbf{f}}_{i}^{\prime}$ 越大,$\mathbf{f}_{i}$ 越接近类权重。另一方面,如引言中所解释的,$\mathbf{f}_{i}$ 越接近类的权重,对应的概率 $p_i$ 就越接近 one-hot 形式,即满足下面的形式:

    $\mathbf{p}_{i}=(0, . ., 1, . ., 0) \quad\quad\quad(3)$

  因此,我们的目标可以重新表述为如何设计一个合适的 $\mathbf{f}_{i}^{\prime}$,使 $\mathbf{f}_{i}^{\prime} \tilde{\mathbf{f}}^{\prime}{ }_{i}$ 越大,$\mathbf{p}_{i}$ 越接近Eq.3 中的 one-hot 形式。

  幸运的是,我们发现概率 $\mathbf{p}_{i}$ 本身可以满足这样的要求。这里我们来解释一下细节。注意,$\mathbf{p}_{i}=\left(p_{i, 1}, \ldots, p_{i, C}\right)$ 和 $\tilde{\mathbf{p}}_{i}=\left(\tilde{p}_{i, 1}, \ldots, \tilde{p}_{i, C}\right)$ 都是概率分布。然后我们有

    $0 \leq p_{i, c} \leq 1,\quad 0 \leq \tilde{p}_{i, c} \leq 1,\quad \forall c \in\{1, \ldots, C\}\quad\quad\quad(4)$

  此外,$\mathbf{p}_{i}$ 和 $\tilde{\mathbf{p}}_{i}$ 的 $\ell_{1}$-norm  等于 1。即,$\left\|\mathbf{p}_{i}\right\|_{1}=\sum_{c} p_{i, c}=1$ 、$\left\|\tilde{\mathbf{p}}_{i}\right\|_{1}=\sum_{c} \tilde{p}_{i, c}=1$。显然,我们有

    $\mathbf{p}_{i}^{\top} \tilde{\mathbf{p}}_{i}=\sum_{c} p_{i, c} \tilde{p}_{i, c} \leq 1\quad\quad\quad(5)$

  等式成立的条件是 $\mathbf{p}_{i}= \tilde{\mathbf{p}}_{i}$,且 $\mathbf{p}_{i}$ 和 $\tilde{\mathbf{p}}_{i}$ 是 one-hot 形式。

  从推导过程中,我们可以看到原型的概率的 1-范数等于 1 的性质是非常重要的。这一性质保证了只有当 $\mathbf{p}_{i}$ 和 $\tilde{\mathbf{p}}_{i}$ 同时满足 one-hot 形式时,才能达到 $\mathbf{p}_{i}^{\top} \tilde{\mathbf{p}}_{i}$的最大值。显然不能像 FCL 一样在概率上使用 L2 范数了,最后,我们新的对比损失定义为

    $\ell_{\mathbf{p}_{i}}=-\log \frac{\exp \left(s \mathbf{p}_{i}^{\top} \tilde{\mathbf{p}}_{i}\right)}{\sum_{j \neq i} \exp \left(s \mathbf{p}_{i}^{\top} \mathbf{p}_{j}\right)+\sum_{k} \exp \left(s \mathbf{p}_{i}^{\top} \tilde{\mathbf{p}}_{k}\right)}\quad\quad\quad(6)$

  下图给出 FCL 和 PCL 框架的对比:

  

4 Discussing: Is PCL a trick?

  PCL非常简单,看起来像是一个技巧。然而,这种简单操作背后的原理是本文的核心价值。

  1.目前的方法[51,52,82]通常将对比学习作为一种提高特征一致性的一般技术,并经常关注假阴性样本问题。很少有作品从减少特征距离和类权重距离的角度来考虑对比学习。因此,我们有理由相信,这不是一个微不足道的观点。

  2.基于以上观点,我们通过深入的分析,推导出一个简明的PCL。请注意,尽管PCL有点类似于投影头,但它与投影头有完全不同的动机。我们稍后还将证明,它不能从投影头的角度自然地扩展到PCL。

  3.如果没有分析,我们就很难回答:为什么PCL中涉及的两个简单操作如此重要?为什么 logits+L2 normalization 不好?为什么 probability + L2 normalization 的效果不好?

  接下来,我们将证明一些常见的对比学习改进策略或自然泛化不能取代PCL在领域适应任务中的作用。

4.1 PCL v.s.FCL

  先放一个结果:

  

  实验发现:1) 传统的 FCL 对比 Baseline 在结果上能有一定的提升,2) PCL 对比 FCL 能有 5% 的提升。

4.2 PCL v.s. FCL with Projection Head

  SimCLR 证明了 Projection Head 是一个有用的技巧,本文思考能否将其用到 PCL 中,如下是三种 Projection Head:

  ① 在特征上先使用一个非线性变换(nonlinear transformation,NT),然后使用 L2 normalization;【NT-Based Contrastive Learning (NTCL)】

  ② 直接使用分类器的输出作为投影头【 logits contrastive learning (LCL)】

  ③ 投影头为 Classifier+softmax 【 PCL-L2】

  

  Table1 说明:

    • 上述三个投影头的性能都低于PCL,说明 PCL 增益的关键原因不是使用投影头;  
    • LCL 和 PCL-L2 都不如 PCL,这说明简单地引入类权重信息并不能有效地强制执行类权重周围的特征定位;  
    • 实验结果验证了 PCL 的动机。目前的对比学习方法都遵循 Feature+L2 normalization 的标准范式,且没有理由采用概率的形式和移除 L2 normalization ;  

4.3 PCL v.s. SFCL

  为解决假阴性样本的问题,一个简单的方向是监督对比学习 SFCL(supervised feature contrastive learning [26]),SFCL 要求使用标签,以避免假阴性样本。

  

  Table 2显示了结果。可以看出,SFCL 确实可以提高 FCL 的性能。然而,与 PCL 相比,SFCL 比 FCL 的改进非常有限。具体来说,SFCL 可以通过减轻假阴性问题来学习更好的特征表示,但它不能解决特征偏离类权值的问题,如FCL。实验结果表明,特征偏离类权值比负样本问题对域自适应更为重要。

4.4 The Importance of InfoNCE Loss

  在本节中,将探讨是否有必要使用基于 InfoNC E损失的函数形式来近似的概率得到 one-hot 形式。特别地,考虑了二值交叉熵损失(BCE)。

    $\ell_{b c e}=-\sum_{i, j, m, n}\left(\hat{y}_{i, j}^{n, m} \log \left(p_{i, j}^{n, m}\right)+\left(1-\hat{y}_{i, j}^{n, m}\right) \log \left(1-p_{i, j}^{n, m}\right)\right)\quad\quad\quad(6)$

  为方便起见,记 $\mathbf{p}_{i}$  和  $\tilde{\mathbf{p}}_{i}$ 分别为 $\mathbf{p}_{i}^{0}$、$\mathbf{p}_{i}^{1}$。

  其中 $n, m \in\{0,1\}$,$p_{i, j}^{n, m}=\mathbf{p}_{i}^{n \top} \mathbf{p}_{j}^{m}$ ,$\hat{y}_{i, j}^{n, m}=   \mathbb{1}\left [ p_{i, j}^{n, m} \geq t \quad \text{ or } \quad  (i=j)\right] $,本文设置 $t=0.95$。

  BCE loss 会 最大化 $p_{i, j}^{n, m}=\mathbf{p}_{i}^{n \top} \mathbf{p}_{j}^{m}$ ,当 $\hat{y}_{i, j}^{n, m}=1$。$p_{i, j}^{n, m}$ 取最大当且仅当 $\mathbf{p}_{i}^{n}$、$\mathbf{p}_{j}^{m}$ 相等,且有 one-hot 形式。

4.5 T-SNE Visualization

  

论文解读(PCL)《Probabilistic Contrastive Learning for Domain Adaptation》的更多相关文章

  1. 论文解读(PCL)《Prototypical Contrastive Learning of Unsupervised Representations》

    论文标题:Prototypical Contrastive Learning of Unsupervised Representations 论文方向:图像领域,提出原型对比学习,效果远超MoCo和S ...

  2. 论文解读(SimCLR)《A Simple Framework for Contrastive Learning of Visual Representations》

    1 题目 <A Simple Framework for Contrastive Learning of Visual Representations> 作者: Ting Chen, Si ...

  3. A Simple Framework for Contrastive Learning of Visual Representations

    目录 概 主要内容 流程 projection head g constractive loss augmentation other 代码 Chen T., Kornblith S., Norouz ...

  4. 论文解读(SUGRL)《Simple Unsupervised Graph Representation Learning》

    Paper Information Title:Simple Unsupervised Graph Representation LearningAuthors: Yujie Mo.Liang Pen ...

  5. 论文解读(SUBLIME)《Towards Unsupervised Deep Graph Structure Learning》

    论文信息 论文标题:Towards Unsupervised Deep Graph Structure Learning论文作者:Yixin Liu, Yu Zheng, Daokun Zhang, ...

  6. 论文解读《Deep Resdual Learning for Image Recognition》

    总的来说这篇论文提出了ResNet架构,让训练非常深的神经网络(NN)成为了可能. 什么是残差? "残差在数理统计中是指实际观察值与估计值(拟合值)之间的差."如果回归模型正确的话 ...

  7. A Simple Framework for Contrastive Learning of Visual Representations 阅读笔记

      Motivation 作者们构建了一种用于视觉表示的对比学习简单框架 SimCLR,它不仅优于此前的所有工作,也优于最新的对比自监督学习算法, 而且结构更加简单:这个结构既不需要专门的架构,也不需 ...

  8. 论文解读(GRACE)《Deep Graph Contrastive Representation Learning》

    Paper Information 论文标题:Deep Graph Contrastive Representation Learning论文作者:Yanqiao Zhu, Yichen Xu, Fe ...

  9. 论文解读(GCA)《Graph Contrastive Learning with Adaptive Augmentation》

    论文信息 论文标题:Graph Contrastive Learning with Adaptive Augmentation论文作者:Yanqiao Zhu.Yichen Xu3.Feng Yu4. ...

  10. 论文解读(Debiased)《Debiased Contrastive Learning》

    论文信息 论文标题:Debiased Contrastive Learning论文作者:Ching-Yao Chuang, Joshua Robinson, Lin Yen-Chen, Antonio ...

随机推荐

  1. 使用FastDFS打造一款高可用的分布式文件系统

    FastDFS 介绍 参考: http://www.oschina.net/p/fastdfs FastDFS 是一个开源的分布式文件系统,它对文件进行管理,功能包括:文件存储.文件同步.文件访问(文 ...

  2. Java复制Word文档

    Microsoft Word 提供了许多易于使用的文档操作工具,同时也提供了丰富的功能集供创建复杂的文档使用.在使用的时候,你可能需要复制一个文档里面的内容到另一个文档.本文介绍使用Spire.Doc ...

  3. flutter系列之:builder为构造器而生

    目录 简介 Builder StatefulBuilder LayoutBuilder 总结 简介 flutter中有很多种Builder,虽然所有的builder都是构造器,但是不同的builder ...

  4. Java I/O(3):NIO中的Buffer

    您好,我是湘王,这是我的博客园,欢迎您来,欢迎您再来- 之前在调用Channel的代码中,使用了一个名叫ByteBuffer类,它是Buffer的子类.这个叫Buffer的类是专门用来解决高速设备与低 ...

  5. C语言编译环境中的 调试功能及常见错误提示

    文章目录 1 .调试功能 2 . 编译中的常见错误例析 3 .常见错误信息语句索引 1 .调试功能 1.常用健 <F10> : 激活系统菜单 <F6> : 将光标在编辑窗口和. ...

  6. 解决在vue中设置的height: 100%没有效果

    在新的页面设置height无效果的时候.需要改动App这个文件的heigth 解决办法.给app这个盒子设置高度.默认情况下为0 设置高度100%时,div的高度会等同于其父元素的高度.而上面中id为 ...

  7. 齐博x1直播要设置回调地址才能播放

    因为通过扫码或推流网址给第三方用,也能让圈子实现直播,所以系统就改为必须要设置回调地址才能播放视频了.下面阿里与腾讯的都是大同小异的.腾迅的有多项,阿里的只有一项,不过阿里其实还有另一项,就是录制的时 ...

  8. Spring 深入——IoC 容器 02

    IoC容器的实现学习--02 目录 IoC容器的实现学习--02 回顾 IoC 容器的初始化过程: BeanDefinition 的 Resource 定位 小结: 回顾 前面学习了 IoC 模式的核 ...

  9. 23.mixin类源码解析

    mixin类用于提供视图的基本操作行为,注意mixin类提供动作方法,而不是直接定义处理程序方法 例如.get() .post(),这允许更灵活的定义,mixin从rest_framework.mix ...

  10. html+css 面试题总结附答案

    行内元素有哪些? 块级元素有哪些? 块级元素:div p h1 ul li form table行内元素: a b br i span input select laber strong em img ...