论文信息

论文标题:Debiased Contrastive Learning
论文作者:Ching-Yao Chuang, Joshua Robinson, Lin Yen-Chen, Antonio Torralba, Stefanie Jegelka
论文来源:2020, NeurIPS
论文地址:download
论文代码:download

1 Introduction

  观察的结果:将拥有不同标签的样本作为负样本能显著提高性能。

  对比学习思想:鼓励相似对 $\left(x, x^{+}\right)$ 的表示更接近,而不同对 $\left(x, x^{-}\right)$ 的表示更远:

    $\mathbb{E}_{x, x^{+},\left\{x_{i}^{-}\right\}_{i=1}^{N}}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\sum\limits _{i=1}^{N} e^{f(x)^{T} f\left(x_{i}^{-}\right)}}\right] \quad\quad\quad(1)$

  图解如下:

   

  抽样偏差(sampling bias):由于真正的标签或真正的语义相似性通常是不可用的,负对 $x^{-}$  通常从训练数据中抽取,这意味着 $x^{-}$  实际上可能和  $x$  相似。

  $\text{Figure 2}$ 对比了不存在抽样偏差和存在抽样偏差的性能对比:

  

  设 $\mathcal{X}$ 上的数据分布 $p(x)$,代表语义意义的标签离散潜在类 $\mathcal{C}$,即相似的对 $\left(x, x^{+}\right)$ 具有相同的潜在类。用 $\rho(c)$ 表示类分布,得到联合分布 $p_{x, c}(x, c)=p(x \mid c) \rho(c)$。

  设 $h: \mathcal{X} \rightarrow \mathcal{C}$ 是潜在类标签分配函数,然后  $p_{x}^{+}\left(x^{\prime}\right)=p\left(x^{\prime} \mid h\left(x^{\prime}\right)=h(x)\right) $ 中观察到的 $x^{\prime}$ 是 $x$ 的正对的概率,$p_{x}^{-}\left(x^{\prime}\right)=p\left(x^{\prime} \mid h\left(x^{\prime}\right) \neq h(x)\right)$ 中观察到的 $x^{\prime}$ 是 $x$ 的负对的概率。

  假设类 $c$ 概率 $\rho(c)=\tau^{+}$ ,不是的概率为 $\tau^{-}=1-\tau^{+}$ 。

  综上,对比损失函数可以优化为:

    ${\large L_{\text {Unbiased }}^{N}(f)=\mathbb{E}_{\substack{x \sim p, x^{+} \sim p_{-}^{+} \\ x_{i}^{-} \sim p_{x}^{-}}}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\frac{Q}{N} \sum\limits_{i=1}^{N} e^{f(x)^{T} f\left(x_{i}^{-}\right)}}\right]} \quad\quad\quad(2)$

  其中,$Q $ 代表着权重参数。当 $Q=N$ 时,即标准的对比损失函数。

  对有偏对比损失函数和无偏对比损失函数的分析:

  Lemma 1. For any embedding $f$ and finite $N$, we have

    ${\large L_{\text {Biased }}^{N}(f) \geq L_{\text {Unbiased }}^{N}(f)+\mathbb{E}_{x \sim p}\left[0 \wedge \log \frac{\mathbb{E}_{x^{+} \sim p_{x}^{+}} \exp f(x)^{\top} f\left(x^{+}\right)}{\mathbb{E}_{x^{-} \sim p_{x}^{-}} \exp f(x)^{\top} f\left(x^{-}\right)}\right]-e^{3 / 2} \sqrt{\frac{\pi}{2 N}}} \quad\quad\quad(3)$

  where $a \wedge b$ denotes the minimum of two real numbers $a$ and $b$.

  Lemma 1 所带来的问题:

    • 无偏损失越小,第二项就越大,差距就越大;
    • 最小化 $L_{\text {Biased }}^{N}$ 的上界和最小化理想情况的 $L_{\text {Unbiased }}^{N}$ 所产生的潜在表示是不同的;

2 Method

  我们首先将数据分布(data distribution)分解为【当从 $p(x)$ 中提取样本时,样本 $x_{i}^{-}$ 将来自与 $x$ 相同的类,概率为 $\tau^{+}$。】

    $p\left(x^{\prime}\right)=\tau^{+} p_{x}^{+}\left(x^{\prime}\right)+\tau^{-} p_{x}^{-}\left(x^{\prime}\right)$

  相应的

    $p_{x}^{-}\left(x^{\prime}\right)=\left(p\left(x^{\prime}\right)-\tau^{+} p_{x}^{+}\left(x^{\prime}\right)\right) / \tau^{-}$

  $\text{Eq.2}$ 的一种替代形式:

    ${\large \frac{1}{\left(\tau^{-}\right)^{N}} \sum\limits_{k=0}^{N}\left(\begin{array}{c}N \\k\end{array}\right)\left(-\tau^{+}\right)^{k} \mathbb{E}_{\substack{x p p, x^{+} \sim p_{x}^{+} \\\left\{x_{i}^{-}\right\}_{i=1}^{k} \sim p_{x}^{+} \\\left\{x_{i}^{-}\right\}_{i=k+1}^{N} \sim p}}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\sum\limits_{i=1}^{N} e^{f(x)^{T} f\left(x_{i}^{-}\right)}}\right]} \quad\quad\quad(4)$

  为了得到一个更实际的形式,我们考虑了负例数 $N$ 趋于无穷时的渐近形式。

  Lemma 2. For fixed  $Q$ and $N \rightarrow \infty$  , it holds that

    $\underset{\substack{x \sim p, x^{+} \sim p_{x}^{+} \\\left\{x_{i}^{-}\right\}_{i=1}^{N} \sim p_{x}^{-N}}}{\mathbb{E}}\left[\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\frac{Q}{N} \sum\limits_{i=1}^{N} e^{f(x)^{T} f\left(x_{i}^{-}\right)}}\right]\quad\quad\quad(5)$

    ${\large \longrightarrow   \tilde{L}_{\text {Debiased }}^{Q} =  \underset{x^{+} \sim p_{x}^{+}}{\mathbb{E}}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\frac{Q}{\tau^{-}}\left(\mathbb{E}_{x^{-} \sim p}\left[e^{f(x)^{T} f\left(x^{-}\right)}\right]-\tau^{+} \mathbb{E}_{v \sim p_{x}^{+}}\left[e^{f(x)^{T} f(v)}\right]\right)}\right]} \quad\quad\quad(6)$

  $\text{Eq.6}$ 仍然从 $p$ 中取样例子 $x^−$ ,但用额外的正样本 $v$ 来修正。这本质上是重新加权分母中的正项和负项。

  经验估计 $\widetilde{L}_{\text {Debiased }}^{Q}$ 比直接的 $Eq.5$ 更容易计算。在数据分布 $p$ 中采样 $N$ 个样本 $\left\{u_{i}\right\}_{i=1}^{N}$,在分布 $p_{x}^{+} $ 中采样 $M$ 个样本 $\left\{u_{i}\right\}_{i=1}^{M}$,将  $Eq.6$ 分母中的第二项重新估计为:

    $g\left(x,\left\{u_{i}\right\}_{i=1}^{N},\left\{v_{i}\right\}_{i=1}^{M}\right)=\max \left\{\frac{1}{\tau^{-}}\left(\frac{1}{N} \sum\limits_{i=1}^{N} e^{f(x)^{T} f\left(u_{i}\right)}-\tau^{+} \frac{1}{M} \sum\limits_{i=1}^{M} e^{f(x)^{T} f\left(v_{i}\right)}\right), e^{-1 / t}\right\}\quad\quad\quad(7)$

  我们约束估计量 $g$ 大于它的理论最小值 $e^{-1 / t} \leq \mathbb{E}_{x^{-} \sim p_{x}^{-}} e^{f(x)^{T} f\left(x_{i}^{-}\right)}$ 以防止计算一个负数的对数。当数据$ N$ 和 $M$ 固定后,由此产生的损失为

    ${\large L_{\text {Debiased }}^{N, M}(f)=\mathbb{E}_{\substack{x \sim p ; x^{+} \sim p_{x}^{+} \\\left\{u_{i}\right\}_{i=1}^{N} \sim p^{N} \\\left\{v_{i}\right\}_{i=1}^{N} \sim p_{x}^{+M}}}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+N g\left(x,\left\{u_{i}\right\}_{i=1}^{N},\left\{v_{i}\right\}_{i=1}^{M}\right)}\right]} \quad\quad\quad(8)$

  其中,为简单起见,我们将 $Q$ 设置为有限的 $N$。类先验 $\tau^{+}$ 可以从数据中估计或作为一个超参数处理。Theorem 3 将有限 $N$ 和 $M$ 引起的误差限定为随速率 $\mathcal{O}\left(N^{-1 / 2}+M^{-1 / 2}\right)$ 递减。

  Theorem 3. For any embedding  $f$  and finite  $N$  and  $M$  , we have

    ${\large \left|\widetilde{L}_{\text {Debiased }}^{N}(f)-L_{\text {Debiased }}^{N, M}(f)\right| \leq \frac{e^{3 / 2}}{\tau^{-}} \sqrt{\frac{\pi}{2 N}}+\frac{e^{3 / 2} \tau^{+}}{\tau^{-}} \sqrt{\frac{\pi}{2 M}}} \quad\quad\quad(9)$

  实验表明,较大的 $N$ 和 $M$ 始终会导致更好的性能。在实现中,我们对 $L_{\text {Debiased }}^{N, M}$ 使用一个完整的经验估计,以平均在 $T$ 个点 $x$ 上,有限 $N$ 和 $M$ 的损失。

3 Experiments

实验结果

  • 新的损失在视觉、语言和强化学习基准上优于先进的对比学习;
  • 学习到的嵌入更接近理想的无偏目标;
  • 大 $N$ 大 $M$  提高性能;甚至一个比标准 $M=1$ 更积极的例子可以明显帮助;

论文解读(Debiased)《Debiased Contrastive Learning》的更多相关文章

  1. 论文解读《Deep Resdual Learning for Image Recognition》

    总的来说这篇论文提出了ResNet架构,让训练非常深的神经网络(NN)成为了可能. 什么是残差? "残差在数理统计中是指实际观察值与估计值(拟合值)之间的差."如果回归模型正确的话 ...

  2. 论文解读(PCL)《Prototypical Contrastive Learning of Unsupervised Representations》

    论文标题:Prototypical Contrastive Learning of Unsupervised Representations 论文方向:图像领域,提出原型对比学习,效果远超MoCo和S ...

  3. 论文解读(GCA)《Graph Contrastive Learning with Adaptive Augmentation》

    论文信息 论文标题:Graph Contrastive Learning with Adaptive Augmentation论文作者:Yanqiao Zhu.Yichen Xu3.Feng Yu4. ...

  4. 论文解读(GRACE)《Deep Graph Contrastive Representation Learning》

    Paper Information 论文标题:Deep Graph Contrastive Representation Learning论文作者:Yanqiao Zhu, Yichen Xu, Fe ...

  5. 论文解读(S^3-CL)《Structural and Semantic Contrastive Learning for Self-supervised Node Representation Learning》

    论文信息 论文标题:Structural and Semantic Contrastive Learning for Self-supervised Node Representation Learn ...

  6. 论文解读(MLGCL)《Multi-Level Graph Contrastive Learning》

    论文信息 论文标题:Structural and Semantic Contrastive Learning for Self-supervised Node Representation Learn ...

  7. 论文解读(GROC)《Towards Robust Graph Contrastive Learning》

    论文信息 论文标题:Towards Robust Graph Contrastive Learning论文作者:Nikola Jovanović, Zhao Meng, Lukas Faber, Ro ...

  8. 论文解读(MERIT)《Multi-Scale Contrastive Siamese Networks for Self-Supervised Graph Representation Learning》

    论文信息 论文标题:Multi-Scale Contrastive Siamese Networks for Self-Supervised Graph Representation Learning ...

  9. 论文解读(SimGRACE)《SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation》

    论文信息 论文标题:SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation论文作者: ...

随机推荐

  1. List 操作add 报错

    操作List报java.lang.UnsupportedOperationException 2018.03.12 16:52:01字数 230阅读 1683 问题描述 今天在项目中调用List的ad ...

  2. 面试问题之C++语言:简述编译过程

    转载于:https://blog.csdn.net/ypshowm/article/details/89374706 编译过程主要分为四步: 1.词法分析(扫描) 运行类似于有限状态机的算法将源代码的 ...

  3. Spring 框架中都用到了哪些设计模式?

    (1)工厂模式:BeanFactory就是简单工厂模式的体现,用来创建对象的实例: (2)单例模式:Bean默认为单例模式. (3)代理模式:Spring的AOP功能用到了JDK的动态代理和CGLIB ...

  4. VMware ESXi安装NVIDIA GPU显卡硬件驱动和配置vGPU

    一.驱动软件准备:从nvidia网站下载驱动,注意,和普通显卡下载驱动地址不同. 按照ESXi对应版本不同下载不同的安装包.安装包内含ESXi主机驱动和虚拟机驱动. GPU显卡和物理服务器兼容查询:( ...

  5. 如何解决Ubuntu下的“E: Unable to correct problems, you have held broken packages.”的问题. aptitude

    今天安装build-essential时出现了以下问题,这属于包的依赖. 解决方案: 1,sudo apt-get install aptitude:完成aptitude命令安装 2,sudo apt ...

  6. ionic3 教程(五)基本的网络请求

    链接: ionic3教程(一)安装和配置 ionic3教程(二)登录页制作 ionic3教程(三)设置页制作 ionic3教程(四)安卓硬件返回键处理ionic3 教程(五)基本的网络请求 这是最后一 ...

  7. 一份你可以在 <head> 里设置的列表

    A list of everything that could go in the <head> of your document github 原地址:https://github.co ...

  8. 前端工作面试HTML相关问题

    前端工作面试HTML相关问题 Q: doctype(文档类型)的作用是什么? A: 在HTML中 doctype 有两个主要目的. 对文档进行有效性验证: 它告诉用户代理和校验器这个文档是按照什么DT ...

  9. java的内存泄露是如何发生的,如何避免和发现

    java的垃圾回收与内存泄露的关系:[新手可忽略不影响继续学习] 马克-to-win:上一节讲了,(i)对象被置成null.(ii)局部对象(无需置成null)当程序运行到右大括号.(iii)匿名对象 ...

  10. Python疫情爬取输出到txt文件

    在网上搬了一个代码,现在不适用了,改了改 import requestsimport jsondef Down_data(): url = 'https://view.inews.qq.com/g2/ ...