对比学习下的跨模态语义对齐是最优的吗？---自适应稀疏化注意力对齐机制 IEEE Trans. MultiMedia

论文介绍：Unified Adaptive Relevance Distinguishable Attention Network for Image-Text Matching （统一的自适应相关性可区分注意力网络）IEEE Trans. MultiMedia

主要优势：

1）首次提出一种自适应的相关性区分注意力学习框架。在对比学习的相对概念下，通过将注意力阈值也统一到学习过程，实现一种相互提升的优化方式，能够在学习更具备对齐区分性的特征嵌入同时，获取最优的注意力区分阈值。

2）通过自适应学习的最优相关性阈值，将之前的稠密冗余跨模态注意力对齐，优化为稀疏精确的，进一步提升对齐精度。

3）通过自适应学习的最优相关性阈值，将之前的全片段图文相似度计算，优化为相关部分计算，进一步消减计算耗时。

一、前言

　　图像文本匹配任务定义：也称为跨模态图像文本检索，即通过某一种模态实例，在另一模态中检索语义相关的实例。例如，给定一张图像，查询与之语义对应的文本，反之亦然。具体而言，对于任意输入的文本-图像对（Image-Text Pair），图文匹配的目的是衡量图像和文本之间的语义相似程度。

图1 图文匹配的输入和输出

核心挑战：图像文本跨模态语义关联致力于弥合视觉模态和语言模态之间的语义鸿沟，目的是实现异质模态（底层像素组成的图像和高层语义向量表示的文本）间的准确语义对齐，即挖掘和建立图像和文本的跨模态语义一致性关联对应关系。

　　现状分析：在训练过程中如何约束？通常使用的方法是结构化排序损失，约束的是相似度相对大小，其中匹配样本对被拉到一起，而不匹配对被推开。在图像文本匹配领域，大家通常采用的损失函数为：三元组排序损失（Triplet Ranking Loss），其的基本思想就是约束匹配的图文对相似度相对于不匹配图文对相似度高。为了提升训练效率，相对于匹配的图文对，我们仅约束最相关的不匹配图文对，即最难负例：

\begin{equation}\label{E2}
S(U, V) > S(U, V’) , \quad S(U, V) > S(U’, V).
\end{equation}

其中$S(U, V)$为匹配的图文对，而$S(U, V’) $和$S(U’, V)$表示不匹配的图文对。

　　如何实现图像文本的语义对齐？现有工作可以大致分为两类：1）全局关联：以整个文本和图像作为对象学习语义关联；2）局部关联：以细粒度的图像显著区域和文本单词作为对象学习语义关联。早期的工作属于全局关联，即将整个图像和文本通过相应的深度学习网络映射至一个潜在的公共子空间，在该空间中图像和文本的跨模态语义关联相似度可以被直接衡量，并且约束语义匹配的图文对相似度大于其余不匹配的图文对。然而，这种全局关联范式忽略了图像局部显著信息以及文本局部重要单词的细粒度交互，阻碍了图像文本语义关联精度的进一步提升。因此，基于细粒度图像区域和文本单词的局部关联受到广泛的关注和发展，并快速占据主导优势。对于现有的图像文本跨模态语义关联范式，核心思想是挖掘所有图像片段和文本片段之间的对齐关系。

图2 图文匹配的发展现状

交叉注意力网络SCAN通过区域和单词之间的相互关注机制来捕捉所有潜在的局部对齐，并激发出了一系列工作。跨模态交叉注意力旨在挖掘所有图像区域和文本单词之间的对齐关系，通过局部语义对齐来推理整体相关性。得益于细粒度的模态信息交互，基于交叉注意力的方法取得显著的性能提升，并成为当前图像文本跨模态语义关联的主流范式。

图3 跨模态交叉注意力范式SCAN

　　现有局部关联范式问题分析：

图4 动机示意图，现有注意力对齐范式的相关性区分是静态固定的，不能自适应动态的相关性学习过程。不可避免的导致次优的特征嵌入学习（不能最大化的分开相关和不相关跨模态特征）和引入干扰噪声（不能准确的排除无关语义）

　　对于给定的图像$V$和文本$U$，我们将图像表示为$V=\{v_j | j\in[1, n], v_j \in \mathbb{R}^{d}\}$，其中$n$为图像显著区域的个数，将文本表示为$U=\{u_i | i\in [1, m], u_i \in \mathbb{R}^{d}\}$，其中$m$为文本单词的个数。然后，现有方法通常利用注意力机制来挖掘模态间的共享语义，并通过共享语义衡量图文的相似程度$S(U, V)$:

\begin{equation}\label{E1}
S(U, V) = \frac{1}{m}\sum_{i=1}^{m}R(S^{V}_{i},u_{i}) + \frac{1}{n}\sum_{j=1}^{n}R(S^{U}_{j},v_{j}),
\end{equation}

其中$S^{V}_{i}$表示图像中与第$i$个检索单词$u_{i}$相关的共享语义，$S^{U}_{j}$则表示文本中与第$j$个检索区域$v_{j}$相关的共享语义, $R(\cdot)$表示相似度衡量函数。

　　共享语义$S^{V}_{i}$和$S^{U}_{j}$分别是基于跨模态注意力机制的图像和文本相关片段的聚合：

\begin{equation}\label{E3}
S^{V}_{i}=\sum_{j=1}^{n}w_{i,j}v_{j}, \quad S^{U}_{j}=\sum_{i=1}^{m}w_{j,i}u_{i},
\end{equation}

其中$w_{i,j}$和$w_{j,i}$分别是聚合图像区域和文本单词的注意力权重。具体的，在现有通用注意力范式中，注意力权重是根据‘单词-区域’对的相似度$s_{ij}=cosine(u_{i}, v_{j}), i=1,\ldots, m, j=1,\ldots, n$计算，首先采用经验性阈值零来抹除负的单词-区域’对相似度，通常利用ReLU操作：

\begin{equation}\label{E4}
\hat{s}_{ij}=\left\{\begin{array}{l}{s_{ij}, \quad if \quad s_{ij} > 0,} \\ {0, \ \ \quad if \quad s_{ij} \leq 0,}\end{array}\right.
\end{equation}

其中小于0的相似度$s_{ij}$被置零，然后通过Softmax归一化操作得到注意力权重。

　　然而，现有通用注意力范式完全忽略了在图文相似度的相对大小关系约束下，潜在相关性阈值在训练过程中并不是绝对固定的。现有方法将阈值的相关性区分与特征嵌入学习孤立，不能使模型在学习过程中自适应准确地区分变化的相关和不相关‘单词-区域’相似度分布，这不利于学习更具判别性的图像/文本嵌入特征，也会导致不相关语义对共享语义的干扰。因此，统一特征嵌入学习和相关阈值，以明确区分相关和不相关的片段，是迫切需要的。

二、总体框架

图5 总体框架图

　　总体框架如图5所示，其包含两个主要模块组成联合优化框架：自适应相关性可区分学习模块和跨模态注意力匹配模块。

　　通过这两个模块，将特征嵌入学习和相关性阈值纳入到一个统一的框架，并且在训练过程中相互促进。在前向优化过程中，第一个模块旨在根据相关和不相关‘单词-区域’片段的相似度分布自适应地学习最优相关性阈值。同时，第二个模块旨在借助相关性阈值实现更好的匹配性能，在其后向优化过程中，将改进特征嵌入学习以产生更具区分性的片段特征，因为学习的阈值可以显式的促进相关和不相关分布的分离.

　　具体而言，在第一个模块中，为解决“如何自适应学习最优的相关性区分？”问题，我们提出了一种新的自适应学习方法，即对相关和不相关‘单词-区域’对的相似度分布进行连续建模，然后最小化区分错误概率来求解最优阈值，这将显示区分和分离两个分布。在第二个模块中，为解决“如何在注意力匹配中整合最优相关性区分？”问题，所提框架有两个新颖的方面，即：（1）使用学习的相关性阈值排除不相关的内容片段，注意力可以更精确地关注相关片段，极大地促进语义对齐学习，达到更好的匹配精度； (2) 在图文相似度计算阶段，学习的相关性阈值可以避免不相关查询的计算，大大减少和缓解了现有图文匹配方法的检索耗时。

　　下面简单介绍两个模块的实现思路，具体实现请见论文。

　　1）自适应相关性可区分学习模块

　　为了明确区分相关和不相关的‘单词-区域’片段对的相似度，我们首先需要对两种类型的片段对的相似度进行采样并构造为：

\begin{eqnarray}
\mathcal{S}^{+}_{k} =[s^{+}_{1}, s^{+}_{2}, s^{+}_{3}, \ldots, s^{+}_{i}, \ldots],\label{E5}\\
\mathcal{S}^{-}_{k} =[s^{-}_{1}, s^{-}_{2}, s^{-}_{3}, \ldots, s^{-}_{i}, \ldots],\label{E6}
\end{eqnarray}

其中$\mathcal{S}^{+}_{k}$和$\mathcal{S}^{-}_{k}$可以认为是相关和不相关‘单词-区域’片段对的标签，它们在训练过程中动态更新的，$ k\in [1, b]$表示一个训练小批次中的更新索引（是批量大小）。

　　然后，我们可以估计关于‘单词-区域’相似度$s$的相关分布$F^{+}_{k}(s)$和不相关分布$F^{-}_{k}(s)$。我们期望找到一个最优阈值，以最小的错误概率区分两个分布：

\begin{equation}\label{E7}
t_{k} = \min_{\{t\}} \ \mathcal{P}_{error}(F^{+}_{k}( s), F^{-}_{k}( s), t),
\end{equation}

其中学习的相关性阈值$t_{k}$ 根据训练中的两个不同分布进行自适应调整。此外，在学习过程中，我们还利用动量更新策略来平滑不同更新索引的阈值：

\begin{equation}\label{E8}
t_{k} = \alpha t_{k} + (1-\alpha)t_{k-1},
\end{equation}

其中$t_{k-1}$是前一次更新的学习阈值，$\alpha$为平滑超参数。

　　2）跨模态注意力匹配模块

　　在基于注意力的匹配过程中，显式最优相关性区分阈值可以很容易地被整合到一个统一的学习框架，使阈值可以调整特征嵌入学习，便于学习更具备区别性的片段特征，从而更好地区分相关和不相关语义。我们的目标是准确地找到模态之间的共享语义来衡量图像-文本的相似性，这反映在两个检索方向上，即文本到图像text-to-image $(U-V)$和图像到文本image-to-text $(V-U)$。与通用的注意范式不同，我们利用生成两个掩码以提高图像-文本匹配性能，包括提高准确性和减少检索时间。

　　首先，为了聚合相关内容以形成共享语义，我们采用学习阈值$t_{k}$，通过设计内容掩码函数$Mask_{c}^{t_{k}}(\cdot)$的注意力权重为：

\begin{equation}\label{E13}
\begin{aligned}
S^{V}_{i}&=\sum_{j=1}^{n} Mask_{c}^{t_{k}}(w_{i,j})v_{j},\\
S^{U}_{j}&=\sum_{i=1}^{m} Mask_{c}^{t_{k}}(w_{j,i})u_{i},
\end{aligned}
\end{equation}

其目的是使模型只关注大于相关阈值的片段，过滤掉其他不相关片段的干扰，实现稀疏化注意力对齐。这允许模型在学习过程中根据相关和不相关的分布边界自适应地聚合共享语义，这与现有的总是使用经验阈值零的方法完全不同。

　　其次，我们通过设计查询掩码函数$Mask_{q}^{t_{k}}(\cdot)$进一步区分查询片段的相关性，从而图文相似度的计算写为：

\begin{equation}\label{E14}
\begin{aligned}
S(U, V) =& \frac{1}{m}\sum_{i=1}^{m} Mask_{q}^{t_{k}}(R(S^{V}_{i},u_{i}))+ \\
& \frac{1}{n}\sum_{j=1}^{n} Mask_{q}^{t_{k}}(R(S^{U}_{j},v_{j})),
\end{aligned}
\end{equation}

其目标是避免无关查询片段的相似度计算$R(\cdot)$，这与现有的冗余计算所有片段查询相似度的方法完全不同。

三、创新和优势

（1）主要创新点。与现有的孤立相关性阈值和特征嵌入学习的方法不同，我们将它们整合到一个统一的联合优化框架中，这是这项工作的主要创新点。本质上，它利用自适应学习的阈值来促进学习更具备判别性的特征，同时也使用这些特征来学习最优相关性阈值，这是一个相互促进的联合优化过程，从而产出更易区分相关和不相关的片段。此外，我们没有使用隐式的经验阈值零，而是利用显式和最优相关性阈值来设计精细的掩码函数，可以准确地排除不相关的内容/查询片段，从而提高精度和效率。

（2）图文相似性推理过程。所提框架是一个端到端的优化网络。我们强调学习到的特征嵌入空间和相应的最优阈值是共现的，就如同一把锁（即特征嵌入空间）和其对应的钥匙（即最优阈值）。因此，在推理阶段，我们可以直接使用最优阈值，无需重新学习，因为嵌入空间已经确定。因为，在带来显著性能提升的同时，最优的相关性阈值学习不会在相似度检索推理阶段带来任何的资源开销，验证了其简单却有效。

（3）泛化和可解释性。通常，由于图文匹配中的排序损失约束了相关性和不相关性之间的相对关系，在学习过程中，真正的潜在相关性阈值并不是绝对固定的，这意味着孤立相关性阈值的问题在现有图文匹配通用注意力中是普遍存在的。我们提出的自适应相关性可区分学习是解决这个问题的一种广义辅助方法，可以很容易地与现有的跨模态注意技术集成。此外，注意力的可解释性得到进一步增强，因为我们可以明确区分相关和不相关的片段。

（4）检索耗时和计算成本。在相似度测试阶段，我们的框架不需要额外计算学习阈值，而且可以大大减少无关查询片段的相似度计算（减少约 67%）。因此，对于整体计算复杂度，我们可以减少$R(\cdot)$上 67% 的计算负担。当$R(\cdot)$和大多数方法一样是余弦相似度时，它的计算复杂度是$\mathcal{O}(d)$，其中$d$是特征维度。虽然包括了对片段相似度的最大操作，但我们有片段数$m\ll d$和 $n \ll d$，因此它们的计算负担非常小。根据实验，与现有的方法相比，我们可以将检索耗时相对减少约 50%-73%。

四、参考论文

Zhang, Kun, Mao, Zhendong, Liu, Anan, Zhang, Yongdong (2022). Unified Adaptive Relevance Distinguishable Attention Network for Image-Text Matching. IEEE Transactions on Multimedia. preprint, DOI : 10.1109/TMM.2022.3141603, 2022.

笔者的目的是分享新观点和知识，引用需说明出处，禁止任何形式的抄袭！

对比学习下的跨模态语义对齐是最优的吗？---自适应稀疏化注意力对齐机制 IEEE Trans. MultiMedia的更多相关文章

跨模态语义关联对齐检索-图像文本匹配（Image-Text Matching）
论文介绍:Negative-Aware Attention Framework for Image-Text Matching (基于负感知注意力的图文匹配,CVPR2022) 代码主页:https: ...
图像文本跨模态细粒度语义对齐-置信度校正机制 AAAI2022
论文介绍:Show Your Faith: Cross-Modal Confidence-Aware Network for Image-Text Matching (跨模态置信度感知的图像文本匹配网 ...
知识图谱-生物信息学-医学顶刊论文(Bioinformatics-2022)-SGCL-DTI：用于DTI预测的监督图协同对比学习
14.(2022.5.21)Bioinformatics-SGCL-DTI:用于DTI预测的监督图协同对比学习论文标题: Supervised graph co-contrastive learni ...
突破瓶颈，对比学习：Eclipse开发环境与VS开发环境的调试对比
曾经看了不少Java和Android的相关知识,不过光看不练易失忆,所以,还是写点文字,除了加强下记忆,也证明我曾经学过~~~ 突破瓶颈,对比学习: 学习一门语言,开发环境很重,对于VS的方形线条开发 ...
Java程序员学C#基本语法两个小时搞定（对比学习）
对于学习一门新的语言,关键是学习新语言和以前掌握的语言的区别,但是也不要让以前语言的东西,固定了自己的思维模式,多看一下新的语言的编程思想. 1.引包 using System;java用import ...
[转] Java程序员学C#基本语法两个小时搞定（对比学习）
Java程序员学C#基本语法两个小时搞定(对比学习) 对于学习一门新的语言,关键是学习新语言和以前掌握的语言的区别,但是也不要让以前语言的东西,固定了自己的思维模式,多看一下新的语言的编程思想. ...
ICLR2021对比学习（Contrastive Learning）NLP领域论文进展梳理
本文首发于微信公众号「对白的算法屋」,来一起学AI叭大家好,卷王们and懂王们好,我是对白. 本次我挑选了ICLR2021中NLP领域下的六篇文章进行解读,包含了文本生成.自然语言理解.预训练语言模 ...
Blazor和Vue对比学习：说在开始前
1.Vue:现代前端三大框架之一(Vue/React/Angualr),基于HTML.CSS和JavaScript,2014年正式对外发布,目前已发展到3.X版本.值得说道的是,Vue的创始人作者是华 ...
对比学习 ——simsiam 代码解析。
目录 1 : 事先准备 . 2 : 代码阅读. 2.1: 数据读取 2.2: 模型载入 3 训练过程: 4 测试过程: 5 :线性验证 6 : 用自己数据集进行对比学习. 第一: 改数据集 : ...

随机推荐

不懂 Zookeeper？来看看这篇文章
开源Linux 长按二维码加关注~ 高并发分布式开发技术体系已然非常的庞大,从国内互联网企业使用情况,可发现RPC.Dubbo.ZK是最基础的技能要求.关于Zookeeper你是不是还停留在Dubbo ...
老生常谈系列之Aop--前言
老生常谈系列之Aop--前言前言既然是前言,那么这一篇就不会写具体的技术问题.这篇文章主要记录我一些个人的思考以及为什么要写文章的缘由.前不久在跟朋友的交流中偶然聊到了Aop,Aop全称为 Asp ...
SpringBoot从0到0.7——序言
SpringBoot从0到0.7-- 序言最近做java代码审计发现很多地方看不懂,所以就开始学框架,自己做网站来了解网站的运行原理.函数.接口.参数等等,通过学习SpringBoot框架来从点到面 ...
数据管理技术发展，数据库应用发展史，数据库分类，MySQL
计算机数据管理技术发展 1. 自由管理阶段用户以文件形式将数据组织起来,并附属在各自的应用程序下. 1.数据不保存当时计算机主要用于科学计算,一般不需要将数据长期保存,只是计算某一课 ...
Swift初探03 字符串操作
字符串操作 01 获取长度 var a = "he l lo" print(a.count) // 计算空格,输出7 02 String.Index类型 String.Index类 ...
maven install resources failed: newPosition < 0: (-1 < 0)
添加以下代码在 pom.xml 中,具体参阅这里 <build> <plugins> <plugin> <groupId>org.apache.mave ...
c# SendInput模拟输入字符和按键
介绍: 该程序本意是为了在彩六里打中文用的,现整理出来供大家复制粘贴.(源程序已开源至GitHub - 彩六中文输入) 主要使用SendInput函数,与c语言中用法一致.(部分代码来自网络) 命名空 ...
153. Find Minimum in Rotated Sorted Array - LeetCode
Question 153. Find Minimum in Rotated Sorted Array Solution 题目大意:给一个按增序排列的数组,其中有一段错位了[1,2,3,4,5,6]变成 ...
116_Power Pivot 先进先出原则库龄库存计算相关
博客:www.jiaopengzi.com 焦棚子的文章目录请点击下载附件一背景前面写过了一个关于进销存的案例,留一个话题就是先进先出的库存计算. 刚好有朋友提了相关这样的需求.先来看看效果. ...
Oceanbase读写分离方案探索与优化
[作者] 许金柱,携程资深DBA,专注于分布式数据库研究及运维. 台枫,携程高级DBA,主要负责MySQL和OceanBase的运维. [前言] 读写分离,是一种将数据库的查询操作和写入操作分离 ...

对比学习下的跨模态语义对齐是最优的吗？---自适应稀疏化注意力对齐机制 IEEE Trans. MultiMedia

对比学习下的跨模态语义对齐是最优的吗？---自适应稀疏化注意力对齐机制 IEEE Trans. MultiMedia的更多相关文章

随机推荐

热门专题