Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ]

论文信息

论文标题:Adversarial Soft Prompt Tuning for Cross-Domain Sentiment Analysis
论文作者:Hui Wu、Xiaodong Shi
论文来源:2022 ACL
论文地址:download 
论文代码:download
视屏讲解:click

1 介绍

  动机:直接使用固定的预定义模板进行跨域研究,不能对不同域的 $\text{[MASK]}$ 标记在不同域中的不同分布进行建模,因此没有充分利用提示调优技术。在本文中,提出了一种新的对抗性软提示调优方法(AdSPT)来更好地建模跨域情绪分析;

  一方面,AdSPT采用单独的软提示而不是硬模板来学习不同域的不同向量,从而减轻了[MASK]标记在掩码语言建模任务中的域差异。另一方面,AdSPT使用一种新的域对抗性训练策略来学习每个源域和目标域之间的域不变表示。在一个公开的情绪分析数据集上的实验表明,我们的模型在单源域适应和多源域适应方面都取得了最新的结果。

  贡献:

    • 在提示式调优中,我们采用单独的软提示来学习丰富了领域知识的嵌入,从而减轻了[MASK]位置的领域差异;
    • 我们设计了一种新的对抗性训练策略来学习[面具]位置的域不变表示;
    • 在Amazon评论数据集上的实验表明,AdSPT方法在单源域适应下的平均精度为93.14%(0.46绝对改进),在多源域适应下的平均精度为93.75%(0.81绝对改进); 

2 相关

  通常使用预定义模板(例如 “It was [MASK].” )在二元情绪分析的提示调优中,正或负的分类结果依赖于掩蔽语言建模(MLM)任务中预定义的标签词(例如,“好,坏”)的概率。然而,不同领域的MLM预测结果的分布可能会有所不同。图1显示了一个例子,图书域审查和视频域审查之间的差异导致了标签词的不同可能性。图书领域评论中的高频标签词是“有用的”,而视频领域评论是“真实的”,两者都不在预定义的“

  

3 方法

3.1 提示输入

  提示输入 $\boldsymbol{x}_{\text {prompt }}$:

    $\boldsymbol{x}_{\text {prompt }}= {[\mathbf{e}(\text { "CLS }] "), \mathbf{e}(\boldsymbol{x}), \mathbf{h}_{0}, \ldots, \mathbf{h}_{k-1}, }\mathbf{e}(\text { "[MASK]") }, \mathbf{e}(\text { "[SEP]") })]$

  注意:输入 $\boldsymbol{x}_{\text {prompt }}$ 不是一个 $\text{raw text}$ ,而是一个嵌入矩阵,$\text{nn.Embedding}$ 后的结果;

3.2 Encoder 输出

  将提示输出作为编码器的输入,得到:

    $\mathbf{h}_{[\mathrm{MASK}]}, \mathbf{s}_{[\mathrm{MASK}]}=\mathcal{M}\left(\boldsymbol{x}_{\text {prompt }}\right) $

  其中,$\mathbf{h}_{[\text {MASK }]} \in \mathbb{R}^{h}$,$\mathbf{s}_{[\text {MASK }]} \in \mathbb{R}^{|\mathcal{V}|}$,$\mathrm{s}_{[\mathrm{MASK}]}= f\left(\mathbf{h}_{[\text {MASK }]}\right) $,$f$ 是 $\text{MLM head function}$;

3.3 情感分类

  情感预测:

    $\begin{aligned}p(y \mid \boldsymbol{x}) & =p\left(\mathcal{V}_{y}^{*} \leftarrow[\mathrm{MASK}] \mid \boldsymbol{x}_{\text {prompt }}\right) \\& =\frac{\exp \left(\mathbf{s}_{[\mathrm{MASK}]}\left(\mathcal{V}_{y}^{*}\right)\right)}{\sum_{y^{\prime} \in \mathcal{Y}} \exp \left(\mathbf{s}_{[\mathrm{MASK}]}\left(\mathcal{V}_{y^{\prime}}^{*}\right)\right)}\end{aligned}$

  其中,$\mathcal{V}^{*} \in  \{ \text{good,bad} \}$;

  情感分类损失:

    $\mathcal{L}_{\text {class }}\left(\mathcal{S} ; \theta_{\mathcal{M}, p, f}\right) =-\sum_{i=1}^{N}  {\left[\log p\left(y_{i} \mid \boldsymbol{x}_{i}\right)^{\mathbb{I}\left\{\hat{y}_{i}=1\right\}}\right.} \left.+\log \left(1-p\left(y_{i} \mid \boldsymbol{x}_{i}\right)\right)^{\mathbb{I}\left\{\hat{y}_{i}=0\right\}}\right]$

3.4 域对抗性训练

  设有 $\text{m}$ 个源域 ,源域、目标域的域标签分别为 $0 , 1$,$m$ 个域鉴别器 $\mathbf{g}=\left\{g_{l}\right\}_{l=1}^{m}$;

  域预测:

    $p(d \mid \boldsymbol{x})=\frac{\exp \left(g_{l}^{d}\left(\mathbf{h}_{[\mathrm{MASK}]}\right)\right)}{\sum_{d^{\prime} \in \mathcal{D}} \exp \left(g_{l}^{d^{\prime}}\left(\mathbf{h}_{[\mathrm{MASK}]}\right)\right)}$

  域分类损失:

    $\mathcal{L}_{\text {domain }}\left(\hat{\mathcal{S}}, \mathcal{T} ; \theta_{\mathcal{M}, p, \mathbf{g}}\right) =-\sum_{l=1}^{m} \sum_{i=1}^{N_{l}^{s}+N^{t}} {\left[\log p\left(d_{i} \mid \boldsymbol{x}_{i}\right)^{\mathbb{I}\left\{\hat{d}_{i}=1\right\}}\right.}\left.+\log \left(1-p\left(d_{i} \mid \boldsymbol{x}_{i}\right)\right)^{\mathbb{I}\left\{\hat{d}_{i}=0\right\}}\right]$

  域对抗训练:

    $\underset{\mathcal{M}, p}{\text{max}}\; \underset{\mathbf{g}}{\text{min}} \;\mathcal{L}_{\text {domain }}\left(\hat{\mathcal{S}}, \mathcal{T} ; \theta_{\mathcal{M}, p, \mathbf{g}}\right)$

3.5 训练目标

  优化 $\text{PLM}$  $\mathcal{M}$ ,$\text{soft prompt embeddings}$  $p$ , $\text{MLM head function}$  $f$,$\text{domain discriminators }$ $\mathbf{g}$:

    $\underset{\mathcal{M}, p, f}{\text{min}} \{ \lambda \mathcal{L}_{\text {class }}\left(\mathcal{S} ; \theta_{\mathcal{M}, p, f}\right) \left.-\underset{\mathbf{g}}{\text{min}} \mathcal{L}_{\text {domain }}\left(\hat{\mathcal{S}}, \mathcal{T} ; \theta_{\mathcal{M}, p, \mathbf{g}}\right)\right\}$

3.6 算法

  如下:

  

4 实验

single-source domain adaptation on Amazon reviews

  

Results of multi-source domain adaptation on Amazon reviews

  

Ablation experiments

  

论文解读(AdSPT)《Adversarial Soft Prompt Tuning for Cross-Domain Sentiment Analysis》的更多相关文章

  1. 论文阅读:Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis

    论文标题:Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis 论文链接:http://arxi ...

  2. 论文解读( FGSM)《Adversarial training methods for semi-supervised text classification》

    论文信息 论文标题:Adversarial training methods for semi-supervised text classification论文作者:Taekyung Kim论文来源: ...

  3. [论文解读] 阿里DIEN整体代码结构

    [论文解读] 阿里DIEN整体代码结构 目录 [论文解读] 阿里DIEN整体代码结构 0x00 摘要 0x01 文件简介 0x02 总体架构 0x03 总体代码 0x04 模型基类 4.1 基本逻辑 ...

  4. 图像分类:CVPR2020论文解读

    图像分类:CVPR2020论文解读 Towards Robust Image Classification Using Sequential Attention Models 论文链接:https:// ...

  5. 论文解读(IDEC)《Improved Deep Embedded Clustering with Local Structure Preservation》

    Paper Information Title:<Improved Deep Embedded Clustering with Local Structure Preservation>A ...

  6. 面向个性化需求的在线云数据库混合调优系统 | SIGMOD 2022入选论文解读

    SIGMOD 数据管理国际会议是数据库领域具有最高学术地位的国际性会议,位列数据库方向顶级会议之首.近日,腾讯云数据库团队的最新研究成果入选 SIGMOD 2022 Research Full Pap ...

  7. itemKNN发展史----推荐系统的三篇重要的论文解读

    itemKNN发展史----推荐系统的三篇重要的论文解读 本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度 皮尔逊相似系数 参数聚合进行推荐 根据用户 ...

  8. CVPR2019 | Mask Scoring R-CNN 论文解读

    Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读 作者 | 文永亮 研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...

  9. AAAI2019 | 基于区域分解集成的目标检测 论文解读

    Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...

  10. Gaussian field consensus论文解读及MATLAB实现

    Gaussian field consensus论文解读及MATLAB实现 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.Introduction ...

随机推荐

  1. web自动化04-css定位

    css元素定位 1. 是什么? 用来描述html元素的显示样式 选择器是一种模式,用于选择需要添加样式的元素   selenium中推荐使用css定位,比XPath定位要快    2.如何定位?   ...

  2. 商业智能 (BI) 对企业中每个员工的 5 大好处

    本文由葡萄城技术团队于博客园原创并首发.葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 众所周知,商业智能 (BI) 是探索企业数据价值的强大工具,能够帮助企业做出明智的决策.提高绩效 ...

  3. MySQL中字符串查询效率大比拼

    背景 最近有个同事对字符串加索引,加完后,发现多了个奇奇怪怪的数字执行的SQL如下: alter table string_index_test add index `idx_name` (`name ...

  4. R数据分析:多项式回归与响应面分析的理解与实操

    今天给大家分享一个新的统计方法,叫做响应面分析,响应面分析是用来探究变量一致性假设的(Congruence hypotheses).本身是一个工程学方法,目前在组织行为学,管理,市场营销等等领域中使用 ...

  5. 深度学习应用篇-计算机视觉-图像分类[2]:LeNet、AlexNet、VGG、GoogleNet、DarkNet模型结构、实现、模型特点详细介绍

    深度学习应用篇-计算机视觉-图像分类[2]:LeNet.AlexNet.VGG.GoogleNet.DarkNet模型结构.实现.模型特点详细介绍 1.LeNet(1998) LeNet是最早的卷积神 ...

  6. 从零玩转系列之微信支付实战PC端接口搭建

    一.前言 halo各位大佬很久没更新了最近在搞微信支付,因商户号审核了我半个月和小程序认证也找了资料并且将商户号和小程序进行关联,至此微信支付Native支付完成.此篇文章过长我将分几个阶段的文章发布 ...

  7. React SSR - 写个 Demo 一学就会

    React SSR - 写个 Demo 一学就会 今天写个小 Demo 来从头实现一下 react 的 SSR,帮助理解 SSR 是如何实现的,有什么细节. 什么是 SSR SSR 即 Server ...

  8. JPA在事务结束时自动更新查询数据

    目录 现象 产生的原因 解决方法 现象 最近解决了一个困惑几天的bug,数据库里的某一些记录莫名其妙的被刷新了,排查过代码跟应用日志,可以确定不是代码执行的更新.直到今天看到了一条日志,在事务提交时报 ...

  9. 国产MCU兆易GD32实现矩阵按键扫描

    一.矩阵键盘     为了减少I/O口的占用,通常将按键排列成矩阵形式.在矩阵式键盘中,每条水平线和垂直线在交叉处不直接连通,而是通过一个按键加以连接.使用8个io口来进行16个按键的控制读取,可以减 ...

  10. spingmvc配置AOP 之 非注解方式

    spingmvc配置AOP有两种方式,一种是利用注解的方式配置,另一种是XML配置实现. 应用注解的方式配置: 先在maven中引入AOP用到的依赖 <dependency> <gr ...