论文阅读 | TextBugger: Generating Adversarial Text Against Real-world Applications

NDSS

https://arxiv.org/abs/1812.05271

摘要中的创新点确实是对抗攻击中值得考虑的点：

1. effective

2. evasive recognized by human readers

3. efficient

在IMDB数据集上取得100%的成功率。

最后有讨论可能的防御机制，可以重点看下能不能做这相关的工作。

TEXTBUGGER:

白盒：通过雅可比矩阵找到最重要的单词。

https://jingyan.baidu.com/article/cb5d6105c661bc005c2fe024.html （梯度vs Jacobian矩阵vs Hessian矩阵）

（和梯度的方法差不多）

2-5步：计算重要性，对单词排序。

6-14步：生成bugs：考虑视觉和语义的相似性；考虑character-level & word-level

character-level：看起来就像是简单的拼写错误。目的：把未知词汇映射到未知embedding

word-level：最近邻搜索。

作者发现在一些词嵌入模型中(如word2vec)，“worst”和“better”等语义相反的词在文本中具有高度的句法相似性，因此“better”被认为是“worst”的最近邻。

以上显然是不合理的，很容易被人察觉。

因此，作者使用了语义保留技术，即，将该单词替换为上下文感知的单词向量空间中的topk近邻。使用斯坦福提供的预先训练好的GloVe模型[30]进行单词嵌入，并设置topk = 5。可以保证邻居在语义上与原来的邻居相似。

根据以往的研究，文本的意义很可能是由读者保留或推断后，几个字符的变化[31]。同时，在语义和句法上相似的词语代替词语，可以保证样本的相似性[1]。

TEXTBUGGER的五种错误生成方法:(1)插入:插入一个空格到单词中。(2)删除:删除除第一个字符和最后一个字符外的任意字符。(3)交换:在单词中随机交换两个相邻的字母，但不改变第一个或最后一个字母。(4) Substitute-C (Sub-C):用视觉上相似的字符(例如，用“0”代替“o”，用“1”代替“1”，用“@”代替“a”)或键盘上相邻的字符(例如，用“n”代替“m”)代替字符。(5)Sub-W:在上下文感知的词向量空间中，用它的最近邻替换一个词。

例子：

基于视觉的替换的防御是不是可以考虑文本的visual embedding

如算法2所示，在生成5个bug后，根据置信度的变化选择bug（选变化最大的）。用最优的bug来替换这个单词，得到一个新的文本e’(第8行)。我们重复上述步骤来替换下一个单词，直到找到解决方案（攻击成功），或者未能找到一个保留语义的对抗样本。

黑盒：先找最重要的句子，然后通过打分函数找到最重要的单词。

三个步骤:(1)找到重要的句子。(2)根据分类结果，使用评分函数来确定每个单词的重要性，并根据得分对单词进行排序。(3)使用bug选择算法改变选择的单词。算法3给出了黑箱对抗文本生成算法。

2-6：找重要的句子。找到对最终预测结果贡献最大的重要句子，对其进行优先操作。

使用spaCy库将每个文档分割成句子，然后过滤出具有不同预测标签的句子。即过滤掉Fl(si)不等于y的。然后根据重要性评分排序。句子si的重要性得分用预测的类Fy的置信度值表示。（选出最可能得到分类y的句子）

8-11：找重要的词。首先要找到对原始预测结果贡献最大的最重要的词，然后通过控制语义相似度对其稍作修改。

评分函数：（删除该词后置信度的变化，变化越高越重要）

12-20：生成bugs。和白盒方法类似。

论文阅读 | TextBugger: Generating Adversarial Text Against Real-world Applications的更多相关文章

论文阅读 | HotFlip: White-Box Adversarial Examples for Text Classification
[code] [pdf] 白盒 beam search 基于梯度字符级
【论文阅读】Deep Adversarial Subspace Clustering
导读: 本文为CVPR2018论文<Deep Adversarial Subspace Clustering>的阅读总结.目的是做聚类,方法是DASC=DSC(Deep Subspace ...
论文阅读（Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition）
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...
论文阅读：《Bag of Tricks for Efficient Text Classification》
论文阅读:<Bag of Tricks for Efficient Text Classification> 2018-04-25 11:22:29 卓寿杰_SoulJoy 阅读数 954 ...
[论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks
[论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks 本文结构解决问题主要贡献算法原理参考文献 (1) 解决问 ...
[论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding
[论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding 本文结构解决问题主要贡献算法原理实验结果参考文献 ...
论文笔记之：Generative Adversarial Text to Image Synthesis
Generative Adversarial Text to Image Synthesis ICML 2016 摘要:本文将文本和图像练习起来,根据文本生成图像,结合 CNN 和 GAN 来有效的 ...
Nature/Science 论文阅读笔记
Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...
YOLO 论文阅读
YOLO(You Only Look Once)是一个流行的目标检测方法,和Faster RCNN等state of the art方法比起来,主打检测速度快.截止到目前为止(2017年2月初),YO ...

随机推荐

SQL Server查询表结构语句
--1:获取当前数据库中的所有用户表 www.2cto.com select Name from sysobjects where xtype='u' and status>=0 -- ...
Redis:RedisHelper(5)
/// <summary> /// Redis 助手 /// </summary> public class RedisHelper { /// <summary> ...
题解 [CF803C] Maximal GCD
题面解析一开始以为这题很难的... 其实只要设\(d\)为\(a\)的最大公因数, 即\(a[i]=s[i]*d\), 因为\(n=\sum_{i=1}^{n}a[i]=\sum_{i=1}^ns ...
最大的矩形（CCF）
问题描述在横轴上放了n个相邻的矩形,每个矩形的宽度是1,而第i(1 ≤ i ≤ n)个矩形的高度是hi.这n个矩形构成了一个直方图.例如,下图中六个矩形的高度就分别是3, 1, 6, 5, 2, 3 ...
在 CentOS 7 上安装 RabbitMQ
RabbitMQ 服务器在安装之前需要安装 erlang. 最新版本的 RabbitMQ 3.8.0 需要 Erlang 21.3 以上的版本支持. 在这里,我们需要在你的 CentOS 中安装 Er ...
Python实用黑科技——以某个字段进行分组
需求: 当前有个字典实例,你想以某个字段比如”日期”对整个字典里面的元素进行分组. 方法: itertools.groupby()函数是专门用来干这个活的.请看下面这个例子,这里有一个列表构成的字典, ...
记一次springboot+mybatis+phoenix在代码集成中的坑
场景: 希望使用phoenix做查询服务,给服务端提供接口设计: 通过springboot做restful的接口发布,通过mybatis做phoenix的sql处理,因此是springboot+my ...
linux（redhat）安装jdk1.8
第一步:下载Linux环境下的jdk1.8文件我的Linux是32位的,因此我下载jdk-8u144-linux-i586.tar.gz文件. 下载链接地址:http://www.oracle.co ...
表的操作管理和 MySQL 的约束控制
一.表的操作 1.表的基本概念数据库与表之间的关系:数据库是由各种数据表组成的,数据表是数据库中最重要的对象,用来存储和操作数据的逻辑结构. 表由列和行组成,列是表数据的描述,行是表数据的实例. 表 ...
python之scrapy模块logging日志
1.知识点 """ logging : scrapy: settings中设置LOG_LEVEL="WARNING" settings中设置LOG_F ...

论文阅读 | TextBugger: Generating Adversarial Text Against Real-world Applications

TEXTBUGGER:

论文阅读 | TextBugger: Generating Adversarial Text Against Real-world Applications的更多相关文章

随机推荐

热门专题