原文翻译

导读

  这篇文章的主要工作在于应用了对抗训练(adversarial training)的思路来解决开放式对话生成(open-domain dialogue generation)这样一个无监督的问题。

  其主体思想就是将整体任务划分到两个子系统上,一个是生成器(generative model),利用seq2seq式的模型以上文的句子作为输入,输出对应的对话语句;另一个则是一个判别器(discriminator),用以区分在前文条件下当前的问答是否是和人类行为接近,这里可以近似地看作是一个二分类分类器。两者结合的工作机理也很直观,生成器不断根据前文生成答句,判别器则不断用生成器的生成作为负例,原文的标准回答作为正例来强化分类。在两者训练的过程中,生成器需要不断改良答案来欺骗生成器,判别器则需要不断提高自身的判别能力从而区分机造和人造答案直至最后两者收敛达到某种均衡。

  以往的模型受限于训练目标以及训练方式,其生成的结果往往是迟钝笼统的甚至都很简短(如果可以的话,所有的对话我都可以回答“呵呵”,很明显这样的回答是不符合常识的)。所以这样一种博弈式的训练方式来取代以往相对简单固定的概率似然来优化这样一种无监督的开放任务显然是很有意义的想法。不过这样的方法遇到困难也很明显,GAN和NLP一直八字不合,很难很好的融合。和之前的工作SeqGAN类似,这篇工作也采取了增强学习来规避GAN在NLP中使用的难点,并作出了更多的尝试。

补充知识:

  •   生成器G就是一个seq2seq模型,输入是历史对话x,通过RNN来对语义进行向量表示再逐一生成回答的每个词,从而形成回答y
  •   判别器D是一个输入为历史对话x和回答y二元组的一个二分类器,使用了hierarchicalencoder,其中机造回答组合为负例Q−({x,y}),人造回答组合为正例Q+({x, y})。

主要解决了什么问题:

  以 GAN 为目标,生成自然语言

在本任务中增强学习的一个很大的问题在于我们的估价都是针对一整个回答的,判别器只会给出一个近似于对或者不对的反馈。这样的模式存在一个很大的问题是,即使是很多被判断为有问题的句子,其中有很大一部分语言成分是有效的,如文中的例子“what’s yourname”,人类回答“I am John”,机器回答“I don’t know”。判别器会给出“I don’t know”是有问题的,但无法给出I是对的而后面的don’t know是错的,事实上机器没有回答he/she/you/they而是I本质上是需要一个肯定的正反馈的。

判别器只告诉机器对或错,却不告知哪部分对和哪部分错,这对训练带来了很大隐患。

采用了什么方法:

  把序列评分拆开来算,这样就能算到前缀的评分,做到局部评价的反馈。为了防止训练过拟合,每次只是从正例和负例的子序列中随机选取一个来训练。Reward for EveryGeneration Step

Teacher Forcing模型 :

  在以往的工作中,D效果非常好而G的效果非常糟糕会带来训练效果的下降。试想一下一个G所有产生的答案都被D驳回了,在这段时间内G的所有反馈都是负反馈,G就会迷失从而不知道向什么方向优化会得到正反馈,所以理想的情况下G和D是交替训练上升的。

  在控制D和G训练节奏的同时,这篇工作中又采用了一种类似强制学习的方式来尝试解决这个问题。每次在正常的增加学习后会让生成器强行生成正确答案并从D得到正向的反馈,从而每次都能有一个正向优化方向的指示。这样的行为类似于学校老师强行灌输知识,也很类似于之前的professor-forcing算法。

Policy Gradient Training模型:

  文中模型采用了policy gradient的方法(增强学习的方式之一)来进行增强学习的训练。

  优化目标是:

  

  优化目标导数:

  

  Q是判别器D的结果,换句话说判别器的鉴定结果可以看作是增强学习中的reward,policy gradient整体的优化目标其实就是希望回报高的决策其概率越高。在本任务中state为x,即历史对话;决策为y,即下一步的对话。x生成y的概率等于逐词生成的概率

Reward for EveryGeneration Step模型

    

该问题可以被概括为如下几部分:

  给定一个对话输入序列x,该模型需要生成一个回应y。我们将sentence生成的过程视为一个动作序列(sequence of action),将encoder-decoder模型视为一个策略(policy)。

参考文章

论文泛读·Adversarial Learning for Neural Dialogue Generation的更多相关文章

  1. [论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks

    [论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问 ...

  2. 论文泛读:Click Fraud Detection: Adversarial Pattern Recognition over 5 Years at Microsoft

    这篇论文非常适合工业界的人(比如我)去读,有很多的借鉴意义. 强烈建议自己去读. title:五年微软经验的点击欺诈检测 摘要:1.微软很厉害.2.本文描述了大规模数据挖掘所面临的独特挑战.解决这一问 ...

  3. 论文泛读 A Novel Ensemble Learning-based Approach for Click Fraud Detection in Mobile Advertising [1/10]

    title:新的基于集成学习的移动广告作弊检测 导语:基于buzzcity数据集,我们提出了对点击欺诈检测是基于一组来自现有属性的新功能的一种新方法.根据所得到的精度.召回率和AUC对所提出的模型进行 ...

  4. NLP论文泛读之《教材在线评论的情感倾向性分析》

    NLP论文泛读之<教材在线评论的情感倾向性分析> 本文借助细粒度情感分类技术, 对从网络上抓取大量计算机专业本科教材的评价文本进行情感极性 分析, 从而辅助商家和出版社改进教材的质量.制定 ...

  5. Deep Reinforcement Learning for Dialogue Generation 论文阅读

    本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...

  6. [论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding

    [论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 ...

  7. [论文][半监督语义分割]Adversarial Learning for Semi-Supervised Semantic Segmentation

    Adversarial Learning for Semi-Supervised Semantic Segmentation 论文原文 摘要 创新点:我们提出了一种使用对抗网络进行半监督语义分割的方法 ...

  8. 【论文笔记】Learning Convolutional Neural Networks for Graphs

    Learning Convolutional Neural Networks for Graphs 2018-01-17  21:41:57 [Introduction] 这篇 paper 是发表在 ...

  9. 【论文阅读】MEAL: Multi-Model Ensemble via Adversarial Learning

    转载请注明出处:https://www.cnblogs.com/White-xzx/ 原文地址:https://arxiv.org/abs/1812.02425 Github: https://git ...

随机推荐

  1. VLOOKUP和MATCH嵌套以高效引用多列数据

    VLOOKUP函数在日常工作中十分常见,以至于你要是没用过VLOOKUP函数,你都不好意思说你懂EXCEL. 一般情况下,我们需要在源数据中查找某个指定列的数据,就会用到VLOOKUP函数(如果是指定 ...

  2. ie8兼容圆角

    ie8兼容圆角 PIE.HTC下载地址:http://css3pie.com/ 兼容ie8 代码如下: <!DOCTYPE html> <html> <head> ...

  3. python虚拟环境介绍与安装

    视频链接:  http://edu.tv.sohu.com/play/sid/8fefb999e05c5b01 1.为什么安装虚拟环境? 因为python框架更新迭代太快,有时电脑上存在一个框架多个版 ...

  4. java 获取文件内所有文件名

    package com.xinwen.user.controller; import java.io.File;import java.util.ArrayList;import java.util. ...

  5. Asp.Net Core 2.0 项目实战(11) 基于OnActionExecuting全局过滤器,页面操作权限过滤控制到按钮级

    1.权限管理 权限管理的基本定义:百度百科. 基于<Asp.Net Core 2.0 项目实战(10) 基于cookie登录授权认证并实现前台会员.后台管理员同时登录>我们做过了登录认证, ...

  6. JVM学习五:JVM之类加载器之编译常量和主动使用

    在学习了前面几节的内容后,相信大家已经对JAVA 虚拟机 加载类的过程有了一个认识和了解,那么本节,我们就继续进一步巩固前面所学知识和特殊点. 一.类的初始化回顾 类在初始化的时候,静态变量的声明语句 ...

  7. Axure RP初学2

  8. iptables.sh 初始化防火墙配置

    #!/bin/bash iptables -F iptables -X iptables -Z iptables -A INPUT -i lo -j ACCEPT iptables -A INPUT ...

  9. 以太坊开发DApp入门教程——区块链投票系统(一)

    概述 对初学者,首先要了解以太坊开发相关的基本概念.   学习以太坊开发的一般前序知识要求,最好对以下技术已经有一些基本了解: 一种面向对象的开发语言,例如:Python,Ruby,Java... 前 ...

  10. 关于VR开发中的穿墙问题随想

    在VR开发中,用户将以第一人称的视角进入虚拟世界,即用户同时身处两个坐标系:1. 现实世界坐标系(如房间的坐标系),用户的身体处于这个坐标系 2. VR世界坐标系,用户的感官处于这个坐标系,即用户觉得 ...