Towards end-to-end reinforcement learning of dialogue agents for information access

KB-InfoBot

与知识库交互的多轮对话模型,放弃符号式的查询语句,转而在知识库上使用soft后验分布来寻找概率最大的信息。

知识库

知识库的数据是常见的(实体关系 head, relation,tail)三元组,本文将其做了一步转化,将三元组数据库转化成表格形式:行为实体(head)的属性(tail),列为关系(relation)(这里假定各个关系之间相互独立)。并且假定,其中有些数值遗失。(如下图,为电影数据的转化,其中X表示缺失数据) (另外,在测试阶段,不会测试新的实体)

soft-KB 查找

所谓每个实体的概率,即为基于在t时刻之前的所有用户输入,每个实体被提到的条件概率。相较于符号式的查询(hard-KB lookup),它可以学习到更好的策略,也可以end2end训练。

总览

Belief Trackers

infoBot 有 M个 belief trackers (每个slot(每类关系)对应一个belief tracker),belief tracker 将user 输入作为input, 输出(belief state):一个分布(所有可能的slot值),一个概率(用户是否知道此slot的值). 因为输出的size过大,为提高效率,这里做了一个summary(应用entropy)。

Dialogue policy

本文使用两种策略,一种是规则式的,另一种则应用神经网络。

Training

训练时,因为强化学习收敛较慢,特别是在随机初始化时,所以最初,本文先用模仿学习(imitation learning),即,开始时,belief tracker与policy network模仿规则agent。

论文选读一: Towards end-to-end reinforcement learning of dialogue agents for information access的更多相关文章

  1. Deep Reinforcement Learning for Dialogue Generation 论文阅读

    本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...

  2. 论文笔记系列-Neural Architecture Search With Reinforcement Learning

    摘要 神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的.在本篇论文中,作者使用 递归网络去省城神经网络的模型描述,并且使用 增强学习训练RNN,以使得生成得到的模型在验证集上 ...

  3. [转]Introduction to Learning to Trade with Reinforcement Learning

    Introduction to Learning to Trade with Reinforcement Learning http://www.wildml.com/2018/02/introduc ...

  4. Introduction to Learning to Trade with Reinforcement Learning

    http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/ The academic ...

  5. 论文选读二:Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification

    论文选读二:Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification 目前,阅读理解通常会给出 ...

  6. temporal credit assignment in reinforcement learning 【强化学习 经典论文】

    Sutton 出版论文的主页: http://incompleteideas.net/publications.html Phd  论文:   temporal credit assignment i ...

  7. 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

    论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21: ...

  8. Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

    Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...

  9. 论文翻译--StarCraft Micromanagement with Reinforcement Learning and Curriculum Transfer Learning

    (缺少一些公式的图或者效果图,评论区有惊喜) (个人学习这篇论文时进行的翻译[谷歌翻译,你懂的],如有侵权等,请告知) StarCraft Micromanagement with Reinforce ...

随机推荐

  1. centos7安装配置jdk

    ① java -version 可以查看系统自带的openjdk版本信息 ② rpm -qa | grep java  查看系统自带的Java文件 ③ 卸载文件(noarch文件可以不用删除) -- ...

  2. 【数据下载】利用wget命令批量下载ftp文件和文件夹

    这是一个“”数据大发现”的时代,大家都在创造数据,使用数据以及分享数据,首先一步我们就需要从数据库download我们需要的数据. Ftp是一种常见的在线数据库,今天介绍一种可以批量下载文件夹的方法, ...

  3. 《视觉SLAM十四讲课后作业》第二讲

    1.设线性⽅程 Ax = b,在 A 为⽅阵的前提下,请回答以下问题:1. 在什么条件下,x 有解且唯⼀? 非齐次线性方程在A的秩与[A|B]的秩相同时方程有解,当R(A)=R(A,B)=n时方程有唯 ...

  4. centos 7 rabbitmq 3.7.12 erlang 20.3源码安装

    1.下载erlang 官网地址 http://www.erlang.org/download 挑选合适的版本 然后 建议20.3运行命令 wget http://erlang.org/download ...

  5. 【MySQL】InnoDB 内存管理机制 --- Buffer Pool

    InnoDB Buffer Pool 是一块连续的内存,用来存储访问过的数据页面 innodb_buffer_pool_size 参数用来定义 innodb 的 buffer pool 的大小 是 M ...

  6. 设计模式理解(十)结构型——享元(Flyweight)

    最后一个结构型,享元.没有太多的项目经验,对这种模式只有一种概念上的理解,就是为了节约内存等资源,把可重用的东西只申请一次,然后处处调用,同时用Hash进行管理. 直接上图: 代码: /******* ...

  7. GOQTTemplate简单介绍

    集合OpenCV的视频功能和QCamera的摄像头接口,开发出易于理解的.结构简单的摄像头控制和采集框架.   MainWindow);    bCameraOpen = false;     //显 ...

  8. 2018年-2019年第二学期第七周C#学习个人总结

    在本周我又学习了,第五章面向对象高级中的5.5异常和5.6命名空间和程序集.在5.5异常中我知道了异常层次结构:所有的异常类都继承自Exception类.由于发生了异常程序立即终止无法再继续向下执行. ...

  9. Mysql与Postgresql

    在经过一段时间的数据库学习之后,我接触到了Mysql与Postgresql两种数据库管理系统,由于我对这两者的理解都停留在很浅的层面,就不在此比较两者的好坏,主要在这里比较一下两者的入门指令(当然两者 ...

  10. Vue学习——学习vue必须了解的几个知识点

    node.js介绍 Node 是一个让 JavaScript 运行在服务端的开发平台,使用JavaScript也可以开发后台服务.说明白些它仅仅是一个平台,我们使用vue开发必须要安装node.js. ...