论文阅读 | Transformer-XL: Attentive Language Models beyond a Fixed-Length Context

【论文阅读 | Transformer-XL: Attentive Language Models beyond a Fixed-Length Context】的更多相关文章

论文阅读 | Transformer-XL: Attentive Language Models beyond a Fixed-Length Context

0 简述 Transformer最大的问题:在语言建模时的设置受到固定长度上下文的限制. 本文提出的Transformer-XL,使学习不再仅仅依赖于定长,且不破坏时间的相关性. Transformer-XL包含segment-level 循环机制和positional编码框架.不仅可以捕捉长时依赖,还可以解决上下文断片问题 fragmentation problem.可以学到比RNNs长80%的依赖,比vanilla Transformers长450%.在长短序列上都取得了更好的结果.与van…

【论文阅读】HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis

转载请注明出处:https://www.cnblogs.com/White-xzx/ 原文地址:https://arxiv.org/abs/1709.09930 Github: https://github.com/xh-liu/HydraPlus-Net 如有不准确或错误的地方,欢迎交流~ HP-Net是一个基于注意力机制(attention-based)的深度神经网络,将多层注意力机制图多向映射到不同的特征层. [HP-Net Adavantage] (1)模型能够从浅层到语义层捕获注意力:…

论文阅读：Deep Attentive Tracking via Reciprocative Learning

Deep Attentive Tracking via Reciprocative Learning 2018-11-14 13:30:36 Paper: https://arxiv.org/abs/1810.03851 Project page: https://ybsong00.github.io/nips18_tracking/index Code: https://github.com/shipubupt/NIPS2018 是的,我跟好多人一样,被标题中的 “Reciprocative…

BERT 论文阅读笔记

BERT 论文阅读 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 由 @快刀切草莓君阅读编写. 1 引言两种为下游任务应用预训练模型表示的现存策略基于特征 e.g. ELMo:使用包括预训练表示作为额外特征的特定任务架构精调 e.g. GPT Generative Pre-trained Transformer 引入最少的特定任务参数这两种策略都使用了单一方向语言模型限…

Deep Reinforcement Learning for Dialogue Generation 论文阅读

本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述当前在闲聊机器人中的主要技术框架都是seq2seq模型.但传统的seq2seq存在很多问题.本文就提出了两个问题: 1)传统的seq2seq模型倾向于生成安全,普适的回答,例如“I don’t know what you are talking about”.为了解决这个问题,作者在更早的一篇文章中提出了用互信息作为模型的目标函数.具体见A Diversi…

论文阅读笔记 Word Embeddings A Survey

论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, built using word co-occurrence statistics as per the distributional hypothesis. 分布式假说(distributional hypothesis) word with similar contexts have the…

论文阅读笔记 Improved Word Representation Learning with Sememes

论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于知网资源的词嵌入学习模型,在通用的中文词嵌入评测数据集上进行了评测,取得了较好的结果. 作者简介该论文选自 ACL 2017,是清华大学孙茂松刘知远老师组的成果.论文的两名共同第一作者分别是牛艺霖和谢若冰. 牛艺霖,清华本科生. 谢若冰,清华研究生(2014-2017),清华本科生(2010-20…

[置顶] 人工智能（深度学习）加速芯片论文阅读笔记（已添加ISSCC17，FPGA17...ISCA17...）

这是一个导读,可以快速找到我记录的关于人工智能(深度学习)加速芯片论文阅读笔记. ISSCC 2017 Session14 Deep Learning Processors: ISSCC 2017关于Deep Learning Processors的Slides笔记,主要参考了[1]中的笔记,自己根据paper和slides读一遍,这里记一下笔记,方便以后查阅. 14.1 A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28…

Nature/Science 论文阅读笔记

Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science literature The overwhelming majority of scientific knowledge is published as text, which is difficult to analyse by either traditional statistical anal…

【论文阅读】Motion Planning through policy search

想着CSDN还是不适合做论文类的笔记,那里就当做技术/系统笔记区,博客园就专心搞看论文的笔记和一些想法好了,[]以后中框号中间的都算作是自己的内心OS 有时候可能是问题,有时候可能是自问自答,毕竟是笔记嘛心路历程记录:然后可能有很多时候都是中英文夹杂,是因为我觉得有些方法并没有很好地中文翻译的意思(比如configuration space),再加上英文能更好的搜索.希望大家能接受这种夹杂写法,或者接受不了的话直接关掉这个看原文前言:这是一篇02年的关于Motion Planning - P…