attention机制、LSTM二者之间，是否存在attention一定优于LSTM的关系呢？

这里没有严格的论证，只是自己的一些理解。

attention机制下的Transformer确实是当前AI技术中最为火热的，基于其构建的大语言模型可以说是AI技术至今最强的技术之一了，但是attention是否真的的一定优于LSTM呢？

其实，attention的效果或者说Transformer的效果是和数据量的多少有关系的，如果是常见的数据量（传统文本任务、几万或者几十万数据量）那么attention的效果不会比LSTM强，甚至可能不如LSTM，但是如果数据量是大语言模型那种的用亿为单位的话，那么attention是一定优于LSTM的，这是有大量实验结果验证的。

其实，这里面是有一个很大问题的，那就是多大的数据量算大呢，或者说如何判断何时使用LSTM，何时使用Transformer呢，这个其实不是学术问题，而是技术问题，或者跑的实验多了自然也就有个大概的感觉了，不过可能的情况下，如果实在掂量不准那就两个都实现一下做做对比。

个人的经验：

其实是听实验室师弟说的，自己并未验证，师弟说他在做神经网络架构搜索的时候加进去attention，然后效果就有了明显的提升，因为这个神经网络架构搜索其实是计算量很大的实验，因此这里也是一种佐证。还有，就是Matching Network，《Matching Networks for One Shot Learning》论文中也有提到使用attention的神经网络结构只在大数据量的miniImagenet实验上有效果，而在Omniglot实验上并没有明显效果，这算是第二个间接佐证了。总之，attention机制、LSTM如何选择是要看具体的情况的，并不存在哪个一定优于哪个，不过在现在大数据量的研究背景下倒是确实是attention机制要更适合。

attention机制、LSTM二者之间，是否存在attention一定优于LSTM的关系呢？的更多相关文章

Multimodal —— 看图说话（Image Caption）任务的论文笔记（三）引入视觉哨兵的自适应attention机制
在此前的两篇博客中所介绍的两个论文,分别介绍了encoder-decoder框架以及引入attention之后在Image Caption任务上的应用. 这篇博客所介绍的文章所考虑的是生成captio ...
浅谈 Attention 机制的理解
什么是注意力机制? 注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制.例如人的视觉在处理一张图片时,会通过快速扫描全局图像,获得需要重点关注的目 ...
Deep Learning基础--理解LSTM/RNN中的Attention机制
导读目前采用编码器-解码器 (Encode-Decode) 结构的模型非常热门,是因为它在许多领域较其他的传统模型方法都取得了更好的结果.这种结构的模型通常将输入序列编码成一个固定长度的向量表示,对 ...
理解LSTM/RNN中的Attention机制
转自:http://www.jeyzhang.com/understand-attention-in-rnn.html,感谢分享! 导读目前采用编码器-解码器 (Encode-Decode) 结构的 ...
深度学习中的序列模型演变及学习笔记（含RNN/LSTM/GRU/Seq2Seq/Attention机制）
[说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] [补充说明]深度学习中的序列模型已经广泛应用于自然语言处理(例如机器翻 ...
DL4NLP —— seq2seq+attention机制的应用：文档自动摘要（Automatic Text Summarization）
两周以前读了些文档自动摘要的论文,并针对其中两篇( [2] 和 [3] )做了presentation.下面把相关内容简单整理一下. 文本自动摘要(Automatic Text Summarizati ...
Multimodal —— 看图说话（Image Caption）任务的论文笔记（二）引入attention机制
在上一篇博客中介绍的论文"Show and tell"所提出的NIC模型采用的是最"简单"的encoder-decoder框架,模型上没有什么新花样,使用CNN ...
初识Attention机制(NLP领域)
Attention 机制. 参考:https://blog.csdn.net/xiewenbo/article/details/79382785 要是关注深度学习在自然语言处理方面的研究进展,我相信你 ...
[NLP/Attention]关于attention机制在nlp中的应用总结
原文链接: https://blog.csdn.net/qq_41058526/article/details/80578932 attention 总结参考:注意力机制(Attention Mec ...
attention机制的实现
本文转自,http://www.jeyzhang.com/understand-attention-in-rnn.html,感谢分享! LSTM 中实现attention:https://distil ...

随机推荐

php分页查询子查询
分页查询将查询结果只显示一部分通过两个参数:参数1 起始数据的索引下标参 ...
Vue CLI 4与项目构建实战指南
title: Vue CLI 4与项目构建实战指南 date: 2024/6/9 updated: 2024/6/9 excerpt: 这篇文章介绍了如何使用Vue CLI优化项目构建配置,提高开发效 ...
使用命令行（powershell）压缩（7Z RAR）指定日期文件
使用命令行(powershell)压缩(7Z RAR)指定日期文件,powershell ,7z. WINDOWS命令行是无法按时间过滤文件的,我们通过powershell 里的Get-ChildIt ...
vue饼图
结果图原型 1 <template> 2  3 <div ref="rankEcharts" :style=" ...
Elasticsearch如何聚合查询多个统计值，如何嵌套聚合？并相互引用，统计索引中某一个字段的空值率？语法是怎么样的？
目录 Elasticsearch聚合查询说明空值率查询DSL Elasticsearch聚合基础知识扩展 Elasticsearch聚合概念 Script 用法 Elasticsearch聚合查询语 ...
（四）Redis 缓存应用、淘汰机制
1.缓存应用一个系统中不同层面数据访问速度不一样,以计算机为例,CPU.内存和磁盘这三层的访问速度从几十 ns 到 100ns,再到几 ms,性能的差异很大,如果每次 CPU 处理数据时都要到磁盘读 ...
C# .net core中如何将多张png图片合并成一个gif
背景我们有很多这样的序列帧: 我这边要把这些序列帧裁切最后合并成gif,以下是我裁切后的png文件: 我一开始选用的是 SixLabors.ImageSharp 这是裁切代码: using var ...
python的requirements.txt_维护项目依赖包
pycharm没有类似maven用于管理依赖包的工具,当一个项目在新的环境运行前,需要将对应依赖的包下载回来,如果一个个下载,会出现缺漏或版本号不对应的情况,这个时候可以用requirements.t ...
metal invalid pixel format xx
这个时候要考虑CAMetalLayer.pixelFormat是否设置设置正确,虽然MTLPixelFormat有很多枚举值,但是CAMetalLayer支持的也就只有五个: MTLPixelForm ...
java的ConCurrentHashMap
一般的应用的编程,用到ConCurrentHashMap的机会很少,就象大家调侃的一样:只有面试的时候才用得着. 但还是有. 网上关于这个的资料,多如牛毛,大部分是原理分析和简单例子. 原理的核心就一 ...

attention机制、LSTM二者之间，是否存在attention一定优于LSTM的关系呢？

attention机制、LSTM二者之间，是否存在attention一定优于LSTM的关系呢？的更多相关文章

随机推荐

热门专题