注意力机制

看一个物体的时候，我们倾向于一些重点，把我们的焦点放到更重要的信息上

第一眼看到这个图，不会说把所有的信息全部看完

QK 相乘求相似度，做一个 scale（未来做 softmax 的时候避免出现极端情况）

然后做 Softmax 得到概率

新的向量表示了K 和 V（K==V），然后这种表示还暗含了 Q 的信息（于 Q 而言，K 里面重要的信息），也就是说，挑出了 K 里面的关键点

自-注意力机制（Self-Attention）（向量）

Self-Attention 的关键点再于，不仅仅是 K$\approx$V$\approx$Q 来源于同一个 X，这三者是同源的

通过 X 找到 X 里面的关键点

并不是 K=V=Q=X，而是通过三个参数 $W_Q,W_K,W_V$

接下来的步骤和注意力机制一模一样

Q、K、V的获取
Matmul：
Scale+Softmax：
Matmul：

$z_1$表示的就是 thinking 的新的向量表示

对于 thinking，初始词向量为$x_1$

现在我通过 thinking machines 这句话去查询这句话里的每一个单词和 thinking 之间的相似度

新的$z_1$依然是 thinking 的词向量表示，只不过这个词向量的表示蕴含了 thinking machines 这句话对于 thinking 而言哪个更重要的信息

不做注意力，its 的词向量就是单纯的 its，没有任何附加信息

也就是说 its 有 law 这层意思，而通过自注意力机制得到新的 its 的词向量，则会包含一定的 laws 和 application 的信息

自注意力机制（矩阵）

10 Self-Attention（自注意力机制）的更多相关文章

NLP之基于Seq2Seq和注意力机制的句子翻译
Seq2Seq(Attention) @ 目录 Seq2Seq(Attention) 1.理论 1.1 机器翻译 1.1.1 模型输出结果处理 1.1.2 BLEU得分 1.2 注意力模型 1.2.1 ...
NLP之基于Bi-LSTM和注意力机制的文本情感分类
Bi-LSTM(Attention) @ 目录 Bi-LSTM(Attention) 1.理论 1.1 文本分类和预测(翻译) 1.2 注意力模型 1.2.1 Attention模型 1.2.2 Bi ...
基于Seq2Seq和注意力机制的句子翻译
Seq2Seq(Attention) 目录 Seq2Seq(Attention) 1.理论 1.1 机器翻译 1.1.1 模型输出结果处理 1.1.2 BLEU得分 1.2 注意力模型 1.2.1 A ...
（转）注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用本文转自:http://www.cnblogs.com/robert-dlut/p/5952032.html 近年来,深度 ...
注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展.基于注意力(attention)机制的神经网络成为了 ...
注意力机制（Attention Mechanism）应用——自然语言处理（NLP）
近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展.基于注意力(attention)机制的神经网络成为了最近神经网络研究的一个热点,下面是一些基于attention机制的神经网络在 ...
【注意力机制】Attention Augmented Convolutional Networks
注意力机制之Attention Augmented Convolutional Networks 原始链接:https://www.yuque.com/lart/papers/aaconv 核心内容 ...
深度学习之注意力机制（Attention Mechanism）和Seq2Seq
这篇文章整理有关注意力机制(Attention Mechanism )的知识,主要涉及以下几点内容: 1.注意力机制是为了解决什么问题而提出来的? 2.软性注意力机制的数学原理: 3.软性注意力机制. ...
关于注意力机制（《Attention is all you need》）
深度学习做NLP的方法,基本上都是先将句子分词,然后每个词转化为对应的词向量序列.(https://kexue.fm/archives/4765) 第一个思路是RNN层,递归进行,但是RNN无法很好地 ...
注意力机制---Attention、local Attention、self Attention、Hierarchical attention
一.编码-解码架构目的:解决语音识别.机器翻译.知识问答等输出输入序列长度不相等的任务. C是输入的一个表达(representation),包含了输入序列的有效信息. 它可能是一个向量,也可能是一 ...

随机推荐

【SpringMVC】11 拦截器
拦截器是AOP具体的应用只能使用SpringMVC自己的组件有效之拦截访问控制器方法的请求, 如果访问的是jsp.html.css.img.js这一类的静态资源,则不会拦截演示: 编写一个拦截器 ...
Ax = b 的迭代解法 —— 共轭梯度（算法步骤）
线性方程组 Ax =b 除了高斯消元法以外,还有其它的迭代解法,这里我们说的是共轭梯度法. 这里只针对 A 满足对称 ( ), 正定(即 ),并且是实系数的,那么我们可以用梯度下降和共轭梯 ...
Lazysysadmin靶机笔记
Lazysysadmin靶机笔记概述 lazysysadmin是一台Vulnhub靶机,整体比较简单. 靶机地址:https://pan.baidu.com/s/19nBjhMpGkdBDBFSnM ...
9组-Alpha冲刺-总结
一.基本情况 1.1基本情况(10分): 组长博客链接:https://www.cnblogs.com/Microsoft-hc/p/15585517.html 1.2现场答辩总结 PPT上缺少了组内 ...
plupload附件上传插件IE8问题
前段时间遇到一个plupload上传插件问题,在其他浏览器上面运行很正常,但是就是在IE8上面第一次点击上传按钮无反应,后面再连续点击才ok.我的初始化代码如下 _this.uploader = ne ...
如何将Linux的NIC 名称更改为 eth0 而不是 enps33 或 enp0s25，只要几秒钟
概述我们使用Linux系统,网卡名称通常都是eth0,但是有一些新的linux发行版,网卡名字 enps33 或 enp0s25. peng@ubuntu:~$ ifconfig ens33 Lin ...
celery僵死导致jumpserver提示连接WebSocket失败
celery僵死导致jumpserver提示连接WebSocket失败 Celery的任务监控位于堡垒机 "作业中心"下的"任务监控" 中,点击打开新的页面如下 ...
MYSQL——帆软连接报错
2024/07/11 1.报错 2.报错原因 3.解决办法 4.参考 1.报错错误代码:11300001 数据集配置错误<br>Query:<br>Unknown initi ...
Linux离线安装Tomcat
系统环境: centos7.3.1611 openjdk version "1.8.0_102" apache-tomcat-9.0.36.tar.gz tomcat 安装 #链接 ...
使用 AWS CLI 管理 S3
S3 是 AWS 的对象存储服务 S3: Simple Storage Service 创建桶使用 aws s3 mb 命令创建新的 S3 桶.您需要提供一个全球唯一的桶名称和创建桶的区域. aws ...

10 Self-Attention（自注意力机制）