前言

这一章看啥视频都不好使，啃书就完事儿了，当然了我也没有感觉自己学的特别扎实，不过好歹是有一定的了解了

注意力机制

由于之前的卷积之类的神经网络，选取卷积中最大的那个数，实际上这种行为是没有目的的，因为你不知道那个最大的数是不是你需要的，也许在哪一块你偏偏就需要一个最小的数呢？所以就有了注意了机制。

用X来表示N组输入信息，D是X的维度，Xn表示一组输入信息。为了节省计算资源不需要把所有信息都输入神经网络，只需要从X中选择一些和任务相关的信息。注意力机制的计算可以分为两步：一是在所有输入信息上计算注意力分布，二是根据注意力分布来计算输入信息的加权平均

注意力分布 为了从N个向量里面选出某个特定任务相关的信息，我们需要引入一个和任务相关的表示，称为查询向量，并通过一个打分函数来计算每个输入向量和查询向量之间的相关性

这里的q就是查询向量，X是输入，α称为注意力分布，S则是注意力打分函数，打分函数可以用以下方法计算

其中, , 为可学习的参数，为输入向量的维度

软性注意力

加权平均：注意力分布可以解释为在给定任务相关的查询时，第个输入向量受关注的程度．我们采用一种“软性”的信息选择机制对输入信息进行汇总
硬性注意力

而与软性注意力对应则有硬性注意力，本来在下一节出现，但是为了笔记连贯性，我就直接在这里记了。

软性注意力其选择的信息是所有输入向量在注意力分布下的期望．此外，还有一种注意力是只关注某一个输入向量，叫作硬性注意力，硬性注意力有两种实现方式：一种是选取最高概率的一个输入向量，另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现，硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息，使得最终的损失函数与注意力分布之间的函数关系不可导，无法使用反向传播算法进行训练．因此，硬性注意力通常需要使用强化学习来进行训练．为了使用反向传播算法，一般使用软性注意力来代替硬性注意力。

注意力机制的变体

键值对注意力我们可以用键值对（key-value pair）格式来表示输入信息，其中“键”用来计算注意力分布，“值”用来计算聚合信息

可以将注意力机制看做是一种软寻址操作：把输入信息X看做是存储器中存储的内容，元素由地址Key（键）和值Value组成，当前有个Key=Query的查询，目标是取出存储器中对应的Value值，即Attention值。而在软寻址中，并非需要硬性满足Key=Query的条件来取出存储信息，而是通过计算Query与存储器内元素的地址Key的相似度来决定，从对应的元素Value中取出多少内容。每个地址Key对应的Value值都会被抽取内容出来，然后求和，这就相当于由Query与Key的相似性来计算每个Value值的权重，然后对Value值进行加权求和。加权求和得到最终的Value值，也就是Attention值。

这里的理解感谢CSDN的博客： https://blog.csdn.net/weixin_42398658/article/details/90804173

这里V指的就是值

这里两张图可以看出区别，普通的机制就是把x和q一起算s再输出α作为注意力分布，在计算x应该输入多少，而键值对是原来的输入x使用键值对格式，包含一个k和一个v，计算得时候把K和q作为输入来计算s，再把求出的α和数据里面的v进行输出

多头注意力

多头注意力（Multi-Head Attention）是利用多个查询 = [1, ⋯ , ]，来并行地从输入信息中选取多组信息．每个注意力关注输入信息的不同部分．

结构化注意力

在之前介绍中，我们假设所有的输入信息是同等重要的，是一种扁平（Flat）结构，注意力分布实际上是在所有输入信息上的多项分布．但如果输入信息本身具有层次（Hierarchical）结构，比如文本可以分为词、句子、段落、篇章等不同粒度的层次，我们可以使用层次化的注意力来进行更好的信息选择．此外，还可以假设注意力为上下文相关的二项分布，用一种图模型来构建更复杂的结构化注意力分布

指针网络

注意力机制主要是用来做信息筛选，从输入信息中选取相关的信息．注意力机制可以分为两步：一是计算注意力分布，二是根据来计算输入信息的加权平均．我们可以只利用注意力机制中的第一步，将注意力分布作为一个软性的指针（pointer）来指出相关信息的位置．

自注意力模型

上文中出现的键值对注意力，其实就是为了自注意力模型的学习做准备，看到这里才算有了一个系统的了解。

感谢CSDN这篇文章对我的理解帮助 https://blog.csdn.net/qq_38890412/article/details/120601834

以利用注意力机制来“动态”地生成不同连接的权重，这就是自注意力模型

加入一个注意力机制和自注意力机制的区别来帮助理解：简单的讲就是Attention机制中的权重的计算需要Target来参与的，即在Encoder-Decoder model中Attention权值的计算不仅需要Encoder中的隐状态而且还需要Decoder 中的隐状态。而Self Attention顾名思义，指的不是Target和Source之间的Attention机制，而是Source内部元素之间或者Target内部元素之间发生的Attention机制，也可以理解为Target=Source这种特殊情况下的注意力计算机制。

原本计算相关度只需要X和X的转置做内积即可，但是为了提高拟合度，对X做了一些变换，这些QKV矩阵就是对于X的线性变化用来增高拟合性，而QKV的内容都可以学习训练得出

的作用是让梯度值保持稳定

给出全连接模型和自注意力模型的对比，其中实线表示可学习的权重，虚线表示动态生成的权重．由于自注意力模型的权重是动态生成的，因此可以处理变长的信息序列．

小结

这一章学完有一个很深的感悟，也不知道对不对

所谓的神经网络，无外乎就是通过权重筛选数据，只不过权重的计算方式和筛选策略不同，就起了不同的名字，也不知道这样理解对不对

【学习笔记】注意力机制（Attention）的更多相关文章

深度学习之注意力机制（Attention Mechanism）和Seq2Seq
这篇文章整理有关注意力机制(Attention Mechanism )的知识,主要涉及以下几点内容: 1.注意力机制是为了解决什么问题而提出来的? 2.软性注意力机制的数学原理: 3.软性注意力机制. ...
注意力机制---Attention、local Attention、self Attention、Hierarchical attention
一.编码-解码架构目的:解决语音识别.机器翻译.知识问答等输出输入序列长度不相等的任务. C是输入的一个表达(representation),包含了输入序列的有效信息. 它可能是一个向量,也可能是一 ...
自然语言处理中注意力机制---Attention
使用Multi-head Self-Attention进行自动特征学习的CTR模型 https://blog.csdn.net/u012151283/article/details/85310370 ...
0032 Java学习笔记-类加载机制-初步
JVM虚拟机 Java虚拟机有自己完善的硬件架构(处理器.堆栈.寄存器等)和指令系统 Java虚拟机是一种能运行Java bytecode的虚拟机 JVM并非专属于Java语言,只要生成的编译文件能匹 ...
springmvc学习笔记--Interceptor机制和实践
前言: Spring的AOP理念, 以及j2ee中责任链(过滤器链)的设计模式, 确实深入人心, 处处可以看到它的身影. 这次借项目空闲, 来总结一下SpringMVC的Interceptor机制, ...
IOS开发学习笔记014-ARC机制
ARC 1.ARC机制 2.ARC 判断准则 3.注意事项 4.ARC和非ARC混合使用 ARC机制 ARC 是编译器特性,而不是 iOS 运行时特性,它也不是类似于其它语言中的垃圾收集器.因此 AR ...
JAVA 学习笔记 - 反射机制
1. JAVA反射机制的概念 2. 怎样实例化一个 Class对象 Class.forName(包名.类名); 对象.getClass(); 类.class; ================== ...
Java学习笔记-反射机制
Java反射机制实在运行状态时,对于任意一个类,都能够知道这个类的属性和方法,对于任意一个对象,都能够调用他的任意一个属性和方法获取Class对象的三种方式 Object类中的getClass()方 ...
Java学习笔记--异常机制
简介在实际的程序运行过程中,用户并不一定完全按照程序员的所写的逻辑去执行程序,例如写的某个模块,要求输入数字,而用户却在键盘上输入字符串:要求打开某个文件,但是文件不存在或者格式不对:或者程序运行时 ...
12.swoole学习笔记--锁机制
<?php //创建锁对象 $lock=new swoole_lock(SWOOLE_MUTEX);//互斥锁 echo "创建互斥锁\n"; //开始锁定主进程 $loc ...

随机推荐

Codeforces Round #789 (Div. 2)
题集链接 A. Tokitsukaze and All Zero Sequence 题意 Tokitsukaze 有一个长度为 n 的序列 a. 对于每个操作,她选择两个数字 ai 和 aj (i≠j ...
LM431精密+3.3V产生电路
精密+3.3V电压通过三段可调并联稳压器LM431电路产生．LM431稳压电路如下图所示．输出电压 UO仅与电阻 R35.R38 有关,计算公式如下: 式中常数2.5为内部基准电压,其保持恒定不变． ...
APISpace 疫情地区校验API接口免费好用
从2019年疫情开始爆发到现在,我们去到某个地方都会提心吊胆的,很怕一不小心就染上了这个病毒.在去到某个地方之前,我们提前查看到它的一个疫情等级,同时做好防护再出门我们心里也会有底一些.所以疫情地区校 ...
NewApiDay03_File类
File类创建一个新文件 File类的每一个实例可以表示硬盘(文件系统)中的一个文件或目录(实际上表示的是一个抽象路径) 使用File可以做到: 1:访问其表示的文件或目录的属性信息,例如:名字,大小 ...
JUC源码学习笔记2——AQS共享和Semaphore，CountDownLatch
本文主要讲述AQS的共享模式,共享和独占具有类似的套路,所以如果你不清楚AQS的独占的话,可以看我的<JUC源码学习笔记1> 主要参考内容有<Java并发编程的艺术>,< ...
led跑马灯多种方法（移位法，位拼接法，调用模块法，位移及位拼接语法，testbench的理解，源文件的存储路径，计数器的个数，调用模块的方式）
跟着教程写了几种方法,才发现自己写的虽然能实现,但比较繁琐.教程有三种方法: 1.移位法,每次左移一位,相比我自己写的,优点是不用把每一种情况都写出来.但是需要考虑左移到最后一位时需要自己再写个赋值语 ...
Jackson 解析 JSON 详细教程
点赞再看,动力无限. 微信搜「程序猿阿朗」. 本文 Github.com/niumoo/JavaNotes 和未读代码博客已经收录,有很多知识点和系列文章. JSON 对于开发者并不陌生,如今的 ...
【点击云游台湾省】今天，老子云在台湾省建了个3D房子！
今日热搜仍然聚焦台湾省,中国新闻网发文:地图已经可以显示台湾省的每个街道.网友一片叫好! 台湾省通过平面图观察,难免看的不够真切,其实现在已经可以通过3D视角云游台湾省了! 老子云这次通过自研技术,还 ...
Dynamic CRM使用FetchXML在js中查询与调用传递编码问题
在页面交互脚本js中实现窗体交互逻辑是很常见的crm场景,一般情况下使用拓展工具RESTBuilder编辑器,可以很方便的进行操作,增删改查均能实现,但在某些较为特殊的场景下,需要根据条件去拼接查询过 ...
Linux操作系统学习（运维必会）
Linux一切皆文件,最高权限的账户root. 1.开机登录开机会启动很多进程,在Windows上叫"服务"(service),在Linux上叫做"守护进程" ...

【学习笔记】注意力机制（Attention）

前言