自注意力计算

def self_attention(query, key, value, dropout=None, mask=None):

    d_k = query.size(-1)

    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)

    # mask的操作在QK之后，softmax之前

    if mask is not None:

        mask.cuda()

        scores = scores.masked_fill(mask == 0, -1e9)

    self_attn = F.softmax(scores, dim=-1)

    if dropout is not None:

        self_attn = dropout(self_attn)

    return torch.matmul(self_attn, value), self_attn

多头注意力

# PYthon/PYtorch/你看的这个模型的理论

class MultiHeadAttention(nn.Module):

    def __init__(self):

        super(MultiHeadAttention, self).__init__()

    def forward(self,  head, d_model, query, key, value, dropout=0.1,mask=None):

        """

        :param head: 头数，默认 8

        :param d_model: 输入的维度 512

        :param query: Q

        :param key: K

        :param value: V

        :param dropout:

        :param mask:

        :return:

        """

        assert (d_model % head == 0)

        self.d_k = d_model // head

        self.head = head

        self.d_model = d_model

        self.linear_query = nn.Linear(d_model, d_model)

        self.linear_key = nn.Linear(d_model, d_model)

        self.linear_value = nn.Linear(d_model, d_model)

        # 自注意力机制的 QKV 同源，线性变换

        self.linear_out = nn.Linear(d_model, d_model)

        self.dropout = nn.Dropout(p=dropout)

        self.attn = None

        # if mask is not None:

        #     # 多头注意力机制的线性变换层是4维，是把query[batch, frame_num, d_model]变成[batch, -1, head, d_k]

        #     # 再1，2维交换变成[batch, head, -1, d_k], 所以mask要在第一维添加一维，与后面的self attention计算维度一样

        #     mask = mask.unsqueeze(1)

        n_batch = query.size(0)

        # 多头需要对这个 X 切分成多头

        # query==key==value

        # [b,1,512]

        # [b,8,1,64]

        # [b,32,512]

        # [b,8,32,64]

        query = self.linear_query(query).view(n_batch, -1, self.head, self.d_k).transpose(1, 2)  # [b, 8, 32, 64]

        key = self.linear_key(key).view(n_batch, -1, self.head, self.d_k).transpose(1, 2)  # [b, 8, 32, 64]

        value = self.linear_value(value).view(n_batch, -1, self.head, self.d_k).transpose(1, 2)  # [b, 8, 32, 64]

        x, self.attn = self_attention(query, key, value, dropout=self.dropout, mask=mask)

        # [b,8,32,64]

        # [b,32,512]

        # 变为三维， 或者说是concat head

        x = x.transpose(1, 2).contiguous().view(n_batch, -1, self.head * self.d_k)

        return self.linear_out(x)

03 Transformer 中的多头注意力（Multi-Head Attention）Pytorch代码实现的更多相关文章

【译】在Transformer中加入相对位置信息
目录引言动机解决方案概览注释实现高效实现结果结论参考文献本文翻译自How Self-Attention with Relative Position Representation ...
【注意力机制】Attention Augmented Convolutional Networks
注意力机制之Attention Augmented Convolutional Networks 原始链接:https://www.yuque.com/lart/papers/aaconv 核心内容 ...
【学习笔记】注意力机制（Attention）
前言这一章看啥视频都不好使,啃书就完事儿了,当然了我也没有感觉自己学的特别扎实,不过好歹是有一定的了解了注意力机制由于之前的卷积之类的神经网络,选取卷积中最大的那个数,实际上这种行为是没有目的的 ...
Transformer可解释性：注意力机制注意到了什么？
原创作者 | FLPPED 论文: Self-Attention Attribution: Interpreting Information Interactions Inside Transform ...
第五课第四周笔记3：Multi-Head Attention多头注意力
Multi-Head Attention多头注意力让我们进入并了解多头注意力机制. 符号变得有点复杂,但要记住的事情基本上只是你在上一个视频中学到的自我注意机制的四个大循环. 让我们看一下每次计算自 ...
AAAI2018中的自注意力机制(Self-attention Mechanism)
近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中.随着注意力机制的深入研究,各式各样的attention被研究者们提出,如单个.多个.交互式等等.去年 ...
深入理解BERT Transformer ，不仅仅是注意力机制
来源商业新知网,原标题:深入理解BERT Transformer ,不仅仅是注意力机制 BERT是google最近提出的一个自然语言处理模型,它在许多任务检测上表现非常好. 如:问答.自然语言推断和 ...
Transformer中引用iqd作为数据源的时候数据预览出现乱码
在cognos开发利用transform建模的过程中导入iqd数据源预览乱码问题,下面先描述一下环境操作系统版本: [root@enfo212 ~]# cat /proc/version Linux ...
ICCV2021 | Vision Transformer中相对位置编码的反思与改进
前言在计算机视觉中,相对位置编码的有效性还没有得到很好的研究,甚至仍然存在争议,本文分析了相对位置编码中的几个关键因素,提出了一种新的针对2D图像的相对位置编码方法,称为图像RPE(IRPE). ...
如何诊断RAC系统中的'gc cr multi block request'?
'gc cr multi block request' 是RAC数据库上比较常见的一种等待事件,在RAC 上进行全表扫描(Full Table Scan)或者全索引扫描(Index Fast Full ...

随机推荐

【H5】03 文本内容处理
摘自: https://developer.mozilla.org/zh-CN/docs/Learn/HTML/Introduction_to_HTML/HTML_text_fundamentals ...
【Java-GUI】06 绘图 Part2 位图处理
绘画程序案例: 原视频排错找了半天,原来是变量名的问题 package cn.dzz; import java.awt.*; import java.awt.event.*; import java. ...
拜登开始在YouTube上打竞选广告了 —— 美国总统的竞选广告已经开始媒体投放了
哈哈哈,老拜登,跑到YouTube上打广告了,这个画面真的太难想象,如果美国有"椰树"广告,估计拜登能弄个泳装上去打广告.有时不得不佩服西方搞的这种全民选举,最后搞的就和看小品似的 ...
新购的HP品牌台式机（暗影精灵，自带windows10系统，显卡为RTX2080，CPU为i7-10700）安装双系统（Ubuntu系统），不识别显卡，不识别硬盘 —— 解决方案
事件起因是实验室的师弟要弄深度学习,实验室为其新购一台台式机(HP台式机,暗影精灵,自带windows10系统,显卡为RTX2080,CPU为i7-10700),师弟是满心喜悦的在windows系统上 ...
【转载】 windows python3 安装 openai gym 的 atari_py
版权声明:本文为CSDN博主「dai1056318647」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明.原文链接:https://blog.csdn.net/dai ...
Apache DolphinScheduler社区又一PMC获推选通过！
PROFILE 姓名:程鑫公司:阿里云职位:开发工程师 Github ID: rickchengx 从事领域:大数据调度系统开发兴趣爱好:健身推举理由他于2022年8月2日开始了他的Dolp ...
【安装部署】Apache SeaTunnel 和 Web快速安装详解
版本说明由于作者目前接触当前最新版本为2.3.4 但是官方提供的web版本未1.0.0,不兼容2.3.4,因此这里仍然使用2.3.3版本. 可以自定义兼容处理,官方提供了文档:https://mp. ...
基础数据结构->set&&map
set&&map BEGIN:惜墨如金 set用法基本用法 #include<bits/stdc++.h> using namespace std; void the_s ...
2023上海理工大学校内选拔赛A-D题
前言不要在意标题,既然是随记,就随性点() 今天参加了2023年中国高校计算机大赛-团队程序设计天梯赛(GPLT)上海理工大学校内选拔赛(同步赛)_ACM/NOI/CSP/CCPC/ICPC算法编程 ...
使用image-syncer镜像同步工具将阿里云镜像仓库镜像迁移至私有Harbor
借助于阿里云开源的镜像同步工具image-syncer实现harbor及阿里云镜像仓库之间的镜像迁移下载镜像同步工具 curl -fL "https://wiseo-generic.pkg ...

03 Transformer 中的多头注意力（Multi-Head Attention）Pytorch代码实现

自注意力计算

多头注意力

03 Transformer 中的多头注意力（Multi-Head Attention）Pytorch代码实现的更多相关文章

随机推荐

热门专题