本文转载自：https://blog.csdn.net/xiaosongshine/article/details/90600028

一、Self-Attention概念详解

对于self-attention来讲，Q(Query), K(Key), V(Value)三个矩阵均来自同一输入，首先我们要计算Q与K之间的点乘，然后为了防止其结果过大，会除以一个尺度标度其中 $d_k$ 为一个query和key向量的维度。再利用Softmax操作将其结果归一化为概率分布，然后再乘以矩阵V就得到权重求和的表示。该操作可以表示为

如果将输入的所有向量合并为矩阵形式，则所有query, key, value向量也可以合并为矩阵形式表示

其中 $W^Q, W^K, W^V$ 是我们模型训练过程学习到的合适的参数。上述操作即可简化为矩阵形式

二、Self_Attention模型搭建

笔者使用Keras来实现对于Self_Attention模型的搭建，由于网络中间参数量比较多，这里采用自定义网络层的方法构建Self_Attention，关于如何自定义Keras可以参看这里：编写你自己的 Keras 层

Keras实现自定义网络层。需要实现以下三个方法:（注意input_shape是包含batch_size项的）

build(input_shape): 这是你定义权重的地方。这个方法必须设 self.built = True，可以通过调用 super([Layer], self).build() 完成。
call(x): 这里是编写层的功能逻辑的地方。你只需要关注传入 call 的第一个参数：输入张量，除非你希望你的层支持masking。
compute_output_shape(input_shape): 如果你的层更改了输入张量的形状，你应该在这里定义形状变化的逻辑，这让Keras能够自动推断各层的形状

from keras.preprocessing import sequence

from keras.datasets import imdb

from matplotlib import pyplot as plt

import pandas as pd

from keras import backend as K

from keras.engine.topology import Layer

class Self_Attention(Layer):

    def __init__(self, output_dim, **kwargs):

        self.output_dim = output_dim

        super(Self_Attention, self).__init__(**kwargs)

    def build(self, input_shape):

        # 为该层创建一个可训练的权重

        #inputs.shape = (batch_size, time_steps, seq_len)

        self.kernel = self.add_weight(name='kernel',

                                      shape=(3,input_shape[2], self.output_dim),

                                      initializer='uniform',

                                      trainable=True)

        super(Self_Attention, self).build(input_shape)  # 一定要在最后调用它

    def call(self, x):

        WQ = K.dot(x, self.kernel[0])

        WK = K.dot(x, self.kernel[1])

        WV = K.dot(x, self.kernel[2])

        print("WQ.shape",WQ.shape)

        print("K.permute_dimensions(WK, [0, 2, 1]).shape",K.permute_dimensions(WK, [0, 2, 1]).shape)

        QK = K.batch_dot(WQ,K.permute_dimensions(WK, [0, 2, 1]))

        QK = QK / (64**0.5)

        QK = K.softmax(QK)

        print("QK.shape",QK.shape)

        V = K.batch_dot(QK,WV)

        return V

    def compute_output_shape(self, input_shape):

        return (input_shape[0],input_shape[1],self.output_dim)

Keras实现Self-Attention的更多相关文章

Keras实现Hierarchical Attention Network时的一些坑
Reshape 对于的张量x,x.shape=(a, b, c, d)的情况若调用keras.layer.Reshape(target_shape=(-1, c, d)), 处理后的张量形状为(?, ...
LSTM/RNN中的Attention机制
一.解决的问题采用传统编码器-解码器结构的LSTM/RNN模型存在一个问题,不论输入长短都将其编码成一个固定长度的向量表示,这使模型对于长输入序列的学习效果很差(解码效果很差). 注意下图中,ax ...
文本分类：Keras+RNN vs传统机器学习
摘要:本文通过Keras实现了一个RNN文本分类学习的案例,并详细介绍了循环神经网络原理知识及与机器学习对比. 本文分享自华为云社区<基于Keras+RNN的文本分类vs基于传统机器学习的文本分 ...
Sequence Models
Sequence Models This is the fifth and final course of the deep learning specialization at Coursera w ...
keras系列︱seq2seq系列相关实现与案例（feedback、peek、attention类型）
之前在看<Semi-supervised Sequence Learning>这篇文章的时候对seq2seq半监督的方式做文本分类的方式产生了一定兴趣,于是开始简单研究了seq2seq.先 ...
[深度应用]·Keras极简实现Attention结构
[深度应用]·Keras极简实现Attention结构在上篇博客中笔者讲解来Attention结构的基本概念,在这篇博客使用Keras搭建一个基于Attention结构网络加深理解.. 1.生成数据 ...
Attention and Augmented Recurrent Neural Networks
Attention and Augmented Recurrent Neural Networks CHRIS OLAHGoogle Brain SHAN CARTERGoogle Brain Sep ...
[深度应用]·首届中国心电智能大赛初赛开源Baseline（基于Keras val_acc: 0.88）
[深度应用]·首届中国心电智能大赛初赛开源Baseline(基于Keras val_acc: 0.88) 个人主页--> https://xiaosongshine.github.io/ 项目g ...
[深度应用]·DC竞赛轴承故障检测开源Baseline（基于Keras 1D卷积 val_acc:0.99780）
[深度应用]·DC竞赛轴承故障检测开源Baseline(基于Keras1D卷积 val_acc:0.99780) 个人网站--> http://www.yansongsong.cn/ Githu ...
Attention Model（注意力模型）思想初探
1. Attention model简介 0x1:AM是什么深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但 ...

随机推荐

React之改变页面上方图标
首先在public/index.html中 <!-- <link rel="shortcut icon" href="%PUBLIC_URL%/bitbug6 ...
(转载） AutoML 与轻量模型大列表
作者:guan-yuan 项目地址:awesome-AutoML-and-Lightweight-Models 博客地址:http://www.lib4dev.in/info/guan-yuan/aw ...
制作Visual Studio 2017 (VS 2017) 离线安装包（转）
史上功能最强大的Visual Studio 2017版本发布,但是由于版本更新速度加快和与第三方工具包集成的原因,微软研发团队没有为这个版本提供离线下载的安装文件.如果用户处在一个与外网隔离的网络环境 ...
java面试（七）- 关于String
1 String的定义(Java8中) // final的类,不能被继承// 继承了序列化接口,comparable接口,public final class String implements ja ...
Windows10不能进入睡眠
问题有时候暂时不使用计算机(Windows10笔记本),既想省电,又想回来之后快速启动,一般会选择让计算机进入睡眠状态.睡眠状态下,基本上只有内存通电,保存着之前的工作状态,可以快速恢复. 但是最近 ...
Altera PLL Locked 失锁的原因
Altera PLL 有时可能会出现失锁的情况,查找了官网资料,有总结到有几个情况下会出现失锁. 官网中的网页如下,是英文的: https://www.altera.com.cn/support/su ...
Qt deletelater函数分析(2)
夫唯不争,故天下莫能与之争 -- 老子在C++中,delete 和 new 必须配对使用,Qt作为C++的库,显然是不会违背C++原则.但是,qt有自己的内存管理,有时候虽然使用了new, ...
[转帖]Latch
Latch (转) http://blog.csdn.net/tianlesoftware/article/details/5263238 2013-05-24 15:33:09 huashanlun ...
打印机API
转载 wangkuiyun 发布于2014-03-21 09:45:37 阅读数 4228 收藏更新于2014-03-21 09:45:38 AbortDoc 取消一份文档的打印AbortP ...
Django框架深入了解_03(DRF之认证组件、权限组件、频率组件、token)
一.认证组件使用方法: ①写一个认证类,新建文件:my_examine.py # 导入需要继承的基类BaseAuthentication from rest_framework.authentica ...

Keras实现Self-Attention

本文转载自：https://blog.csdn.net/xiaosongshine/article/details/90600028

一、Self-Attention概念详解

二、Self_Attention模型搭建

Keras实现Self-Attention的更多相关文章

随机推荐

热门专题