Transformer 编码器

编码器在干吗：词向量、图片向量，总而言之，编码器就是让计算机能够更合理地（不确定性的）认识人类世界客观存在的一些东西

Transformer 解码器

解码器会接收编码器生成的词向量，然后通过这个词向量去生成翻译的结果。

解码器的 Self-Attention 在编码已经生成的单词

假如目标词“我是一个学生”---》masked Self-Attention

训练阶段：目标词“我是一个学生”是已知的，然后 Self-Attention 是对“我是一个学生” 做计算

如果不做 masked，每次训练阶段，都会获得全部的信息

如果做 masked，Self-Attention 第一次对“我”做计算

Self-Attention 第二次对“我是”做计算

……

测试阶段：

目标词未知，假设目标词是“我是一个学生”（未知），Self-Attention 第一次对“我”做计算
第二次对“我是”做计算
……

而测试阶段，没生成一点，获得一点

生成词

Linear 层转换成词表的维度

softmax 得到最大词的概率

softmax 细话

单词表

17 Transformer 的解码器（Decoders）——我要生成一个又一个单词的更多相关文章

17.组件页面应用和vue项目生成
基本示例这里有一个 Vue 组件的示例: // 定义一个名为 button-counter 的新组件 Vue.component('button-counter', { data: function ...
[CareerCup] 17.9 Word Frequency in a Book 书中单词频率
17.9 Design a method to find the frequency of occurrences of any given word in a book. 这道题让我们找书中单词出现 ...
PHP生成随机单词
class GenRandWords { private static $_alphas = [ 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', ' ...
Attention和Transformer详解
目录 Transformer引入 Encoder 详解输入部分 Embedding 位置嵌入注意力机制人类的注意力机制 Attention 计算多头 Attention 计算残差及其作用 B ...
【译】图解Transformer
目录从宏观上看Transformer 把张量画出来开始编码! 从宏观上看自注意力自注意力的细节自注意力的矩阵计算 "多头"自注意力用位置编码表示序列的顺序残差解码器 ...
用Python手把手教你搭一个Transformer！
来源商业新知网,原标题:百闻不如一码!手把手教你用Python搭一个Transformer 与基于RNN的方法相比,Transformer 不需要循环,主要是由Attention 机制组成,因而可以充 ...
三大特征提取器（RNN/CNN/Transformer）
目录三大特征提取器 - RNN.CNN和Transformer 简介循环神经网络RNN 传统RNN 长短期记忆网络(LSTM) 卷积神经网络CNN NLP界CNN模型的进化史 Transforme ...
transformer模型简介
Transformer模型由<Attention is All You Need>提出,有一个完整的Encoder-Decoder框架,其主要由attention(注意力)机制构成.论文地 ...
Transformer模型---encoder
一.简介论文链接:<Attention is all you need> 由google团队在2017年发表于NIPS,Transformer 是一种新的.基于 attention 机制 ...
zz全面拥抱Transformer
放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较在辞旧迎新的时刻,大家都在忙着回顾过去一年的成绩(或者在灶台前含泪数锅),并对2019做着规划,当然也 ...

随机推荐

【SpringBoot】13 数据访问P1 整合Jdbc
SpringBoot与数据访问概述: 对于数据访问层,无论是SQL还是NOSQL,Spring Boot默认采用整合Spring Data的方式进行统一处理, 添加大量自动配置,屏蔽了很多设置.引入各 ...
【PostgreSQL】01 环境搭建
[PostgreSQL数据库安装] 数据库本体就没下本机了,直接挂服务器的Docker上面跑 docker pull postgres:9.4 创建容器并运行: docker run --name p ...
超简单stable_diffusion + novelai一键部署教程
视频教程地址: 超简单stable_diffusion + novelai一键部署教程个人的启动命令: sudo docker run -it --rm -e NVIDIA_DISABLE_REQU ...
【转载】 Linux 设置CPU Performance模式
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/zaf0516/article/detail ...
Linux系统下使用pytorch多进程读取图片数据时的注意事项——DataLoader的多进程使用注意事项
原文: PEP 703 – Making the Global Interpreter Lock Optional in CPython 相关内容: The GIL Affects Python Li ...
PyTorch显存机制分析——显存碎片问题
参考前文: https://www.cnblogs.com/devilmaycry812839668/p/15578068.html ================================= ...
经典视频分享：Machine Learning: A New ICE (Identification, Control, Estimation) Age ? —— 自动控制和人工智能的结合前景
机器学习作为近几年兴起的学科,虽然他诞生的时间已经而久远了,但是真正走进人们视野也就是这几年的事情. 机器学习领域本身只有强化学习这个分支和控制类是天然关联的,因此近几年国内的知名高校的强化学习研究者 ...
零基础学习人工智能—Python—Pytorch学习（一）
前言其实学习人工智能不难,就跟学习软件开发一样,只是会的人相对少,而一些会的人写文章,做视频又不好好讲. 比如,上来就跟你说要学习张量,或者告诉你张量是向量的多维度等等模式的讲解:目的都是让别人知道 ...
03-canvas线条属性
1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="U ...
Dijkstra单源最短路模板
struct DIJ { using i64 = long long; using PII = pair<i64, i64>; vector<i64> dis; vector& ...

17 Transformer 的解码器（Decoders）——我要生成一个又一个单词

Transformer 编码器

Transformer 解码器

生成词

17 Transformer 的解码器（Decoders）——我要生成一个又一个单词的更多相关文章

随机推荐

热门专题