前言 这一章看啥视频都不好使,啃书就完事儿了,当然了我也没有感觉自己学的特别扎实,不过好歹是有一定的了解了 注意力机制 由于之前的卷积之类的神经网络,选取卷积中最大的那个数,实际上这种行为是没有目的的,因为你不知道那个最大的数是不是你需要的,也许在哪一块你偏偏就需要一个最小的数呢?所以就有了注意了机制. 用X来表示N组输入信息,D是X的维度,Xn表示一组输入信息.为了节省计算资源不需要把所有信息都输入神经网络,只需要从X中选择一些和任务相关的信息.注意力机制的计算可以分为两步:一是在所有输入信息…