流程: 1.文本和摘要全部输入到模型中. 2.训练时,对生成摘要取前C个词,从头开始取,如果生成的摘要不足C,那么不足的地方直接补<s>. 3.训练时,最大化生成的摘要与原摘要的概率,即每个生成的词与原摘要的词进行对比,用损失函数计算梯度,然后下降. 4.预测时,已经具有了权重的模型,会逐词生成N个词的摘要. 5.注意力:已生成的摘要的前C个词,求出一个注意力权重,然后再成乘以全部文本经过平滑以后的. 6.这里生成词,不是只生成一个,而是生成K个集合.,采用beam search算法来寻找目标…