1. 引言 在介绍论文之前,我将先简单介绍一些相关背景知识.首先是语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布.具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性.在实践中,如果文本的长度较长,P(wi | w1, w2, . . . , wi−1)的估算会非常困难.因此,研究者们提出使用一个简化模型:n元模型(n-gram model).在 n 元模型中估算条件概率时,只需要对当前词的前n个词进行计算.在n元模型中,…