根据自然语言处理中的Zipf统计定律,在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比.因此,我们有理由认为,可以根据这个频率表进行一下排序,以及purning.由于精力有限,没有足够时间和带宽去搜集统计英文语料,因此我从网上找到了<酷“艾”英语之美国语料库词频统计>,该表收录了Top 6w的单词,似乎有一定价值.我们可以认为,如果出现频率Top 6W都没有,那么这个词不认识(也就是从你的Language Model里面 Cut 掉)应该也没问题(或许有雾,或许考试就考生僻单…