在相似文本的推荐中,可以用TF-IDF来衡量文章之间的相似性. 一.TF(Term Frequency) TF的含义很明显,就是词出现的频率. 公式: 在算文本相似性的时候,可以采用这个思路,如果两篇文章高频词很相似,那么就可以认定两片文章很相似. 二.IDF(Inverse Document Frequency) IDF为逆文档频率. 公式: 一个词越在语料库出现的次数越多,则权重应该越不重要:反之越少则应该越重要. 比如,如果要检索两个文档的相似度,通过统计权重大的词来进行匹配更为合理,如果