转自:http://blog.csdn.net/liuxuejiang158blog/article/details/31360765?utm_source=tuicool 在文本处理中,TF-IDF可以说是一个简单粗暴的东西.它可以用作特征抽取,关键词筛选等. 以网页搜索“核能的应用”为例,关键字分成“核能”.“的”.“应用”.根据直觉,我们知道,包含这三个词较多的网页比包含它们较少的网页相关性强.但是仅仅这样,就会有漏洞,那就是文本长的比文本短的关键词数量要多,所以相关性会偏向长文本的网页.…