1,$TF-IDF$算法 $TF$是指归一化后的词频,$IDF$是指逆文档频率.给定一个文档集合$D$,有$d_1, d_2, d_3, ......, d_n \in D$.文档集合总共包含$m$个词(注:一般在计算$TF-IDF$时会去除如“的”这一类的停用词),有$w_1, w_2, w_3, ......, w_m \in W$.我们现在以计算词$w_i$在文档$d_j$中的$TF-IDF$指为例.$TF$的计算公式为: $ TF = \frac{freq(i, j)} {max_{le…