8. 过滤噪声边 在当前的伴生关系中,边的权重是基于一对概念同时出现在一篇论文中的频率来计算的.这种简单的权重机制的问题在于:它并没有对一对概念同时出现的原因加以区分,有时一对概念同时出现是由于它们具有某种值得我们关注的语义关系,但有时一对概念同时出现只是因为都频繁地出现在所有文档中,同时出现只是碰巧而已.我们需要使用一种新的权重机制,在给定概念在数据中的总体频繁度的情况下,它需要考虑给定的两个概念对于一个文档的“意义”或是“新颖度”.我们将使用皮尔逊卡方测试(Pearson’s chi-squ…