今天由于自己的原因进度不是很大,今天整理了一下全网关联的思路流程(个人可能就是那种没自信,在思路不知道对不对的情况下不敢下手那种渣渣),和之前的一个学长讨论了一下大概思路流程,如下: (1)使用LDA模型提取一篇新闻主题词,确定最大概率主题词: (2)新闻追踪时使用主题与主题之间的关联(相似度比对),汉明距离在一定范围内即可认为是同一主题同一事件的主题,当然因为是词与词之间的比较,所以可能存在不准确的概率,为了提高准确率,这里提取10个主题,每个主题提取6个主题词进行比对,并且对新闻标题与新闻标