需求,最近实现了文章的原创度检测功能,处理思路一是分词之后做搜索引擎匹配飘红,另一方面是量化词组,按文章.段落.句子做数据库查询,功能基本满足实际需求. 接下来,还需要在海量大数据中快速的查找到与一句或者一段话最相关的文章.段落. 上一篇随笔里记录有当时的一些想法,今天下午按想法具体实现并测试了一次,速度比直接分组查询肯定快了很多很多,回顾下我的实现步骤: 压缩"语料库,即提取特征词或词频,做量化处理之后以“列向量”形式保存到数据库:然后按前N组词拼为向量组,以供查询使用,即组合为1到N字的组合