近似匹配 使用 TF/IDF 的标准全文检索将文档或者文档中的字段作一大袋的词语处理. match 查询可以告知我们这大袋子中是否包含查询的词条,但却无法告知词语之间的关系. 思考下面这几个句子的不同: Sue ate the alligator. The alligator ate Sue. Sue never goes anywhere without her alligator-skin purse. 用 match 搜索 sue alligator 上面的三个文档都会得到匹配,但它却不能…
ElasticSearch 2 (24) - 语言处理系列之停用词:性能与精度 摘要 在信息检索早期,磁盘和内存相较我们今天的使用只是很小的一部分.将索引空间保持在一个较小的水平是至关重要的,节省每个字节都意味着巨大的性能提升.词干提取(参见 缩减单词至词根形式(Reducing Words to Their Root Form))的重要性不仅是因为它让搜索的内容更广泛.让检索的能力更深入,还因为它是压缩索引空间的工具. 要减少索引空间的另一个简单的方法就是索引更少的词.在搜索中,有些词要比其他…
ElasticSearch 2 (16) - 深入搜索系列之近似度匹配 摘要 标准的全文搜索使用TF/IDF处理文档.文档里的每个字段或一袋子词.match 查询可以告诉我们哪个袋子里面包含我们搜索的术语,但这只是故事的一部分.它并不能告诉我们词语之间的关系. 考虑下面句子的区别: Sue ate the alligator. The alligator ate sue. Sue never goes anywhere without her alligator-skin purse. 一个 m…