这几天实现了个Lucene分布式检索的模块,采用的分布式方案是将数据分块,分别生成N个索引文件,放到N个节点上运行.检索时,对每一个节点发出查询请求,将N个节点返回的结果归并,然后生成一个新的结果.如果没看明白,可以看看我的帖子 http://www.iteye.com/topic/212046 ,这个方案同帖子中的思想是一致的. 用这样的方案,遇到的问题是归并过后的结果,同没有归并结果是有一定区别的.在实现这个方案前我也分析过,Lucene使用TF/IDF算法来计算相关度,所以会产生这样的问题