全文检索引擎及工具

lucence

lucence是一个全文检索引擎。

lucence代码级别的使用步骤大致如下：

创建文档（org.apache.lucene.document.Document），并通过Document的add方法为其添加字段（lucence.document.Field）
创建lucence.index.IndexWriter，通过addDocument或addDocuments方法添加构建好的诸多Document
通过close方法关闭IndexWriter
创建索引搜索器lucence.search.IndexSearcher，需要传入索引仓库阅读器（lucenc.index.DirectoryReader）参数
通过search方法在搜索器上执行查询，参数是ucence.search.Query对象，通过查询解析器lucene.queryparser.classic.QueryParser的实例parse(String)方法来构建一个查询，QueryParser实例可以通过new标准解析器lucene.queryparser.flexible.standard.StandardQueryParser得到

中文文本索引构建及查询示例

（以下涉及的是6.4.2版本的lucene）

对中文文本构建索引时，不能使用StandardAnalyzer，它会把中文文本按单个字符分割，而非按词语分割，因而需要使用中文分词器，使用自定义的Analyzer。maven包org.apache.lucene:lucene-analyzers-common（由Lucene开发）带一个声称可以对CJK（Chinese、Japanese、Korean）文本分词的的分析器lucene.analysis.cjk.CJKAnalyzer，但其效果相当不好，几乎不可用，比如文本“白玫瑰的鲜花花语是什么?白色玫瑰花的花语:天真、纯洁、尊敬、谦卑,我足以与你相配。”的分词结果是“白玫, 玫瑰, 瑰的, 的鲜, 鲜花, 花花, 花语, 语是, 是什, 什么, 白色, 色玫, 玫瑰, 瑰花, 花的, 的花, 花语, 天真, 纯洁, 尊敬, 谦卑, 我足, 足以, 以与, 与你, 你相, 相配”。除此，smartcn（6.4.2版本maven包为org.apache.lucene:lucene-analyzers-smartcn:6.4.2中，其artifactId不同于版本3.6.2，后者为lucene-smartcn），是随lucene发布的用于处理中文文本的analyzer包，分词特点是词语分割得比较碎，比如上述文本的分词结果是“白, 玫瑰, 的, 鲜花, 花, 语, 是, 什么, 白色, 玫瑰花, 的, 花, 语, 天, 真, 纯洁, 尊敬, 谦卑, 我, 足以, 与, 你, 相, 配”。

以自带的smartcn分析包创建索引

以下代码为scala语言所写，用到的东西不复杂，即使不清楚scala语法也不需要害怕，能看懂构建索引和查询的逻辑过程即可。

代码满足这样的场景需求：假设文件$lucene.wikiIdTitle中有很多行，每行有两列，第一列是数字，第二列是字符串，他们以TAB字符分割，字符串代表一个文档的文本内容，数字代表文档的唯一编号，我们要为文档建立索引，查询时，给出关键词，输出文档唯一编号。



import org.slf4j.LoggerFactory

import com.typesafe.config.{ConfigFactory, _}

import org.apache.lucene

import lucene.index.{DirectoryReader, IndexWriter, IndexWriterConfig, _}

import lucene.document.{Field, FieldType, _}

import lucene.analysis.{CharArraySet, _}

import lucene.search.{IndexSearcher, _}

import lucene.store.{RAMDirectory, _}

import lucene.analysis.cn.smart.{SmartChineseAnalyzer, _}

import org.apache.lucene.index.IndexWriterConfig.OpenMode

import org.apache.lucene.queryparser.classic.QueryParser

import scala.collection.convert.ImplicitConversions._

import scala.io.Source

import scala.util.{Failure, Success, Try}

val log = LoggerFactory.getLogger(this.getClass)

val conf = ConfigFactory.load("app")  // 读取文件配置，对Java程序员来说相当于读 app.properties配置文件

log.info("creating lucene index for wikipedia titles...")

// 保存lucene索引文件的目录，例如/path/to/index/

val indexDir = conf.getString("lucene.indexDir")

log.debug(s"lucene index writing direcotry: $indexDir")

import org.apache.lucene

// 创建Directory对象，或创建写入硬盘的（FSDirectory）或直接在内存中操作的（RAMDirectory）。前者需要提供一个写入索引的目录参数。

//    val idxDir = FSDirectory.open(java.nio.file.Paths.get(indexDir))

//小示例，直接在内存中操作算了

val idxDir = new RAMDirectory()

val stopWordsFiles = conf.getString("lucene.stopWordsFiles")

log.debug(s"lucene.stopWordsFiles: $stopWordsFiles")

// “停用词”表，以过滤分词结果中没啥用处的停用词

val stopWords = stopWordsFiles.split(",").flatMap(f => Try {

  if (f.trim.nonEmpty)

    Source.fromFile(f).getLines()

  else

    Iterator.empty

} match {

  case Success(x) => x

  case Failure(e) =>

    log.warn(s"error in loading stop words file: $f", e)

    Iterator.empty

}).toList

log.debug(s"stop words size: ${stopWords.length}")

val smartcn = new SmartChineseAnalyzer(new CharArraySet(stopWords, true))

val iwConf = new IndexWriterConfig(smartcn)

// iwConf.setOpenMode(OpenMode.CREATE) // RAM中操作“重新创建”、“追加”几种写入模式都无所谓了

val indexWriter = new IndexWriter(idxDir, iwConf)

// $lucene.wikiIdTitle表示文档集合文件的路径，示例中该文件内容如下

/*

1832186	义胆雄心

5376724	龙山洞

5420049	地下情人

5431949	里弗顿

5455483	长隆

5463308	阿尔伯特桥

5470979	冈田

5511092	肖迪奇站

5544906	莫农加希拉_(消歧义)

5553846	蓬莱洞

5553849	南山洞

5566592	开水

5566629	氧化锑

*/

val pgIdTtls=Source.fromFile(conf.getString("lucene.wikiIdTitle"))

  .getLines()

  .filter(ln => ln.nonEmpty)

  .map(ln => {

    val idTtl = ln.split("\t")

    (idTtl(0), idTtl(1))

  })

//pgIdTtls变量是一个二元组，对于Java程序员，不必了解什么是二元组，可想象成两列，第一列是唯一id，第二列是文本

  pgIdTtls.foreach(e => {

  import lucene.document._

  //创建一个Document

  val ldoc = new lucene.document.Document()

  //由于第一列是文档唯一id，不需要被索引，但需要被保存，以便在检索到结果之后能“看到”这个id字段，不保存（.setStored(false)）则即使被添加到document对象，在结果中也看不到该字段

  val pageIdFieldType = new FieldType()

  pageIdFieldType.setStored(true)  // 要保存，因为我们想在结果中得到这个值

  pageIdFieldType.setIndexOptions(lucene.index.IndexOptions.NONE)  //别在id字段上做索引

  // 事实上，为了性能，可以把pageIdFieldType移到循环外，示例中放在这里是为了让FieldType的出现看起来更合理

  // 为文档创建字段，名为pageId（字段名随意取，不过在检索结果中提取时你得记得这个字段的名字），值为第一列（即文档唯一编号）

  val piFld = new lucene.document.Field("pageId", e._1, pageIdFieldType)

  ldoc.add(piFld)

  //把文档的文本内容添加到title字段，要保存（Field.Store.YES）

  ldoc.add(new lucene.document.TextField("title", e._2, Field.Store.YES))

  indexWriter.addDocument(ldoc)  // 写入index

})

//indexWriter.close()  // 如果用硬盘写入（FSDirectory.open方式），要记得关闭

val searcher = new IndexSearcher(DirectoryReader.open(indexWriter))

// 如果是读取某个目录下的index，则应该用

// val searcher = new IndexSearcher(DirectoryReader.open(FSDirectory.open(java.nio.file.Paths.get("/path/to/index/"))))

import lucene.queryparser.classic._

// 在title字段上搜索

val queryParser = new QueryParser("title", smartcn)

// 搜索“南山洞”

val query = queryParser.parse("南山洞")

//

val hitPageIdTitles = searcher

            .search(query, 30)  // 最多返回30个结果，还有更多我也不想要了（类似SQL的limit 30

            .scoreDocs.map(searcher doc _.doc)

            .map(d => (d.get("pageId"), d.get("title")))

//上一scala语句对java程序员来说理解起来可能稍微有点费力，翻译为java，是这样的

/*

ScoreDoc[] scoreDocs=searcher.search(query,30).scoreDocs;

        for (ScoreDoc scoreDoc : scoreDocs) {

            //得到检索到的Document

           org.apache.lucene.document.Document d= searcher.doc(scoreDoc.doc);

           // 从Document中获取文档编号和文本内容

            System.out.println(d.get("pageId")+", "+d.get("title"))

        }

*/

//检索到两个结果(5553849,南山洞), (5376724,龙山洞)

编写Analyzer子类，实现使用自定义分词工具分词

//TODO

solr

solr是一个构建在lucence之上的应用服务器，属于一个全文检索工具，以http提供服务。