Lucene整理--中文分词

看lucene主页（http://lucene.apache.org/）上眼下lucene已经到4.9.0版本号了, 參考学习的书是依照2.1版本号解说的,写的代码样例是用的3.0.2版本号的,版本号

的不同导致有些方法的使用差异,可是大体还是同样的。

源码用到的jar包（3.0.2版本号）下载地址

參考资料：

1、公司内部培训资料

2、《Lucene搜索引擎开发权威经典》于天恩著.

Lucene使用挺简单的,耐心看完都能学会,还有源码。

分词的方法主要有下面几种：

1）、单字切分

单字切分就是把一段文字依照每一个字去建立索引。

比如将"阿根廷将捧起大力神杯"用单字切分就会切成"阿" "根" "廷" "将" "捧" "起" "大" "力" "神" "杯"10个词。这样的分词法

效率低下。但也能解决一些问题。聊胜于无。

前面几篇Lucene文章里面建立的索引都是应用的单字切分，所以在写的运行索引搜索的时候keyword都是单字的。

2）、二分法

把一段文字的每两个相邻的字算所一个词，这样"阿根廷将捧起大力神杯"就被切分成"阿根" "根廷" "廷将" "将捧" "捧起" "起大" "大力" "力神" "神杯"

这样的分词法效率也低，可是比单字切分要好些的。

3）、词典法

词典法就是建立一个词典文件，然后使用词典和文字段落进行匹配。从而得出分词结果

4）、语义法

这样的方法眼下仅仅存在于理论上。由于想让计算机全然读懂一个人表达的意思眼下还实现不了，中文博大精深的。人和人之间交流还有听不懂的时候呢。

1、先介绍下二分法分词器的使用

Lucene软件包下自带一个lucene-analyzers-3.0.2.jar的包支持二分法分词

首先也是创建一个索引，代码不贴了。跟前面创建的索引（FootBall）仅仅有一行代码的差别：

IndexWriter indexWriter = new IndexWriter(dir, new CJKAnalyzer(Version.LUCENE_30), true,IndexWriter.MaxFieldLength.LIMITED);

索引创建完运行搜索,这个跟前面的代码没有不论什么差别，就是运行搜索的时候仅仅能是依据两个字的词进行搜索。用一个字或者三个字都检索不出东西来。

2、JE分词器的使用方法

JE是一个不错的分词器。很多人都在使用

点击下载JE分词器jar包

它是一个基于词库的分词器，能够向分词器内添加新词。

演示一下这个分词器的使用：

<span style="font-family:SimSun;font-size:12px;">import java.io.IOException;

import jeasy.analysis.MMAnalyzer;

public class UseJE {

	public static void main(String[] args) {

		String str="阿根廷将捧起大力神杯";

		MMAnalyzer mm=new MMAnalyzer();

		try {

			System.out.println(mm.segment(str, "---"));

		} catch (IOException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

	}

}

</span>

运行结果控制台截图：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY2FvaGFpY2hlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="" />

为什么会报这个错误呢,我找了好半天啊，由于JE分词器仅仅支持lucene1.9--lucene2.4版本号的。版本号太低不行，版本号太高也不行。我无语了。

下载个lucene2.0试了下，结果截图例如以下：

如何维护JE分词器词库呢

<span style="font-family:SimSun;font-size:12px;">import jeasy.analysis.MMAnalyzer;

public class AddWord {

	public static void main(String[] args) {

		MMAnalyzer mm=new MMAnalyzer();

		System.out.println(MMAnalyzer.contains("曹海成"));//是否包括该词条

		mm.addWord("曹海成");//像分词器内加入该词条

		System.out.println(MMAnalyzer.contains("曹海成"));

		System.out.println(mm.size());//包括词条总数

	}

}

</span>

运行结果：

lucene要是全部版本号都支持JE分词器就好了。

3、IK分词器

点此下载IK分词器JAR包

<span style="font-family:SimSun;font-size:12px;">import java.io.IOException;

import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.TermAttribute;

import org.wltea.analyzer.lucene.IKAnalyzer;

public class UseIK {

	public static void main(String[] args) {

		String str="阿根廷将捧起大力神杯";

		IKAnalyzer ik=new IKAnalyzer();

		testAnalyzer(ik, str);

	}

	private static void testAnalyzer(IKAnalyzer ik, String str) {

		System.out.println("当前使用的分词器：" + ik.getClass());

		TokenStream tokenStream = ik.tokenStream("content",new StringReader(str));

		tokenStream.addAttribute(TermAttribute.class);

		try {

			while (tokenStream.incrementToken()) {

				TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);

				System.out.println(termAttribute.term());

			}

		} catch (IOException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

		System.out.println();

	}

}

</span>

运行结果截图：

Lucene整理--中文分词的更多相关文章

Lucene的中文分词器IKAnalyzer
分词器对英文的支持是非常好的. 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好. 国人林良益写的IK Ana ...
IKAnalyzer结合Lucene实现中文分词
1.基本介绍随着分词在信息检索领域应用的越来越广泛,分词这门技术对大家并不陌生.对于英文分词处理相对简单,经过拆分单词.排斥停止词.提取词干的过程基本就能实现英文分词,单对于中文分词而言,由于语义的 ...
Lucene的中文分词器
1 什么是中文分词器学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开. 而中文的语义比较特殊,很难像英文那样,一个汉字一个汉字来划分. 所以需要一个能自动识别中文语义的分 ...
lucene之中文分词及其高亮显示(五)
中文分词:即换个分词器 Analyzer analyzer = new StandardAnalyzer();// 标准分词器换成 SmartChineseAnalyzer analyze ...
（转）全文检索技术学习(三)——Lucene支持中文分词
http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程如下图是语汇单元的生成过程: 从一个Re ...
lucene之中文分词及其高亮显示
参考:http://www.cnblogs.com/lirenzhujiu/p/5914174.html http://www.cnblogs.com/xing901022/p/3933675.htm ...
Lucene基础（三）-- 中文分词及高亮显示
Lucene分词器及高亮分词器在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按 ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
Apache Solr 初级教程（介绍、安装部署、Java接口、中文分词）
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...

随机推荐

POJ 1912 凸包
题目: #include <iostream> #include <cstdio> #include <cstring> #include <cstdlib& ...
Pku2978 Colored stones
题目链接:Click here Solution: 状压dp,考虑$f[i][j][k]$表示当前到了第i个石头,颜色状态为j,选取的最后一个石头颜色为k时能够留下的石头的最大数量转移也很好转移 ...
RPN
训练: 特征图是51x39x256,对该图像的每点考虑9个窗口:三种候选面积(128,256,512) x 三种尺度(1:1,1:2,2:1).这些候选窗口称为anchors.如下图: 如果图片尺寸w ...
windows 全局安装 express 但无法命令行执行
从 express 的官网直接按照命令行全局安装 express 后, express 命令无法执行, 在 cmd 中显示该命令行无法识别.基本可判断是环境变量配置这边没有搞定. 1. 卸载 n ...
HBase调优案例（三）——Spark访问HBase慢
负载信息:RegionServer:3个 Region:5400多个现象:在使用Spark对HBase进行scan操作时发现有些task执行比较慢原因分析:查看Spark应用的executor日志 ...
测试String——StringBuffer——StringBulider的速度
package comnf147Package; import java.util.ArrayList; import java.util.List; public class String_Test ...
c/c++运算符
1.算术运算符(+ - / * %) 2.移位运算符移运算符:操作数必须是整形,>>,逻辑左移左边移入的位用0填充,算数左移左边移入的的位用符号位补齐.(无符号数为逻辑左移,对于 ...
C# Socket-TCP异步编程原理详解附源码
目录目录异步原理主要方法源码Server源码:Client源码实验效果(广播为例)参考博客 TOC 异步原理套接字编程原理:延续文件作用思想,打开-读写-关闭的模式. C/S编程模式如下: Ø 服 ...
tp 下载
public function download() { //文件名 $filename=input('filename'); // $file_dir = $_SERVER["DOCUME ...
input 输入框效验
input 输入框效验 1:只能输入正整数: <el-input v-model.number="formData.projectNum" type='number' min ...

Lucene整理--中文分词

Lucene整理--中文分词的更多相关文章

随机推荐

热门专题