Lucene之分析器

什么是分析器？

分析(Analysis)在Lucene中指的是将域(Field)文本转换为最基本的索引表示单元—项(Term)的过程。

分析器(Analyzer)对分析操作进行了封装，通过执行一系列操作，将文本语汇单元化，

这些操作包括提取单词、去除标点符号、去除语汇单元上的音调符号、将大写字母转换成小写、移除常用词、将单词转换为词干（词干还原）等。

标准分析器

  @Test

    //默认分析器

    public void testTokenStream() throws IOException {

        //创建一个标准分析器对象

        Analyzer analyzer = new StandardAnalyzer();

        //获得tokenStream对象

        //第一个参数：域名，可以随便给一个

        //第二个参数：要分析的文本内容

        TokenStream tokenStream = analyzer.tokenStream("test", "The Spring Framework provides a comprehensive programming and configuration model.");

        //添加一个引用，可以获得每个关键词

        CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);

        //添加一个偏移量的引用，记录了关键词的开始位置以及结束位置

        OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);

        //将指针调整到列表的头部

        tokenStream.reset();

        //遍历关键词列表，通过incrementToken方法判断列表是否结束

        while(tokenStream.incrementToken()) {

            //关键词的起始位置

            System.out.println("start->" + offsetAttribute.startOffset());

            //取关键词

            System.out.println(charTermAttribute);

            //结束位置

            System.out.println("end->" + offsetAttribute.endOffset());

        }

        tokenStream.close();

    }

效果

中文分析器

第三方中文分析器：IKAnalyzer

IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

导入依赖

	<!-- https://mvnrepository.com/artifact/com.jianggujin/IKAnalyzer-lucene -->

					<dependency>

						<groupId>com.jianggujin</groupId>

						<artifactId>IKAnalyzer-lucene</artifactId>

						<version>8.0.0</version>

					</dependency>

配置IKAnalyzer，导入配置文件

hotword.dic 扩展词典，可以将时尚的网络名词放入到该词典当中，这样就能根据扩展词典进行分词
stopword.dic 停用词词典，可以将无意义的词和敏感词汇放入到该词典当中，这样在分析的时候就会忽略这些内容

在自定义扩展词典和停用词词典的过程当中，千万不要使用windows记事本编辑，因为windows记事本是UTF-8+BOM编码

使用IKAnalyzer进行分词

    @Test

    //自定义分析器

    public void addDocument() throws Exception {

        //1.创建一个Analyzer对象

        Analyzer analyzer=new IKAnalyzer();

        //2.调用Analyzer对象的tokenStream方法获取TokenStream对象，此对象包含了所有的分词结果

        TokenStream tokenStream = analyzer.tokenStream("", "五道口课工场安装mysql-5.7.22-winx64后数据库服务启动报错：本地计算机上的mysql服务启动停止后，某些服务未由其他服务或程序使用时将自动停止而且mysql官网下载的压缩包解压出来没有网线上安装教... 博文 来自： 测试菜鸟在路上，呵呵");

        //3.给tokenStream对象设置一个指针，指针在哪当前就在哪一个分词上

        CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);

        //4.调用tokenStream对象的reset方法，重置指针，不调用会报错

        tokenStream.reset();

        //5.利用while循环，拿到分词列表的结果  incrementToken方法返回值如果为false代表读取完毕  true代表没有读取完毕

        while (tokenStream.incrementToken()){

            System.out.println(charTermAttribute.toString());

        }

        //6.关闭

        tokenStream.close();

    }

效果

创建的时候使用IKAnalyzer

IndexWriter indexWriter=new IndexWriter(directory,new IndexWriterConfig(new IKAnalyzer()));

Lucene之分析器的更多相关文章

Lucene系列-分析器
分析器介绍搜索的基础是对文本信息进行分析,Lucene的分析工具在org.apache.lucene.analysis包中.分析器负责对文本进行分词.语言处理得到词条,建索引和搜索的时候都需要用到分 ...
Lucene教程（转）
Lucene教程 1 lucene简介1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来 ...
lucene教程简介
1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是 ...
Lucene教程--转载
Lucene教程 1 lucene简介1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来 ...
Lucene教程具体解释
(建立索引)] )中生成的索引文件的存放地址.详细步骤简单介绍例如以下: 1.创建Directory对象,索引目录 2.创建IndexSearch对象,建立查询(參数是Directory对象) 3.创 ...
Lucene技术杂谈
Lucene教程 1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么 ...
Lucene实例教程
Lucene是apache组织的一个用java实现全文搜索引擎的开源项目. 其功能非常的强大,api也很简单.总得来说用Lucene来进行建立和搜索和操作数据库是差不多的(有点像),Document ...
Lucene入门教程（转载）
http://blog.csdn.net/tianlincao/article/details/6867127 Lucene教程 1 lucene简介 1.1 什么是lucene Lucene ...
Lucene&Solr框架之第一篇
2.信息检索信息检索是计算机世界中非常重要的一种功能.信息检索不仅仅是指从数据库检索数据,还包括从文件.网页.邮件.用户手输入的内容中检索数据.通过怎样的高效方式将用户想要的信息快速提取出来,是计算 ...

随机推荐

Java&Eclipse&Maven的折腾
趁着寒假对于Java的余热,继续了对Java的征途.这次并没有太多琐碎的事情打断我的学习,于是借着这股热情去图书馆借了两本国外的书(中译版),对于程序的爱好一定要坚持下来,才开通了这个博客以坚持学习.
使用LD_PRELOAD注入程序
LD_PRELOAD是Linux系统的一个环境变量,它可以影响程序的运行时的链接(Runtime linker),它允许你定义在程序运行前优先加载的动态链接库.这个功能主要就是用来有选择性的载入不同动 ...
《即时消息技术剖析与实战》学习笔记9——IM系统如何支持消息的多终端漫游
一.什么是多终端漫游多终端漫游是指:用户在任意一个设备登录后,都能获取到历史的聊天记录.如:QQ 默认漫游 7 天的聊天记录,开通 VIP 会员可漫游 30 天,开通 SVIP 会员可漫游 2 年. ...
.net core3.1 webapi + element-ui upload组件实现文件上传
首先,先看我个人的的项目结构. 这个webapi项目是专门用来做图片上传,其中分为两个控制器:单图片上传和多图片上传.而我接下来主要讲的还是单文件上传,对于多文件的上传,我暂且尚未研究成功. 其中pi ...
mysql+jpa简单实现步骤
首先,我们用的开发工具是IDEA,数据库是mysql,以下是步骤: 1.我们需要在pom.xml加入mysql和jpa的依赖  <depen ...
openstack启动云主机的流程
看一下openstack启动云主机的流程图通过上图分析可以知道: 1. 用户使用Dashboard或者CLI 把认证信息通过REST请求发送给keystone进行认证.2. Keystone校验用户 ...
tmobst6
1.(单选题)Oracle数据库中,在SQL语句中连接字符串的方法是:(). A)CAT B)CONCAT C)JOIN D)UNION 2.(单选题)在数据库中,有一个名为seq的序列对象,以下语句 ...
web通信类几个相关知识
1.什么是同源策略及限制? 同源策略限制从一个源加载的文档或者脚本如何与来自另一个源的资源进行交互. 这是一个用于隔离潜在恶意文件的关键安全机制. 所谓同源,就是指两个页面具有相同的协议,主机(也常说 ...
ARTS Week 10
Dec 30, 2019 ~ Jan 5, 2020 Algorithm Problem 88 Merge Sorted Array (合并两个有序数组) 题目链接题目描述:给定两个有序数组 num ...
JAVA编程思想——分析阅读
需要源码.JDK1.6 .编码风格参考阿里java规约 7/12开始有点意识到自己喜欢理论大而泛的模糊知识的学习,而不喜欢实践和细节的打磨,是因为粗心浮躁导致的么? cron表达式使用设计能力.领 ...

Lucene之分析器

Lucene之分析器的更多相关文章

随机推荐

热门专题