1 测试代码

package com.test.lucene.helloworld;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;

import org.junit.Test;

import org.wltea.analyzer.lucene.IKAnalyzer;

public class JudgeAnalyzer {

    @Test

    public void testTokenStream() throws Exception {// 创建一个分析器对象

        //Analyzer analyzer = new StandardAnalyzer();

        //Analyzer analyzer = new CJKAnalyzer();

        //Analyzer analyzer = new SmartChineseAnalyzer();

        Analyzer analyzer = new IKAnalyzer();

        // 获得tokenStream对象

        // 第一个参数：域名，可以随便给一个

        // 第二个参数：要分析的文本内容

        String content ="我是一个中国人，我学习了数据结构，它是一个高富帅，你是白富美";

        TokenStream tokenStream = analyzer.tokenStream("test",content);

        // 添加一个引用，可以获得每个关键词

        CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);

        // 添加一个偏移量的引用，记录了关键词的开始位置以及结束位置

        OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);

        // 将指针调整到列表的头部

        tokenStream.reset();

        // 遍历关键词列表，通过incrementToken方法判断列表是否结束

        while (tokenStream.incrementToken()) {

            // 关键词的起始位置

            System.out.println("start->" + offsetAttribute.startOffset());

            // 取关键词

            System.out.println(charTermAttribute);

            // 结束位置

            System.out.println("end->" + offsetAttribute.endOffset());

        }

        tokenStream.close();

    }

}

IKAnalyzer中文分析器使用方法

第一步：将jar包导入项目中

第二步：把配置文件和扩展词典和停用词词典添加到classpath下

查看分析器(Analyzer)的分词效果的更多相关文章

Solr中的概念:分析器(analyzer)、字符过滤器(character filter)、分词器（Tokenizer）、词元过滤器（Token Filter）、词干化(Stemming)
文本中包含许多文本处理步骤,比如:分词,大写转小写,词干化,同义词转化和许多的文本处理. 文本分析既用于索引时对一文本域的处理,也用于查询时查询字符串的文本处理.文本处理对搜索引擎的搜索结果有着重要的 ...
第四步：查看StandardAnalyzer的分词效果并添加停用词
LUCENE的创建索引有好多种分词方式,这里我们用的StandardAnalyzer分词 package cn.lucene; import java.io.IOException; import o ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
开源中文分词框架分词效果对比smartcn与IKanalyzer
一.引言: 中文分词一直是自然语言处理的一个痛处,早在08年的时候,就曾经有项目涉及到相关的应用(Lunce构建全文搜索引擎),那时的痛,没想到5年后的今天依然存在,切分效果.扩展支持.业务应用等方面 ...
ElasticSearch自定义分析器-集成结巴分词插件
关于结巴分词 ElasticSearch 插件: https://github.com/huaban/elasticsearch-analysis-jieba 该插件由huaban开发.支持Elast ...
11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
通过lucene的StandardAnalyzer分析器来了解分词
本文转载http://blog.csdn.net/jspamd/article/details/8194919 不同的Lucene分析器Analyzer,它对TokenStream进行分词的方法是不同 ...
1.5.8 语言分析器(Analyzer)
语言分析器(Analyzer) 这部分包含了分词器(tokenizer)和过滤器(filter)关于字符转换和使用指定语言的相关信息.对于欧洲语言来说,tokenizer是相当直接的,Tokens被空 ...
Lucene全文搜索之分词器：使用IK Analyzer中文分词器（修改IK Analyzer源码使其支持lucene5.5.x）
注意:基于lucene5.5.x版本一.简单介绍下IK Analyzer IK Analyzer是linliangyi2007的作品,再此表示感谢,他的博客地址:http://linliangyi2 ...

随机推荐

.net Tuple特性
.net 4.0 引入了 Tuple特性: 在C# 4.0之前我们函数有多个返回值,通常是使用ref,out .到了c# 4.0 应当使用元组Tuple而不是使用输出参数,在任何时候都应避免使用ref ...
ubuntu eclipse 集成pyDev
Eclipse help 选择安装新软件添加一个pydev 名字随意.地址是 http://pydev.org/updates. 下面的列表会出现很多PyDev For Eclipse 选择版本最高 ...
SOLR企业搜索平台一 (搭建SOLR)
前提是已经安装了java的环境,环境变量的配置不做为讲解,网上也有大量资料.下面以linux为例来说明如何搭建好一个solr 1)首先下载solr,下载地址:http://mirror.bit.edu ...
/Date(1512551901709+0800)/转换
var convertDT=function(dt) { dt.replace(/Date\([\d+]+\)/, function (a) { eval('d = new ' + a) }); al ...
Log4net日志
log4net简介(摘抄于百度百科): log4net库是Apache log4j框架在Microsoft .NET平台的实现,是一个帮助程序员将日志信息输出到各种目标(控制台.文件.数据库 ...
Windows上编译libjpeg
通常libjpeg可以使用如下命令行生成Visual Studio 2010的项目文件: nmake /f makefile.vc setup-v10 但可惜我们使用的是Visual Studio 2 ...
从golang的垃圾回收说起（下篇）
文章来自网易云社区 4 Golang垃圾回收的相关参数 4.1 触发GC gc触发的时机:2分钟或者内存占用达到一个阈值(当前堆内存占用是上次gc后对内存占用的两倍,当GOGC=100时) # 表示 ...
SFML从入门到放弃(2) 图像和音频
SFML从入门到放弃(2) 图像和音频精灵精灵(sf::Sprite)就是截取纹理(sf::Texture)的一块或者重复纹理贴图初始化精灵和纹理的一些方法: sf::Sprite init_ ...
BZOJ3531-[Sdoi2014]旅行（树剖+线段树动态开点）
传送门完了今天才知道原来线段树的动态开点和主席树是不一样的啊我们先考虑没有宗教信仰的限制,那么就是一个很明显的树剖+线段树,路径查询最大值以及路径和然后有了宗教信仰的限制该怎么做呢? 先考虑暴力 ...
Postman使用手册3——环境变量
一.环境变量当使用API的时候,你可能经常需要使用不同的设置.环境设置可以让你使用变量自定义request.这个方法可以让你轻松的在不同的设置之间改变而不用改变你的request.你不需要担心要记住 ...

查看分析器(Analyzer)的分词效果

1 测试代码

IKAnalyzer中文分析器使用方法

查看分析器(Analyzer)的分词效果的更多相关文章

随机推荐

热门专题