Lucene5.x 中文同义词

查询好好多资料，英文同义词好好的，中文就不行，多谢网友支持，拼接了好多代码，然后修改了一些，不足之处，多谢指正。

直接上代码吧，在代码中了解怎么分词的最好

1,创建分词引擎

 public interface SamewordContext {

     String[] getSamewords(String name);

 }

2,同义词

 import java.util.HashMap;

 import java.util.Map;

 public class SimpleSamewordContext implements SamewordContext {

     Map<String,String[]> maps = new HashMap<String,String[]>();

     public SimpleSamewordContext() {

         maps.put("中国",new String[]{"天朝","大陆"});

         maps.put("我家",new String[]{"family","伐木累"});

     }

     @Override

     public String[] getSamewords(String name) {

         // TODO Auto-generated method stub

         return maps.get(name);

     }

 }

3,TokenFilter

import java.io.IOException;

import java.util.Stack;

import org.apache.lucene.analysis.TokenFilter;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;

import org.apache.lucene.util.AttributeSource;

public class MySameTokenFilter extends TokenFilter {

    private CharTermAttribute cta = null;

    private PositionIncrementAttribute pia = null;

    private AttributeSource.State current;

    private Stack<String> sames = null;

    private SamewordContext samewordContext;

    protected MySameTokenFilter(TokenStream input,SamewordContext samewordContext) {

        super(input);

        cta = this.addAttribute(CharTermAttribute.class);

        pia = this.addAttribute(PositionIncrementAttribute.class);

        sames = new Stack<String>();

        this.samewordContext = samewordContext;

    }

    @Override

    public boolean incrementToken() throws IOException {

        if(sames.size()>0) {

            //将元素出栈，并且获取这个同义词

            String str = sames.pop();

            //还原状态

            restoreState(current);

            cta.setEmpty();

            cta.append(str);

            //设置位置0

            pia.setPositionIncrement(0);

            return true;

        }

        if(!this.input.incrementToken()) return false;

        if(addSames(cta.toString())) {

            //如果有同义词将当前状态先保存

            current = captureState();

        }

        return true;

    }

    private boolean addSames(String name) {

        String[] sws = samewordContext.getSamewords(name);

        if(sws!=null) {

            for(String str:sws) {

                sames.push(str);

            }

            return true;

        }

        return false;

    }

}

4,Analyzer

import java.io.Reader;

import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.core.LowerCaseFilter;

import org.apache.lucene.analysis.core.StopAnalyzer;

import org.apache.lucene.analysis.core.StopFilter;

import org.wltea.analyzer.lucene.IKTokenizer;

import com.chenlb.mmseg4j.analysis.MMSegAnalyzer;

public class MySameworkAnalyzer extends MMSegAnalyzer {

    private SamewordContext samewordContext;

    public MySameworkAnalyzer(SamewordContext samewordContext) {

        // TODO Auto-generated constructor stub

        this.samewordContext = samewordContext;

    }

    @Override

    protected TokenStreamComponents createComponents(String text) {

        Reader in = new StringReader(text);

        IKTokenizer tokenizer = new IKTokenizer(in , true);

        TokenStream tokenStream = new MySameTokenFilter(tokenizer,

                samewordContext);

        tokenStream = new LowerCaseFilter(tokenStream);

        tokenStream = new StopFilter(tokenStream,

                StopAnalyzer.ENGLISH_STOP_WORDS_SET);

        return new TokenStreamComponents(tokenizer, tokenStream);

    }

}

5，测试

@Test

    public void test01() {

         String text = "我家在中国";

         Analyzer analyzer = new MySameworkAnalyzer(new SimpleSamewordContext());

         AnalyzerUtils.displayAllToken(text,analyzer);

    }

运行结果：

Lucene5.x 中文同义词的更多相关文章

【中文同义词近义词】词向量 vs 同义词近义词库
方案一:利用预训练好的词向量模型优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到 ...
ES 1.7安装ik分词elasticsearch-analysis-ik-1.2.5中文同义词实现
ElasticSearch 中文同义词实现 https://blog.csdn.net/xsdxs/article/details/52806499 参考以下两个网址,但运行报错,以下是我自己改进方式 ...
中文NER的那些事儿4. 数据增强在NER的尝试
这一章我们不聊模型来聊聊数据,解决实际问题时90%的时间其实都是在和数据作斗争,于是无标注,弱标注,少标注,半标注对应的各类解决方案可谓是百花齐放.在第二章我们也尝试通过多目标对抗学习的方式引入额外的 ...
sphinx的配置和管理.No2
网上配置文档众多,但是对着他们的文档来做老是出问题,于是花了点时间研究了一下,写成总结,方便以后查阅.也希望学习sphinx的朋友能少走弯路.Coreseek的安装请参考:http://blog.ch ...
sphinx的配置和管理
网上配置文档众多,但是对着他们的文档来做老是出问题,于是花了点时间研究了一下,写成总结,方便以后查阅.也希望学习sphinx的朋友能少走弯路.Coreseek的安装请参考:http://blog.ch ...
如何实现文章AI伪原创？
language-ai 文章AI伪原创,文章自动生成,NLP,自然语言技术处理,DNN语言模型,词义相似度分析.全网首个AI伪原创开源应用类项目. 点击右侧about内的链接极速体验! 代码托管在gi ...
paip.中文分词 -- 同义词大全整理
paip.中文分词 -- 同义词大全整理同义词的处理方法: 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blo ...
Lucene全文搜索之分词器：使用IK Analyzer中文分词器（修改IK Analyzer源码使其支持lucene5.5.x）
注意:基于lucene5.5.x版本一.简单介绍下IK Analyzer IK Analyzer是linliangyi2007的作品,再此表示感谢,他的博客地址:http://linliangyi2 ...
全文检索Solr集成HanLP中文分词
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在 ...

随机推荐

查看SQL语句执行时间
DBCC FREEPROCCACHE;SET STATISTICS PROFILE ON SET STATISTICS IO ON SET STATISTICS TIME ON go--SQL开始** ...
有7g和2g的砝码各一个，怎样称可以3次把140g东西分为50g和90g？？？？？？？
第一次:等分 50和90为 70 70 2. 7g 和2g ,取出一个70中的9g , 61 70 3.利用 9g和2g砝码,取出61中的11克,前面的9 和 11 都放进70
cf293E Close Vertices（树分治+BIT）
E. Close Vertices You've got a weighted tree, consisting of n vertices. Each edge has a non-negative ...
wxWidgets一个界面与数据分离的简单例子
/*************************************************************** * Name: MyApp.h * Purpose: Defines ...
cout internal
cout internal */--> pre { background-color: #2f4f4f;line-height: 1.6; FONT: 10.5pt Consola," ...
1 weekend110的NN元数据管理机制 + NN工作机制 + DN工作原理
第一天的笔记,是伪分布hadoop集群搭建, 后面是hadoop Ha的分布式集群搭建第一天,是HDFS的shell操作 NN工作机制里面是二进制 DN工作原理上传完了之后,在hdfs的虚拟路径 ...
art template前端模板引擎
偶然看到后台有一段代码采用的是art template的模板引擎地址为 http://aui.github.io/artTemplate/ 这段代码很简洁 var html = template( ...
探索AutoLayout的本质和解决一些问题
最近频繁使用AutoLayout,记录下自己的一些发现和问题的解决(不是教程) 1.简介 Auto Layout 是苹果在 iOS 6中新引入的布局方式,旨在解决不同尺寸屏幕的适配问题. 屏幕适配工作 ...
ctrl+z的JAVA实现，借助了命令模式（command pattern）
前些天学习<<JAVA与模式>>,到命令模式时,随带给了一个CTRL+Z案例的实现,想来学习编程这么久,CTRL+Z还没有认真实现过. 因此,借助JAVA与模式里面的源代码,自 ...
简约的返回顶部效果（jQuery）
博客建好也快一个月了,主题是在原有主题的基础上做的修改,喜欢这样的清新简约风格,为了更好的体验,以后也会经常做修改. 一般博客的文章都比较长,看到下面不能快速返回到顶部还真是不方便,今天自己动手写了一 ...

Lucene5.x 中文 同义词

Lucene5.x 中文 同义词的更多相关文章

随机推荐

热门专题

Lucene5.x 中文同义词

Lucene5.x 中文同义词的更多相关文章