stanford corenlp自定义切词类

stanford corenlp的中文切词有时不尽如意，那我们就需要实现一个自定义切词类，来完全满足我们的私人定制（加各种词典干预）。上篇文章《IKAnalyzer》介绍了IKAnalyzer的自由度，本篇文章就说下怎么把IKAnalyzer作为corenlp的切词工具。

《stanford corenlp的TokensRegex》提到了corenlp的配置CoreNLP-chinese.properties，其中customAnnotatorClass.segment就是用于指定切词类的，在这里我们只需要模仿ChineseSegmenterAnnotator来实现一个自己的Annotator，并设置在配置文件中即可。

customAnnotatorClass.segment = edu.stanford.nlp.pipeline.ChineseSegmenterAnnotator

下面是我的实现：

public class IKSegmenterAnnotator extends ChineseSegmenterAnnotator {

    public IKSegmenterAnnotator() {

        super();

    }

    public IKSegmenterAnnotator(boolean verbose) {

        super(verbose);

    }

    public IKSegmenterAnnotator(String segLoc, boolean verbose) {

        super(segLoc, verbose);

    }

    public IKSegmenterAnnotator(String segLoc, boolean verbose, String serDictionary, String sighanCorporaDict) {

        super(segLoc, verbose, serDictionary, sighanCorporaDict);

    }

    public IKSegmenterAnnotator(String name, Properties props) {

        super(name, props);

    }

    private List<String> splitWords(String str) {

        try {

            List<String> words = new ArrayList<String>();

            IKSegmenter ik = new IKSegmenter(new StringReader(str), true);

            Lexeme lex = null;

            while ((lex = ik.next()) != null) {

                words.add(lex.getLexemeText());

            }

            return words;

        } catch (IOException e) {

            //LOGGER.error(e.getMessage(), e);

            System.out.println(e);

            List<String> words = new ArrayList<String>();

            words.add(str);

            return words;

        }

    }

    @Override

    public void runSegmentation(CoreMap annotation) {

        //0 2

        // A BC D E

        // 1 10 1 1

        // 0 12 3 4

        // 0, 0+1 ,

        String text = annotation.get(CoreAnnotations.TextAnnotation.class);

        List<CoreLabel> sentChars = annotation.get(ChineseCoreAnnotations.CharactersAnnotation.class);

        List<CoreLabel> tokens = new ArrayList<CoreLabel>();

        annotation.set(CoreAnnotations.TokensAnnotation.class, tokens);

        //List<String> words = segmenter.segmentString(text);

        List<String> words = splitWords(text);

        System.err.println(text);

        System.err.println("--->");

        System.err.println(words);

        int pos = 0;

        for (String w : words) {

            CoreLabel fl = sentChars.get(pos);

            fl.set(CoreAnnotations.ChineseSegAnnotation.class, "1");

            if (w.length() == 0) {

                continue;

            }

            CoreLabel token = new CoreLabel();

            token.setWord(w);

            token.set(CoreAnnotations.CharacterOffsetBeginAnnotation.class, fl.get(CoreAnnotations.CharacterOffsetBeginAnnotation.class));

            pos += w.length();

            fl = sentChars.get(pos - 1);

            token.set(CoreAnnotations.CharacterOffsetEndAnnotation.class, fl.get(CoreAnnotations.CharacterOffsetEndAnnotation.class));

            tokens.add(token);

        }

    }

}

在外面为IKAnalyzer初始化词典，指定扩展词典和删除词典

        //为ik初始化词典，删除干扰词

        Dictionary.initial(DefaultConfig.getInstance());

        String delDic = System.getProperty(READ_IK_DEL_DIC, null);

        BufferedReader reader = new BufferedReader(new FileReader(delDic));

        String line = null;

        List<String> delWords = new ArrayList<>();

        while ((line = reader.readLine()) != null) {

            delWords.add(line);

        }

        Dictionary.getSingleton().disableWords(delWords);

stanford corenlp自定义切词类的更多相关文章

stanford corenlp的TokensRegex
最近做一些音乐类.读物类的自然语言理解,就调研使用了下Stanford corenlp,记录下来. 功能 Stanford Corenlp是一套自然语言分析工具集包括: POS(part of spe ...
用 Python 和 Stanford CoreNLP 进行中文自然语言处理
实验环境:Windows 7 / Python 3.6.1 / CoreNLP 3.7.0 一.下载 CoreNLP 在 Stanford NLP 官网下载最新的模型文件: CoreNLP 完整包 ...
开源中文分词工具探析（五）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
Stanford CoreNLP使用需要注意的一点
1.Stanford CoreNLP maven依赖,jdk依赖1.8 <dependency> <groupId>edu.stanford.nlp</groupId&g ...
开源中文分词工具探析（六）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
Stanford Corenlp学习笔记——词性标注
使用Stanford Corenlp对中文进行词性标注语言为Scala,使用的jar的版本是3.6.0,而且是手动添加jar包,使用sbt添加其他版本的时候出现了各种各样的问题添加的jar包有5个 ...
Eclipse下使用Stanford CoreNLP的方法
源码下载地址:CoreNLP官网. 目前release的CoreNLP version 3.5.0版本仅支持java-1.8及以上版本,因此有时需要为Eclipse添加jdk-1.8配置,配置方法如下 ...
Stanford CoreNLP 3.6.0 中文指代消解模块调用失败的解决方案
当前中文指代消解领域比较活跃的研究者是Chen和Vincent Ng,这两个人近两年在AAAI2014, 2015发了一些相关的文章,研究领域跨越零指代.代词指代.名词指代等,方法也不是很复杂,集中于 ...
【转载】Stanford CoreNLP Typed Dependencies
总结自Stanford typed dependencies manual 原文链接:http://www.jianshu.com/p/5c461cf096c4 依存关系描述句子中词与词之间的各种语法 ...

随机推荐

XStream将java对象转换为xml时，对象字段中的下划线“_”，转换后变成了两个的解决办法
在前几天的一个项目中,由于数据库字段的命名原因其中有两项:一项叫做"市场价格"一项叫做"商店价格" 为了便于区分,遂分别将其命名为market ...
Linux安装LAMP开发环境及配置文件管理
Linux主要分为两大系发行版,分别是RedHat和Debian,lamp环境的安装和配置也会有所不同,所以分别以CentOS 7.1和Ubuntu 14.04做为主机(L) Linux下安装软件,最 ...
【.net 深呼吸】跨应用程序域执行程序集
应用程序域,你在网上可以查到它的定义,凡是概念性的东西,大伙儿只需要会搜索就行,内容看了就罢,不用去记忆,更不用去背,“名词解释”是大学考试里面最无聊最没水平的题型. 简单地说,应用程序域让你可以在一 ...
【手把手】JavaWeb 入门级项目实战 -- 文章发布系统（第十二节）
好的,那么在上一节中呢,评论功能的后台已经写好了,这一节,先把这部分后台代码和前台对接一下. 1.评论功能实现我们修改一下保存评论按钮的点击事件,用jQuery的方式获取文本框中的值,然后通过aja ...
C#项目中文件的具体含义
1.Bin 目录用来存放编译的结果,bin是二进制binary的英文缩写,因为最初C编译的程序文件都是二进制文件,它有Debug和Release两个版本,分别对应的文件夹为bin/Debug和bin ...
PHP设计模式（四）单例模式（Singleton For PHP）
今天讲单例设计模式,这种设计模式和工厂模式一样,用的非常非常多,同时单例模式比较容易的一种设计模式. 一.什么是单例设计模式单例模式,也叫单子模式,是一种常用的软件设计模式.在应用这个模式时,单例对 ...
Android程序中--不能改变的事情
有时,开发人员会对应用程序进行更改,当安装为以前版本的更新时出现令人惊讶的结果 - 快捷方式断开,小部件消失或甚至根本无法安装. 应用程序的某些部分在发布后是不可变的,您可以通过理解它们来避免意外. ...
git 命令总结
1 删除分支 git push origin :branch name(Task_******) //删除远程分支 git branch -D branch name(Task_******) ...
Atitit.如何建立研发体系
Atitit.如何建立研发体系组织,流程,prj..Mana oppm 发管理是一个完整的管理体系,从结构上来讲,它主要由四个方面的内容构架而成:组织结构与岗位设置管理流程与工作流程..项目及管 ...
读过MBA的CEO更自私？《哈佛商业评论》2016年第12期。4星
老牌管理杂志.每期都值得精度.本期我还是给4星. 以下是本书中的一些内容的摘抄: 1:他们发现在Airbnb上,如果客人姓名听起来像黑人,那么比名字像白人的客人的接受率会低16%.#45 2:对立组织 ...

stanford corenlp自定义切词类

stanford corenlp自定义切词类的更多相关文章

随机推荐

热门专题