HanLP的自定义词典使用方式与注意事项介绍

【环境】python 2.7

方法一：使用pyhanlp，具体方法如下：

pip install pyhanlp # 安装pyhanlp

进入python安装包路径，如

/usr/lib/python2.7/site-packages/pyhanlp/static/

将http://hanlp.properties.in改名为备份文件。

mv hanlp.properties.in hanlp.properties.in.bak

修改hanlp.properties

vim hanlp.properties

将CustomDictionaryPath修改为你自定义的词典路径，如：

CustomDictionaryPath=data/dictionary/custom/self_define_dict.txt; 现代汉语补充词库.txt; 全国地名大全.txt; 人名词典.txt; 机构名词典.txt; 上海地名.txt ns; data/dictionary/person/nrf.txt nrf;

保存。

python脚本，调用pyhanlp示例：

from pyhanlp import *

print HanLP.segment("在你想要放弃的时候，想想是什么让你当初坚持走到了这里。总是有人要赢的，那为什么不能是我")

运行脚本后，系统会检查配置文件hanlp.properties，读取词库的路径，对于自定义词典，第一次会重新生成二进制文件（以后直接用）。

方法二：使用grpc调用hanlp（python调用java包常用手段）

方法三：使用hanlp调用jar包（官方文档有说明），自定义词典没设置成功。

注意事项：

对于词典，直接加载文本会很慢，所以HanLP对于文本文件做了一些预处理，生成了后缀名为.txt.bin的二进制文件。

这些二进制文件相当于缓存，避免了每次加载去读取多个文件。

通过这种txt和bin结合的方式，HanLP一方面方便用户编辑查看词典，另一方面bin方便加载，这种方式可谓是兼二者之长，设计上堪称典范。

打开hanlp的data目录data\dictionary\custom，删除所有的.txt.bin文件，这样一来，HanLP下次加载词典时会自动构建.txt.bin，这样一来，你对文本文件所做的更改才会生效。对于HanLP中的字典，每次更改之后，都必须重新生成bin才可以，否则不会生效。

实际上，这种方式不够智能，可以改进为检查文件日期的方式，如果当前目录下的最新的词典文件比bin文件新，那么bin文件失效，需要重新构建bin。

构建bin的过程是比较缓慢的，它需要把所有的相关文本文件中的词语合并到一个里面，每次构建大概需要2min，构建完成之后下次启动就很快了。

更改hanlp.properties，添加mine.txt.

#自定义词典路径，用;隔开多个自定义词典，空格开头表示在同一个目录，使用“文件名词性”形式则表示这个词典的词性默认是该词性。优先级递减。

#另外data/dictionary/custom/CustomDictionary.txt是个高质量的词库，请不要删除

CustomDictionaryPath=data/dictionary/custom/mine.txt; CustomDictionary.txt; 现代汉语补充词库.txt; 全国地名大全.txt ns; 人名词典.txt; 机构名词典.txt; 上海地名.txt ns;data/dictionary/person/nrf.txt nrf

在data/dictionary/custom/目录下新建mine.txt，添加一些词语。比如里面加上”兰陵笑笑生“。

随便编一个程序测试一下

List<Term> res = HanLP.segment("兰陵笑笑生笑道:你他娘的真是个天才");

System.out.println(res);//[兰陵笑笑生/nr, 笑/v, 道/q, :/w, 你/r, 他/r, 娘/n, 的/uj, 真/d, 是/v, 个/q, 天才/n]

for (String i : HanLP.Config.CustomDictionaryPath) {

System.out.println(i);

}

HanLP的自定义词典使用方式与注意事项介绍的更多相关文章

在使用Hanlp配置自定义词典时遇到的问题
要使用hanlp加载自定义词典可以通过修改配置文件hanlp.properties来实现.要注意的点是: 1. root根路径的配置: hanlp.properties中配置如下: #本配置文件中的路 ...
Hanlp配置自定义词典遇到的问题与解决方法
本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路.这里分享给大家学习参考. 要使用hanlp加载自定义词典可以通过修改配置文件han ...
hanlp使用自定义词典抽取关键词
1.在data/dictionary/custom/路径下新建文件 myDict.txt.,添加新的单词,单词,词性,词频.并删除当前文件夹下的bin文件, 2.在hanlp配置文件中的CustomD ...
MapReduce实现与自定义词典文件基于hanLP的中文分词详解
前言: 文本分类任务的第1步,就是对语料进行分词.在单机模式下,可以选择python jieba分词,使用起来较方便.但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP ...
HanLP自定义词典注意事项
对于词典,直接加载文本会很慢,所以HanLP对于文本文件做了一些预处理,生成了后缀名为.txt.bin的二进制文件. 这些二进制文件相当于缓存,避免了每次加载去读取多个文件. 通过这种txt和bin结 ...
IK-Analyzer(5.3.1)动态配置自定义词典
参考文献:http://blog.csdn.net/fatpanda/article/details/37911079 jar包: IK-Analyzer-extra-5.3.1.jar IKAnal ...
HanLP代码与词典分离方案与流程
之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来, 其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用 ...
python调用jieba(结巴)分词加入自定义词典和去停用词功能
把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是ji ...
Asp.Net 自定义储存Session方式
介绍由于针对于自定义Session存储方式比较少,所以整理了使用自定义Session的方式.用于构建自定义会话存储提供程序代码,而不是使用默认的 SessionStore 介绍背景本文使用的是m ...

随机推荐

vue学习--自定义全局vue组件
文档目录: |--components |-loading(组件文件夹) |-loading.vue (loading组件核心) |-index.js //配置导出组件,并且install 主要配置到 ...
react native 之 Android物理返回键
基本用法根据文档,安卓back键的处理主要就是一个事件监听: BackAndroid.addEventListener('hardwareBackPress', this.onBackPressed ...
神州数码RIP路由协议
实验要求:熟练掌握RIP配置方法拓扑如下 R1 enable 进入特权模式 config 进入全局模式 hostname R1 修改名称 interface s0/1 进入端口 physical-l ...
中国网建提供的SMS短信发送
一个简单的发送短信的小demo 第一步: 兄弟们,首先你们去中国网建的官网去注册一个账户:网址http://sms.webchinese.cn/reg.shtml 第二步: 注册完成之后会有免费的测试 ...
quartz储存方式之JDBC JobStoreTX
这篇单单记录一下个人配置使用quartz的JDBC JobStoreTX的过程以及其中遇到的问题,这里的quartz是version2.2.1,数据库使用的MySQL. JDBCJobStore储存是 ...
安装12C小问题及pdb表空间配置
安装12C小问题及pdb表空间配置一.安装 1.RPM包 #安装12C需要安装的rpm包,官网搜索,做个记录 bc binutils-2.23.52.0.1-12.el7(x86_64) compa ...
使用apidoc 生成Restful web Api文档——新手问题与解决方法
使用apidoc工具来给项目做接口文档,不仅有合理的源码注释,还可以生成对应的文档.是给源码写备注的一个极佳实践. 工具名称:apiDoc Git地址:https://github.com/apido ...
xdoj-1117(记忆化搜索+组合数学）
因为我是从上到下,所以就不叫动态规划而叫记忆化搜索吧 (不过运行时间只有3ms....应该是很不错的吧) 排版怎么那么难看...编辑的时候不是这样子的啊?! 思想 : 大眼一看应该是一道很裸的状压dp ...
unet网络讲解，附代码
转: http://www.cnblogs.com/gujianhan/p/6030639.html key1: FCN对图像进行像素级的分类,从而解决了语义级别的图像分割(semantic segm ...
Kafka设计解析：Kafka High Availability
Kafka在0.8以前的版本中,并不提供High Availablity机制,一旦一个或多个Broker宕机,则宕机期间其上所有Partition都无法继续提供服务.若该Broker永远不能再恢复,亦 ...

HanLP的自定义词典使用方式与注意事项介绍

HanLP的自定义词典使用方式与注意事项介绍的更多相关文章

随机推荐

热门专题