nlp中文分词（jieba和pyltp）

分词是中文自然语言处理的基础。目前常用的分词算法有

1.张华平博士的NShort中文分词算法。

2.基于条件随机场（CRF）的中文分词算法。

这两种算法的代表工具包分别是jieba分词系统和哈工大的LTP语言技术平台。下面就分别演示这两个工具的使用方法。

jieba包有两个分词函数，cut和cut_for_search，后者主要为搜索引擎设计，粒度更细。jieba.cut(sentence,cut_all=False,HMM=True) 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型。

pyltp包的分词模块只有一个分词函数，Segmentor.segment(line)只有一个参数：需要分词的字符串。

#coding:utf-8

import jieba

from pyltp import Segmentor

text='奎金斯距离祭台很近，加拉塔“掉落”的部分事物就在他的面前，他下意识就捡起了其中一块金属碎屑般的事物和小片黑色固体。'

segs1=jieba.cut(text)

print('|'.join(segs1))

segs1=jieba.cut_for_search(text)

print('|'.join(segs1))

segmentor=Segmentor()  #实例化分词模块

segmentor.load("D:\\ltp_data\\cws.model")

segs2=segmentor.segment(text)

print('|'.join(segs2))

segmentor.release()    #释放模型

分词的结果如下：

奎金斯|距离|祭台|很近|，|加|拉塔|“|掉落|”|的|部分|事物|就|在|他|的|面前|，|他|下意识|就|捡起|了|其中|一块|金属|碎屑|般的|事物|和|小片|黑色|固体|。

奎金斯|距离|祭台|很近|，|加|拉塔|“|掉落|”|的|部分|事物|就|在|他|的|面前|，|他|意识|下意识|就|捡起|了|其中|一块|金属|碎屑|般的|事物|和|小片|黑色|固体|。

奎金斯|距离|祭台|很|近|，|加拉塔|“|掉落|”|的|部分|事物|就|在|他|的|面前|，|他|下|意识|就|捡|起|了|其中|一|块|金属|碎屑|般|的|事物|和|小|片|黑色|固体|。

可以看到，默认的分词方法还是有一些瑕疵，jieba分词结果里，“加拉塔”被分割成了两部分，pyltp的结果里，“般的”被分割成了两部分。为了更好地分词，两个工具包都提供了调整词典、添加词典的功能。

jieba里调整词典的函数是jieba.add_word(word,freq=None,tag=None)，它接受三个参数：新词，词频，词性。jieba还可以添加自定义词典，jieba.load_userdict(f)，f是一个txt文档，要求是utf-8编码。词典格式为一个词占一行，每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。

pyltp在加载模型的同时，可加载自定义词典。Segmentor. load_with_lexicon(model_path,user_dict)第一个参数自带的模型文件，第二个参数是自定义词典。词典格式为一个词为一行，第一列是词，第二列到第n列是该词的候选词性。

本次分词，jieba、pyltp的自定义词典都是只有词，其他省略。词典内容如下：

下意识

加拉塔

调整词典后的分词代码如下：

#coding:utf-8

import jieba

from pyltp import Segmentor

from pyltp import CustomizedSegmentor

text='奎金斯距离祭台很近，加拉塔“掉落”的部分事物就在他的面前，他下意识就捡起了其中一块金属碎屑般的事物和小片黑色固体。'

jieba.add_word('奎金斯')

jieba.add_word('加拉塔')

segs1=jieba.cut(text)

print('|'.join(segs1))

jieba.load_userdict('userdict_jieba.txt')

segs1=jieba.cut(text)

print('|'.join(segs1))

segmentor=Segmentor()

cws_model="D:\\ltp_data\\cws.model"

user_dict="userdict_ltp.txt"

segmentor.load_with_lexicon(cws_model,user_dict)

segs2=segmentor.segment(text)

print('|'.join(segs2))

segmentor.release()

分词结果：

奎金斯|距离|祭台|很近|，|加拉塔|“|掉落|”|的|部分|事物|就|在|他|的|面前|，|他|下意识|就|捡起|了|其中|一块|金属|碎屑|般的|事物|和|小片|黑色|固体|。

奎金斯|距离|祭台|很近|，|加拉塔|“|掉落|”|的|部分|事物|就|在|他|的|面前|，|他|下意识|就|捡起|了|其中|一块|金属|碎屑|般的|事物|和|小片|黑色|固体|。

[INFO] 2018-04-21 17:49:06 loaded 2 lexicon e

奎金斯|距离|祭台|很|近|，|加拉塔|“|掉落|”|的|部分|事物|就|在|他|的|面前|，|他|下意识|就|捡|起|了|其中|一|块|金属|碎屑|般|的|事物|和|小|片|黑色|固体|。

除了添加自定义词典，pyltp还可以个性化分词。个性化分词为了解决测试数据切换到如小说、财经等不同于新闻领域的领域。在切换到新领域时，用户只需要标注少量数据。个性化分词会在原有新闻数据基础之上进行增量训练。从而达到即利用新闻领域的丰富数据，又兼顾目标领域特殊性的目的。

pyltp 支持使用用户训练好的个性化模型。关于个性化模型的训练需使用 LTP，详细介绍和训练方法请参考http://ltp.readthedocs.org/zh_CN/latest/theory.html#customized-cws-reference-label。

nlp中文分词（jieba和pyltp）的更多相关文章

NLP & 中文分词
NLP & 中文分词中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列. 中文自然语言处理系统 https://www.ltp-cloud.com/int ...
.net中文分词 jieba.NET
简介平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
Python中文分词 jieba
三种分词模式与一个参数以下代码主要来自于jieba的github,你可以在github下载该源码 import jieba seg_list = jieba.cut("我来到北京清华大学& ...
中文分词-jieba
支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义: 搜索引擎模式,在精确模式的基础上,对长词再次切分 ...
NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
1. NLP 走近自然语言处理概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话.办公写作.上网浏览希望机器能像人一样去理解,以 ...
中文分词库及NLP介绍，jieba，gensim的一些介绍
六款中文分词软件介绍: https://blog.csdn.net/u010883226/article/details/80731583 里面有jieba, pyltp什么的.另外下面这个博客有不少 ...
中文分词工具探析（二）：Jieba
1. 前言 Jieba是由fxsjy大神开源的一款中文分词工具,一款属于工业界的分词工具--模型易用简单.代码清晰可读,推荐有志学习NLP或Python的读一下源码.与采用分词模型Bigram + H ...
jieba中文分词（python）
问题小结 1.安装需要用到python,根据python2.7选择适当的安装包.先下载http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py ...
NLP+词法系列（二）︱中文分词技术简述、深度学习分词实践（CIPS2016、超多案例）
摘录自:CIPS2016 中文信息处理报告<第一章词法和句法分析研究进展.现状及趋势>P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bce ...

随机推荐

从零到一详聊如何创建Vue工程及遇到的常见问题
前言本文也会在github上我的web-study仓库中同步更新,欢迎star. 戳这里,传送准备工作判断是否需要FQ或安装镜像,镜像一般可安装国内淘宝镜像,详情可看这里:cnpm npm in ...
selinux学习
一.基本概念 1.TE模型的安全上下文所有的操作系统访问控制都基于主体.客体,以及与他们相关的访问控制属性. 在selinux中,访问控制属性叫做安全上下文.所有对象(文件.进程间通信通道.套接字. ...
瑞芯微RKnanC芯片处理器介绍
RKnanC是一种低成本.低功耗.高效率的数字多媒体芯片,它是基于ARM的低功耗处理器结构和硬件加速器.它是专为便携式音频产品应用,如MP3播放器等. RKnanC可以支持各种音频标准的解码,如MP3 ...
安卓开发笔记（二十五）：ViewPager的使用
首先我们来看看运行之后的效果: 然后我们也不多说废话了,下面是这个项目所需要的全部代码,很多博主写这个都不把代码写完,因此笔者自己也琢磨了一会儿才把这个弄出来,感觉很烦,但我肯定会把代码写全的.我这里 ...
Error:Execution failed for task ':app:processDebugManifest'.
Attribute meta-data#android.support.VERSION@value value=(26.1.0) from AndroidManifest.xml:28:13-35 i ...
Android远程桌面助手(B1413)
ARDC(B1413) 1.解决Android9显示黑屏问题;2.解决向导菜单显示异常问题;3.解决部分手机无法正常连接的问题;4.切换到WiFi连接时,增加显示NetworkID;5.更新图片压缩的 ...
git rebase 合并多次提交.
一.应用场景为什么需要合并多个提交呢? 常常一个功能的开发,修修补补 commit 了 n 多次,带来的结果就是提交过多过杂,不够直观,究竟哪些提交是对应这个功能的呢?还有就是,如果我要将这个功能迁 ...
lunix脚本进程挂掉时显示cpu和内存信息及挂掉的时间
#!/bin/shwhile [ true ]; do #查询是否有8899正在运行的进程netstat -an|grep 8899if [ $? -ne 0 ]thennowtime=$(date ...
Windows Server 2016-Powershell之客户端加域
将本地计算机添加到域或工作组,可通过Add-Computer命令操作,具体信息如下: 语法: Add-Computer [-DomainName] <String> [-ComputerN ...
Python编程Day1——计算机组成与操作系统
一..计算机基础二.编程与编程的目的 1.什么是语言? 一种事物与另外一种事物沟通的介质编程语言是程序员与计算机沟通的介质 2.什么是编程? 程序员把自己想要让计算机做的事用编程语言表达出来,编程 ...

nlp中文分词（jieba和pyltp）

nlp中文分词（jieba和pyltp）的更多相关文章

随机推荐

热门专题