什么是pyltp:

pyltp 是LTP的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

安装 pyltp

测试环境：系统win10 64位， python3.6.5

官方安装是直接使用pip install pyltp命令安装，但是经过多次反复实践，到处是坑，最后放弃了

轮子文件安装：1.下载pyltp-0.2.1-cp36-cp36m-win_amd64.whl文件,百度云，提取码：1gki

　　　　　　　2.切换到下载文件的目录,执行 pip install pyltp-0.2.1-cp36-cp36m-win_amd64.whl

使用 pyltp

使用前请先下载完整模型，百度云,提取码：7qk2，当前模型版本 - 3.4.0

请注意编码：

　　pyltp 的所有输入的分析文本和输出的结果的编码均为 UTF-8。

　　如果您以非 UTF-8 编码的文本输入进行分析，结果可能为空。请注意源代码文件的默认编码。

　　由于 Windows 终端采用 GBK 编码显示，直接输出 pyltp 的分析结果会在终端显示为乱码。您可以将标准输出重定向到文件，以 UTF8 方式查看文件，就可以解决显示乱码的问题。

分句：

使用 pyltp 进行分句示例如下：

'''

使用pyltp进行分句

'''

from pyltp import SentenceSplitter

sents = SentenceSplitter.split('元芳你怎么看？我就趴在窗口上看呗！元芳你怎么这样子了？我哪样子了？')

# print(sents)

# print('\n'.join(sents))

sents = '|'.join(sents)

print(sents)

运行结果如下：　

元芳你怎么看？|我就趴在窗口上看呗！|元芳你怎么这样子了？|我哪样子了？

分词：

使用 pyltp 进行分词示例如下：

"""

使用pyltp进行分词

"""

import os

from pyltp import Segmentor

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径， 模型名称为'cws.model'

segmentor = Segmentor()  # 初始化实例

segmentor.load(cws_model_path)  # 加载模型

words = segmentor.segment('元芳你怎么看')  # 分词

print(type(words))

print(type('|'.join(words)))
print('|'.join(words))

segmentor.release()   # 释放模型

运行结果如下：

<class 'pyltp.VectorOfString'>

<class 'str'>

元芳|你|怎么|看

　　words = segmentor.segment('元芳你怎么看') 的返回值类型是native的VectorOfString类型，可以使用list转换成Python的列表类型　

使用分词外部词典：

　　　pyltp 分词支持用户使用自定义词典。分词外部词典本身是一个文本文件（plain text），每行指定一个词，编码同样须为 UTF-8，样例如下所示

　　苯并芘

　　亚硝酸盐

示例如下：

'''

使用分词外部词典

'''

import os

from pyltp import Segmentor

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径， 模型名称为'cws.model'

segmentor = Segmentor()

segmentor.load_with_lexicon(cws_model_path, 'plain.txt')  # 加载模型，第二个参数是外部词典文件路径

words = segmentor.segment('亚硝酸盐是一种化学物质')

print('|'.join(words))

segmentor.release()

　运行结果：

[INFO] 2019-05-10 15:18:05 loaded 2 lexicon entries

亚硝酸盐|是|一|种|化学|物质

词性标注：

使用 pyltp 进行词性标注

'''

使用 pyltp 进行词性标注

'''

import os

from pyltp import Postagger

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')  # 分词模型路径， 模型名称为'pos.model'

postagger = Postagger()   # 初始化实例

postagger.load(pos_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']   # words是分词模块的返回值，也支持Python原生list,此处使用list

postags = postagger.postag(words)   # 词性标注

print('|'.join(postags))

postagger.release()  # 释放模型

　运行结果：　　

nh|r|r|v

　LTP 使用 863 词性标注集，详细请参考词性标准集。如下图所示

命名实体识别

使用 pyltp 进行命名实体识别示例如下

'''

命名实体识别

'''

import os

from pyltp import NamedEntityRecognizer

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

ner_model_path = os.path.join(LTP_DATA_DIR, 'ner.model')  # 分词模型路径， 模型名称为'c.model'

recognizer = NamedEntityRecognizer()   # 初始化实例

recognizer.load(ner_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']   # 分词模块的返回值

postags = ['nh', 'r', 'r', 'v']   # 词性标注的返回值

netags = recognizer.recognize(words, postags)  # 命名实体识别

print(netags)

print(list(netags))

recognizer.release()  # 释放模型

　其中，words 和 postags 分别为分词和词性标注的结果。同样支持Python原生的list类型。　

运行结果

<pyltp.VectorOfString object at 0x000002B3A798DBD0>

['S-Nh', 'O', 'O', 'O']

LTP 采用 BIESO 标注体系。B 表示实体开始词，I表示实体中间词，E表示实体结束词，S表示单独成实体，O表示不构成命名实体。

LTP 提供的命名实体类型为:人名（Nh）、地名（Ns）、机构名（Ni）。

B、I、E、S位置标签和实体类型标签之间用一个横线 - 相连；O标签后没有类型标签。

详细标注请参考命名实体识别标注集。

NE识别模块的标注结果采用O-S-B-I-E标注形式，其含义为

标记	含义
O	这个词不是NE
S	这个词单独构成一个NE
B	这个词为一个NE的开始
I	这个词为一个NE的中间
E	这个词位一个NE的结尾

LTP中的NE 模块识别三种NE，分别如下：

标记	含义
Nh	人名
Ni	机构名
Ns	地名

依存句法分析

使用 pyltp 进行依存句法分析示例如下

"""

依存句法分析

"""

import os

from pyltp import Parser

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')  # 分词模型路径， 模型名称为'parser.model'

parser = Parser()   # 初始化实例

parser.load(par_model_path)   # 加载模型

words = ['元芳', '你', '怎么', '看']

postags = ['nh', 'r', 'r', 'v']

arcs = parser.parse(words, postags)   # 句法分析

print('\t'.join('%d: %s' %(arc.head, arc.relation) for arc in arcs))

parser.release()   # 释放模型

　其中，words 和 postags 分别为分词和词性标注的结果。同样支持Python原生的list类型。　

运行结果

4: SBV	4: SBV	4: ADV	0: HED

arc.head 表示依存弧的父节点词的索引。ROOT节点的索引是0，第一个词开始的索引依次为1、2、3…

arc.relation 表示依存弧的关系。

arc.head 表示依存弧的父节点词的索引，arc.relation 表示依存弧的关系。

标注集请参考依存句法关系

关系类型	Tag	Description	Example
主谓关系	SBV	subject-verb	我送她一束花 (我 <– 送)
动宾关系	VOB	直接宾语，verb-object	我送她一束花 (送 –> 花)
间宾关系	IOB	间接宾语，indirect-object	我送她一束花 (送 –> 她)
前置宾语	FOB	前置宾语，fronting-object	他什么书都读 (书 <– 读)
兼语	DBL	double	他请我吃饭 (请 –> 我)
定中关系	ATT	attribute	红苹果 (红 <– 苹果)
状中结构	ADV	adverbial	非常美丽 (非常 <– 美丽)
动补结构	CMP	complement	做完了作业 (做 –> 完)
并列关系	COO	coordinate	大山和大海 (大山 –> 大海)
介宾关系	POB	preposition-object	在贸易区内 (在 –> 内)
左附加关系	LAD	left adjunct	大山和大海 (和 <– 大海)
右附加关系	RAD	right adjunct	孩子们 (孩子 –> 们)
独立结构	IS	independent structure	两个单句在结构上彼此独立
核心关系	HED	head	指整个句子的核心

语义角色标注

使用 pyltp 进行语义角色标注示例如下

'''

语义角色标注

'''

import os

from pyltp import SementicRoleLabeller

from demo6 import parser

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

srl_model_path = os.path.join(LTP_DATA_DIR, 'pisrl_win.model')  # 分词模型路径， 模型名称为'pisrl_win.model'

labeller = SementicRoleLabeller()  # 初始化实例

labeller.load(srl_model_path)   # 加载模型

words = ['元芳', '你', '怎么', '看']

postags = ['nh', 'r', 'r', 'v']

arcs = parser()

print(arcs)

　　特别注意，windows系统此处用的模型是pirl_win.model

运行结果

[dynet] random seed: 2222491344

[dynet] allocating memory: 2000MB

[dynet] memory allocation done.

4: SBV	4: SBV	4: ADV	0: HED

<pyltp.VectorOfParseResult object at 0x0000026B5902DC30>

3 A0:(1,1)ADV:(2,2)

第一个词开始的索引依次为0、1、2…

返回结果 roles 是关于多个谓词的语义角色分析的结果。由于一句话中可能不含有语义角色，所以结果可能为空。

role.index 代表谓词的索引， role.arguments 代表关于该谓词的若干语义角色。

arg.name 表示语义角色类型，arg.range.start 表示该语义角色起始词位置的索引，arg.range.end 表示该语义角色结束词位置的索引。

例如上面的例子，由于结果输出一行，所以“元芳你怎么看”有一组语义角色。其谓词索引为3，即“看”。这个谓词有三个语义角色，范围分别是(0,0)即“元芳”，(1,1)即“你”，(2,2)即“怎么”，类型分别是A0、A0、ADV。

arg.name 表示语义角色关系，arg.range.start 表示起始词位置，arg.range.end 表示结束位置。

标注集请参考语义角色关系。

语义角色类型	说明
ADV	adverbial, default tag ( 附加的，默认标记 )
BNE	beneﬁciary ( 受益人 )
CND	condition ( 条件 )
DIR	direction ( 方向 )
DGR	degree ( 程度 )
EXT	extent ( 扩展 )
FRQ	frequency ( 频率 )
LOC	locative ( 地点 )
MNR	manner ( 方式 )
PRP	purpose or reason ( 目的或原因 )
TMP	temporal ( 时间 )
TPC	topic ( 主题 )
CRD	coordinated arguments ( 并列参数 )
PRD	predicate ( 谓语动词 )
PSR	possessor ( 持有者 )
PSE	possessee ( 被持有 )

完整示例

import os,sys

from pyltp import SentenceSplitter,Segmentor,Postagger,Parser,NamedEntityRecognizer,SementicRoleLabeller

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径， 模型名称为'cws.model'

paragraph = '中国进出口银行与中国银行加强合作。中国进出口银行与中国银行加强合作！'

sentence = SentenceSplitter.split(paragraph)[0]  # 分句并取第一句

# 分词

segmentor = Segmentor()   # 初始化

segmentor.load(os.path.join(LTP_DATA_DIR, 'cws.model'))   # 加载模型

words = segmentor.segment(sentence)  # 分词

print(list(words))

print('|'.join(words))

# 词性标注

postagger = Postagger()  # 初始化

postagger.load(os.path.join(LTP_DATA_DIR, 'pos.model'))  # 加载模型

postags = postagger.postag(words)

#postags = postagger.postag(['中国', '进出口', '银行', '与', '中国银行', '加强', '合作', '。'])

print(list(postags))

# 依存句法分析

parser = Parser()

parser.load(os.path.join(LTP_DATA_DIR, 'parser.model'))

arcs = parser.parse(words, postags)

print('\t'.join('%d:%s' %(arc.head, arc.relation) for arc in arcs))

# 命名实体识别

recognizer = NamedEntityRecognizer()  # 实例化

recognizer.load(os.path.join(LTP_DATA_DIR, 'ner.model'))

netags = recognizer.recognize(words, postags)

print(list(netags))

# 语义角色标注

labeller = SementicRoleLabeller()

labeller.load(os.path.join(LTP_DATA_DIR, 'pisrl_win.model'))

roles = labeller.label(words, postags, arcs)

for role in roles:

    print(role.index, "".join(

            ["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments]))

segmentor.release()  # 释放

postagger.release()

parser.release()

recognizer.release()

labeller.release()

参考链接：https://pyltp.readthedocs.io/zh_CN/latest/

　　　　　https://github.com/HIT-SCIR/pyltp

安装和使用pyltp的更多相关文章

pyltp安装教程及简单使用
1.pyltp简介 pyltp 是哈工大自然语言工作组推出的一款基于Python 封装的自然语言处理工具(轮子),提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能. 2.pyltp ...
pyltp安装踩坑记录
LTP(Language Technology Platform)由哈工大社会计算与信息检索研究中心开发,提供包括中文分词.词性标注.命名实体识别.依存句法分析.语义角色标注等丰富. 高效.精准的自然 ...
Ubuntu安装使用pyltp和StanfordCoreNLP
环境:Ubuntu 16.04+anaconda3 一.pyltp 1. 安装直接用pip安装: pip install pyltp 然后下载语言模型库,网址:https://pan.baidu.c ...
pyltp安装
第一步:下载wheel文件第二步:进入该文件的文件夹第三步:pip install wheel文件名注意:python的安装版本必须和pyltp的版本相同,我这版本都是pyhton3.6.之前p ...
windows下使用LTP分词，安装pyltp
1.LTP介绍 ltp是哈工大出品的自然语言处理工具箱, 提供包括中文分词.词性标注.命名实体识别.依存句法分析.语义角色标注等丰富. 高效.精准的自然语言处理技术.pyltp是python下对ltp ...
liunx anacoda 安装pyltp
anacoda 默认的gcc是4.7需要更新 https://anaconda.org/nlesc/gcc 更新之后再安装即可. 报错: /usr/lib64/libstdc++.so.6: vers ...
NLP入门（六）pyltp的介绍与使用
pyltp的简介语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基础平台.它提供的功能包括中文分词.词性标注.命名实体识别.依 ...
python中文分词库——pyltp
pyltp在win10下安装比较麻烦,因此参考以下安装方式, 1.下载 win10下python3.6 2.安装下载好了以后, 在命令行下, cd到wheel文件所在的目录, 然后使用命令pip i ...
命名实体识别，使用pyltp提取文本中的地址
首先安装pyltp pytlp项目首页单例类(第一次调用时加载模型) class Singleton(object): def __new__(cls, *args, **kwargs): if n ...

随机推荐

Java byte[] 转C# byte[]
byte(C# 参考) byte 关键字代表一种整型,该类型按下表所示存储值: 类型范围大小 .NET Framework 类型 byte 0 到 255 无符号 8 位整数 Byte 参考msd ...
vue - 基础(2)
<div id="content"> {{ msg }} <div v-text="msg"></div> <div ...
全局的 axios 默认值
(1)全局的 axios 默认值 axios.defaults.baseURL = 'https://api.example.com';/*默认请求路径*/ axios.defaults.header ...
MapReduce 简单开发
先给出 maven 依赖配置 <properties> <hadoop.version>2.6.0</hadoop.version> </properties ...
日志级别facility
0 EMERG(紧急) 会导致主机系统不可用的情况 1 ALERT(警告) 必须马上采取措施解决的问题 2 CRIT(严重) 比较严重的情况 3 ERR(错误) 运行出现错误 4 WARNING(提醒 ...
MySQL | MySQL 数据库系统（一）
## 1.什么是 MySQL 数据库? MySQL 数据库是一个关系型数据库管理系统,是服务器领域中受欢迎的开源数据库系统,目前有 Oracle 公司主要负责运营与维护: ## 2.MySQL 数据库 ...
【pytorch】torch.utils.data.DataLoader
简介 DataLoader是PyTorch中的一种数据类型.用于训练/验证/测试时的数据按批读取. torch.utils.data.DataLoader(dataset, batch_size=1, ...
zzulioj - 2624: 小H的奇怪加法
题目链接:http://acm.zzuli.edu.cn/problem.php?id=2624 题目描述小H非常喜欢研究算法,尤其是各种加法.没错加法包含很多种,例如二进制中的全加,半加等.全加: ...
VMware Workstation创建Windows2012server虚拟机
镜像文件需要下载到物理机 3.需要输入iso文件对应的密钥定义普通的用户名与密码 4.指定按照路径 5. 大概都是下一步根据提示需要重启选择带GUI的服务器进行安装,因为windows命令行模 ...
ABP 从core降到级.net framework
后台: Application层得先写接口再写实现,不然 abp.services.app 这个里面就没有该service.并且service保留的接口,就是interface里面定义的接口. 文件 ...

安装和使用pyltp

什么是pyltp:

pyltp 是LTP的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

安装 pyltp

使用 pyltp

使用前请先下载完整模型，百度云,提取码：7qk2，当前模型版本 - 3.4.0

请注意编码：

pyltp 的所有输入的分析文本和输出的结果的编码均为 UTF-8。

如果您以非 UTF-8 编码的文本输入进行分析，结果可能为空。请注意源代码文件的默认编码。

由于 Windows 终端采用 GBK 编码显示，直接输出 pyltp 的分析结果会在终端显示为乱码。您可以将标准输出重定向到文件，以 UTF8 方式查看文件，就可以解决显示乱码的问题。

分句：

分词：

使用 pyltp 进行分词示例如下：

运行结果如下：

使用分词外部词典：

示例如下：

运行结果：

词性标注：

使用 pyltp 进行词性标注

运行结果：

命名实体识别

运行结果

依存句法分析

运行结果

语义角色标注

运行结果

完整示例

安装和使用pyltp的更多相关文章

随机推荐

热门专题

　　pyltp 的所有输入的分析文本和输出的结果的编码均为 UTF-8。

　　如果您以非 UTF-8 编码的文本输入进行分析，结果可能为空。请注意源代码文件的默认编码。

　　由于 Windows 终端采用 GBK 编码显示，直接输出 pyltp 的分析结果会在终端显示为乱码。您可以将标准输出重定向到文件，以 UTF8 方式查看文件，就可以解决显示乱码的问题。

　运行结果：

　运行结果：