nlp词性标注

与分词函数不同，jieba库和pyltp库词性标注函数上形式相差极大。

jieba的词性标注函数与分词函数相近，jieba.posseg.cut(sentence,HMM=True)函数有两个参数，sentence是一段文本。

pyltp的词性标注函数pyltp.Postagger.postag(words)有一个参数，words是分词模块的返回值，或者是Python原生的list类型。

nltk中的词性标注函数与pyltp的相似，也是输入list类型。nltk.pos_tag(tokens,tagset=None,lang='eng')中，tokens是list类型的词组；tagset是指定的标注集，有“universal”“wsj”和“brown”，不同的标注集标识词性的tag不同；lang是语言类型，目前支持较好的有“eng”和“rus”，对“zho”的支持还有待改进。

#coding:utf-8

import os

import nltk

import jieba

import jieba.posseg as pseg

from pyltp import Segmentor,Postagger

text='你是我的眼'

#jieba分词同时标注词性

segs=pseg.cut(text)

for word,pos in segs:

    print('%s %s'%(word,pos))

#pyltp以list为参数标注词性

data_dir=r"D:\ltp_data"

segmentor=Segmentor()

segmentor.load(os.path.join(data_dir,'cws.model'))

ptgger=Postagger()

ptgger.load(os.path.join(data_dir,'pos.model'))

segs2=segmentor.segment(text)

segs2=list(segs2)

poses2=ptgger.postag(segs2)

for i in range(len(segs2)):

    print('%s %s'%(segs2[i],poses2[i]))

segmentor.release()

ptgger.release()

segs3=nltk.pos_tag(segs2,lang='zho')

for word,pos in segs3:

    print('%s %s'%(word,pos))

运行结果如下：

你 r

是 v

我 r

的 uj

眼 n

你 r

是 v

我 r

的 u

眼 n

你 JJ

是 NNP

我 NNP

的 NNP

眼 NN

nlp词性标注的更多相关文章

python之NLP词性标注
1.知识点包括中文和英文的词性标注主要使用的库是nltk和jiaba 2.代码 # coding = utf-8 import nltk from nltk.corpus import stopwo ...
NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
1. NLP 走近自然语言处理概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话.办公写作.上网浏览希望机器能像人一样去理解,以 ...
【NLP学习其四】如何构建自己用于训练的数据集？什么是词性标注？
数据集与词性标注数据集是NLP中的重要一环. 但是提到数据集,很多人的第一个想法可能是:"这玩意从网上下载就好了,不用管". 真的不用管?最开始我也是这么认为的于是我直奔CoN ...
nlp 总结分词，词义消歧，词性标注，命名体识别，依存句法分析，语义角色标注
分词中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列. 因为在汉语中,词是承载语义的最基本的单元.分词是信息检索.文本分类.情感分析等多项中文自然语言处理任务的 ...
NLP（五）词性标注和文法
NLTK内置词性标注器用nltk.pos_tag()函数进行词性标注 import nltk nltk.download('averaged_perceptron_tagger') simpleSe ...
【NLP】暑假课作业3 - 词性标注（简单词频概率统计）
作业任务: 使用98年人民日报语料库进行词性标注训练及测试. 作业输入: 98年人民日报语料库(1998-01-105-带音.txt),用80%的数据作为训练集,20%的数据作为验证集. 运行环境: ...
【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理
干货!详述Python NLTK下如何使用stanford NLP工具包作者:白宁超 2016年11月6日19:28:43 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的 ...
【NLP】十分钟快览自然语言处理学习总结
十分钟学习自然语言处理概述作者:白宁超 2016年9月23日00:24:12 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛.笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文 ...
【NLP】蓦然回首：谈谈学习模型的评估系列文章（一）
统计角度窥视模型概念作者:白宁超 2016年7月18日17:18:43 摘要:写本文的初衷源于基于HMM模型序列标注的一个实验,实验完成之后,迫切想知道采用的序列标注模型的好坏,有哪些指标可以度量. ...

随机推荐

Qt之QDomDocument操作xml文件-模拟ini文件存储
一.背景不得不说Qt是一个很强大的类库,不管是做项目还是做产品,Qt自身封装的东西就已经非常全面了,我们今天的这篇文章就是模拟了Qt读写ini文件的一个操作,当然是由于一些外力原因,我们决定自己来完 ...
c# 创建Excel com加载项图片对象批量操作
技术含量较低,主要是通过VBA代码转换成c#代码而来,从而实现图片批量插入.删除.另存为的批量操作,增加文档使用的通用性. 插件主要界面如下: 主要代码如下: private void button8 ...
C#编写扫雷游戏
翻看了下以前大学学习的一些小项目,突然发现有个项目比较有意思,觉得有必要把它分享出来.当然现在看来,里面有很多的不足之处,但因博主现在已经工作,没有时间再去优化.这个项目就是利用C#编写一个Windo ...
maven下载及安装最详解
maven的下载及安装 1.maven下载地址:https://maven.apache.org/download.cgi 2.将下载的安装包解压到自定义目录 3.配置环境变量此电脑->右键属 ...
入门者必看！SharePoint之CAML总结（实战）
分享人:广州华软无名一. 前言在SharePoint中,不支持直接操作数据库,但开发过程中,避免不了查询数据,那么,在SharePoint中如何查询数据? 当然是使用CAML语法. 二. 目录 ...
NFS挂载异常 mount.nfs: Input/output error
[root@localhost ~]# vi /etc/exports #增加/nfs 192.168.10.132(rw,no_root_squash,no_all_squash,async) [r ...
Active Directory 域服务安装与测试
Active Directory 域服务安装与测试实验原理: 安装域服务并创建用户,把另一个电脑加入域中,然后用域账户登录以及用本地账户登录测试实验条件:windows server 2008(域 ...
LeetCode算法题-Toeplitz Matrix（Java实现）
这是悦乐书的第312次更新,第333篇原创 01 看题和准备今天介绍的是LeetCode算法题中Easy级别的第181题(顺位题号是766).如果从左上角到右下角的每个对角线具有相同的元素,则矩阵是 ...
JQuery 常用的那些东西
CDN Google CDN Microsoft CDN CDNJS CDN jsDelivr CDN 选择器 jQuery 元素选择器和属性选择器允许您通过标签名.属性名或内容对 HTML 元素进行 ...
Dubbo 支持哪些序列化协议？
面试题 dubbo 支持哪些通信协议?支持哪些序列化协议?说一下 Hessian 的数据结构?PB 知道吗?为什么 PB 的效率是最高的? 面试官心理分析上一个问题,说说 dubbo 的基本工作原理 ...

nlp词性标注

nlp词性标注

nlp词性标注的更多相关文章

随机推荐

热门专题