NLP(八) 创建自然语言处理管道
原文链接:http://www.one2know.cn/nlp8/
- 一条管道可以被看作一个多阶段的数据流系统,其中一个组件的输出被视为另一个组件的输入
- 管道特点:
- 数据始终从一个组件流向另一个组件
- 组件是一个只考虑输入和输出数据的黑盒
- NLP管道应有的功能:
- 采集输入数据
- 对输入数据进行分词
- 识别输入数据中单词的词性
- 从单词中抽取命名实体
- 识别命名实体之间的关系
import nltk
import threading # 轻量级任务的线程库
import queue #可在多线程程序中使用的队列库
import feedparser # RSS源解析库
import uuid # 基于RFC-4122的uuid版本1,3,4,5的生成库
threads = [] # 创建一个空列表来跟踪程序中的所有线程
queues = [queue.Queue(),queue.Queue()] # 创建一个包含两个队列对象的列表
# 第一个队列:存储分词后的句子
# 第二个队列:存储所有标注过词性的单词
def extractWords():
url = 'http://sports.yahoo.com/mlb/rss.xml'
feed = feedparser.parse(url)
for entry in feed['entries'][:5]:
text = entry['title'] # 标题存到text里
if 'ex' in text: # 跳过包含敏感词的标题,有ex存在就不处理了
continue
words = nltk.word_tokenize(text) # 将标题分词
data = {'uuid':uuid.uuid4(),'input':words} # 两个键值对,存储UUID和输入的单词
queues[0].put(data,True) # 将字典放到第一个队列
print(">> {} : {}".format(data['uuid'],text))
# 从第一个队列读取数据,并处理数据,将这些单词的词性保存在第二个队列中
def extractPOS():
while True: # 无限循环,直到第一个队列为空
if queues[0].empty():
break
else:
data = queues[0].get()
words = data['input']
postags = nltk.pos_tag(words)
queues[0].task_done() # 已经处理完毕由此线程获取的条目
# 将标注词性的单词列表存储在第二个队列
queues[1].put({'uuid':data['uuid'],'input':postags},True)
# 从第二个队列读取数据,即处理标注词性后的词,并在屏幕打印命名实体
def extractNE():
while True: # 无限循环,直到第二个队列为空
if queues[1].empty():
break
else:
data = queues[1].get()
postags = data['input']
queues[1].task_done()
# 将postags中的命名实体抽取出来存入chunks中
chunks = nltk.ne_chunk(postags,binary=False)
print(" << {} : ".format(data['uuid']),end='')
for path in chunks:
try:
label = path.label()
print(path,end=', ')
except:
pass
print()
def runProgram():
# 启动该线程,并将该线程放到队列
e = threading.Thread(target=extractWords())
e.start()
threads.append(e)
p = threading.Thread(target=extractPOS())
p.start()
threads.append(p)
n = threading.Thread(target=extractNE())
n.start()
threads.append(n)
# 将在所有工作处理完毕后释放分配给queues资源
queues[0].join()
queues[1].join()
# 遍历线程列表,将当前的线程对象存储在t中
for t in threads:
t.join() # 标记线程的完成,并释放分配给线程的资源
if __name__ == "__main__":
runProgram()
输出:
>> be849c82-41cf-4e98-ac32-9766a199e763 : The Bandwagon: All-Stars, America and more
>> 690c174d-a365-4b8a-8712-abd222f13902 : Cards regain power, look for series win vs. Mariners
>> e75f4270-8922-4eab-b688-69e34e387c6f : Yankees look to continue success against Rays
>> f829392a-3702-45bb-bff8-d35261dfa03b : Recap: STL 5, SEA 2
>> ad953f96-21ac-46ea-979d-78086efb964c : Pirates going for 4-game sweep of Cubs
<< be849c82-41cf-4e98-ac32-9766a199e763 : (GPE America/NNP),
<< 690c174d-a365-4b8a-8712-abd222f13902 :
<< e75f4270-8922-4eab-b688-69e34e387c6f : (ORGANIZATION Yankees/NNS), (PERSON Rays/NNP),
<< f829392a-3702-45bb-bff8-d35261dfa03b : (GPE Recap/NN), (ORGANIZATION SEA/NNP),
<< ad953f96-21ac-46ea-979d-78086efb964c : (GPE Cubs/NNP),
NLP(八) 创建自然语言处理管道的更多相关文章
- linux内核剖析(八)进程间通信之-管道
管道 管道是一种两个进程间进行单向通信的机制. 因为管道传递数据的单向性,管道又称为半双工管道. 管道的这一特点决定了器使用的局限性.管道是Linux支持的最初Unix IPC形式之一,具有以下特点: ...
- 【NLP】基于自然语言处理角度谈谈CRF(二)
基于自然语言处理角度谈谈CRF 作者:白宁超 2016年8月2日21:25:35 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务 ...
- socketpair创建双向通信的管道(全双工通信)
Linux下socketpair介绍: socketpair创建了一对无名的套接字描述符(只能在AF_UNIX域中使用),描述符存储于一个二元数组,例如sv[2] .这对套接字可以进行双工通信,每一个 ...
- 使用 Visual Studio Team Services 和 IIS 创建持续集成管道
若要将应用程序开发的生成.测试和部署阶段自动化,可以使用持续集成和部署 (CI/CD) 管道. 本教程介绍如何在 Azure 中使用 Visual Studio Team Services 和 Win ...
- NLP之中文自然语言处理工具库:SnowNLP(情感分析/分词/自动摘要)
一 安装与介绍 1.1 概述 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个 ...
- mkfifo - 创建FIFO(命名管道)
SYNOPSIS(总览) mkfifo [options] file... POSIX options(选项): [-m mode] GNU options(选项)(最短格式): [-m mode] ...
- 嵌入式Linux驱动学习之路(八)创建最小的根文件系统
busybox 在配置busybox,在是否选择要静态链接库时,在静态下,busybox中的工具不需要动态链接库,能够直接运行.而用户自己编写的程序如果需要动态链接库,还是依然需要有. 如果是动态链接 ...
- Coursera Deep Learning笔记 序列模型(二)NLP & Word Embeddings(自然语言处理与词嵌入)
参考 1. Word Representation 之前介绍用词汇表表示单词,使用one-hot 向量表示词,缺点:它使每个词孤立起来,使得算法对相关词的泛化能力不强. 从上图可以看出相似的单词分布距 ...
- 【说解】在shell中通过mkfifo创建命名管道来控制多个进程并发执行
背景: 工作中有两个异地机房需要传数据,数据全名很规范,在某个目录下命名为统一的前缀加上编号.如/path/from/file.{1..100}.而机房间的专线对单个scp进程的传输速度是有限制的,比 ...
随机推荐
- web设计_2_灵活的文字
最佳设计:可以让用户自由控制任何页面的文字大小. 浏览器中用户都是可以自定义默认的文字大小的,如果使用 px,用户自行在浏览器设置中改变了文字大小后,网页上是不会变化的.我们不能排除视障用户(如近视) ...
- ld: warning: directory not found for option ''
iOS开发中经常遇到这样的警告,如图所示: 原因是存在未用到的目录. 解决方法:选择Build Settings,找到Search Paths中的Library Search Paths,如下图 删除 ...
- &= 的含义
这是一个缩略式子,展开之后的结果是a = a & b;&是按位与的操作符. 按位与运算:参加运算的两个数据,按二进位进行“与”运算.如果两个相应的二进位都为1,则该位的结果值为1,否则 ...
- 云计算网络基础笔记及VLAN交换机配置
- 旁友数独会伐啦?python秒解数独了解下伐啦?
前几天和隔壁邻居玩斗地主被发现了,牌被没收了,斗地主是斗不了了,但我还想和邻居玩耍.如果你还想斗斗地主,戳:趁老王不在,和隔壁邻居斗斗地主,比比大小 想破脑袋终于让我想到一个游戏,数独!什么叫数独?数 ...
- 本地NTP服务器与客户端配置
1. NTP 简介 NTP是网络时间协议(Network Time Protocol),它是用来同步网络中各个计算机的时间的协议. 在集群中,为了保证各节点之间的时间一致,我们通常需要配置本地的 NT ...
- mac安装ElasticSearch+head+node+一个例子~
1.下载ElasticSearch 官网下载链接:https://www.elastic.co/cn/downloads/past-releases(进去的可能会比较慢,网络好的情况下会好一些) 我下 ...
- Kotlin的特性
time streams try-with-resources 函数扩展,给types.classes或者interfaces新增方法 null safe 不需要new,后缀声明类型 自动转换有get ...
- 使用IDEA打包scala程序并在spark中运行
一.首先配置ssh无秘钥登陆, 先使用这条命令:ssh-keygen,然后敲三下回车: 然后使用cd .ssh进入 .ssh这个隐藏文件夹: 再创建一个文件夹authorized_keys,使用命令t ...
- 浅谈IDEA搭建SSM框架的集成
前言 学习完MyBatis,Spring,SpringMVC之后,我们需要做的就是将这三者联系起来,Spring实现业务对象管理,Spring MVC负责请求的转发和视图管理, MyBatis作为数据 ...