Python自然语言处理学习笔记之信息提取步骤&分块（chunking）

一、信息提取模型　　

　　信息提取的步骤共分为五步，原始数据为未经处理的字符串，

第一步：分句，用nltk.sent_tokenize(text)实现,得到一个list of strings

第二步：分词，[nltk.word_tokenize(sent) for sent in sentences]实现，得到list of lists of strings

第三步：标记词性，[nltk.pos_tag(sent) for sent in sentences]实现得到一个list of lists of tuples

前三步可以定义在一个函数中：

>>> def ie_preprocess(document):

...    sentences = nltk.sent_tokenize(document)

...    sentences = [nltk.word_tokenize(sent) for sent in sentences]

...    sentences = [nltk.pos_tag(sent) for sent in sentences]

第四步：实体识别（entity detection）在这一步，既要识别已定义的实体（指那些约定成俗的习语和专有名词），也要识别未定义的实体，得到一个树的列表

第五步：关系识别（relation detection）寻找实体之间的关系，并用tuple标记，最后得到一个tuple列表

二、分块（chunking）

　　分块是第四步entity detection的基础，本文只介绍一种块noun phrase chunking即NP-chunking，这种块通常比完整的名词词组小，例如：the market for system-management software是一个名词词组，但是它会被分为两个NP-chunking——the market 和 system-management software。任何介词短语和从句都不会包含在NP-chunking中，因为它们内部总是会包含其他的名词词组。

　　从一个句子中提取分块需要用到正则表达式，先给出示例代码：

grammar = r"""

  NP: {<DT|PP\$>?<JJ>*<NN>}   # chunk determiner/possessive, adjectives and noun

      {<NNP>+}                # chunk sequences of proper nouns

"""

cp = nltk.RegexpParser(grammar)

sentence = [("Rapunzel", "NNP"), ("let", "VBD"), ("down", "RP"),

                 ("her", "PP$"), ("long", "JJ"), ("golden", "JJ"), ("hair", "NN")]

>>> print(cp.parse(sentence))

(S

  (NP Rapunzel/NNP)

  let/VBD

  down/RP

  (NP her/PP$ long/JJ golden/JJ hair/NN))

　　正则表达式的格式为"""块名：{<表达式>...<>}

{...}”""

如：

grammar = r"""

  NP: {<DT|PP\$>?<JJ>*<NN>}   # chunk determiner/possessive, adjectives and noun

      {<NNP>+}                # chunk sequences of proper nouns

"""

　　大括号内为分块规则（chunking rule），可以有一个或多个，当rule不止一个时，RegexpParser会依次调用各个规则，并不断更新分块结果，直到所有的rule都被调用。nltk.RegexpParser(grammar)用于依照chunking rule创建一个chunk分析器，cp.parse()则在目标句子中运行分析器，最后的结果是一个树结构，我们可以用print打印它，或者用result.draw()将其画出。

　　在chunking rule中还用一种表达式chink，用于定义chunk中我们不想要的模式，这种表达式的格式为：‘ }表达式{ ’ 使用chink的结果一般有三种，一、chink定义的表达式和整个chunk都匹配，则将整个chunk删除；二、匹配的序列在chunk中间，则chunk分裂为两个小chunk；三、在chunk的边缘，则chunk会变小。使用方法如下：

grammar = r"""

  NP:

    {<.*>+}          # Chunk everything

    }<VBD|IN>+{      # Chink sequences of VBD and IN

  """

sentence = [("the", "DT"), ("little", "JJ"), ("yellow", "JJ"),

       ("dog", "NN"), ("barked", "VBD"), ("at", "IN"),  ("the", "DT"), ("cat", "NN")]

cp = nltk.RegexpParser(grammar)

>>> print(cp.parse(sentence))

 (S

   (NP the/DT little/JJ yellow/JJ dog/NN)

   barked/VBD

   at/IN

   (NP the/DT cat/NN))

Python自然语言处理学习笔记之信息提取步骤&分块（chunking）的更多相关文章

自然语言16.1_Python自然语言处理学习笔记之信息提取步骤&分块（chunking）
QQ:231469242 欢迎喜欢nltk朋友交流 http://www.cnblogs.com/undercurrent/p/4754944.html 一.信息提取模型信息提取的步骤共分为五步,原 ...
python自然语言处理学习笔记1
1.搭建环境下载anaconda并安装,(其自带python2.7和一些常用包,NumPy,Matplotlib),第一次启动使用spyder 2.下载nltk import nltk nltk.d ...
Python自然语言处理学习笔记之性别识别
从今天起开始写自然语言处理的实践用法,今天学了文本分类,并没用什么创新的东西,只是把学到的知识点复习一下性别识别(根据给定的名字确定性别) 第一步是创建一个特征提取函数(feature extrac ...
python自然语言处理——学习笔记：Chapter3纠错
2017-12-06更新:很多代码执行结果与书中不一致,是因为python的版本不一致.如果发现有问题,可以参考英文版: http://www.nltk.org/book/ 第三章,P87有一段处理h ...
python自然语言处理学习笔记2
基础语法搜索文本----词语索引使我们看到词的上下 text1.concordance("monstrous") 词出现在相似的上下文中 text1.similar(" ...
Python自然语言处理学习笔记(69)
http://www.cnblogs.com/yuxc/archive/2012/02/09/2344474.html Chapter8 Analyzing Sentence Structure ...
Python自然语言处理学习笔记之评价（evaluationd）
对模型的评价是在test set上进行的,本文首先介绍测试集应该满足的特征,然后介绍四种评价方法. 一.测试集的选择 1.首先,测试集必须是严格独立于训练集的,否则评价结果一定很高,但是虚高,不适用于 ...
Python自然语言处理学习笔记之选择正确的特征（错误分析 error analysis）
选择合适的特征(features)对机器学习的效率非常重要.特征的提取是一个不断摸索的过程(trial-and-error),一般靠直觉来发现哪些特征对研究的问题是相关的. 一种做法是把你能想到的所有 ...
Requests:Python HTTP Module学习笔记（一）（转）
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...

随机推荐

(简单) POJ 1426 Find The Multiple，BFS+同余。
Description Given a positive integer n, write a program to find out a nonzero multiple m of n whose ...
MAC OS X 10.10 应用程序下载失败后lunchpad产生灰色图标的解决办法
方法如下:打开应用程序- 实用工具 - 终端. 以此出入如下字符 defaults write com.apple.dock ResetLaunchPad -bool true killall Doc ...
DM二维码识别库DMDECODER的使用--MFC例程
DM码和QR码是当今比较主流的二维码,其中QR码容量大,容量密度为16kb,DM码容量要小一点,可在仅仅25mm²的面积上编码30个数字,但是DM码的容错率更高,所以实际的工业生产中经常使用DM码作为 ...
random 函数
Random()在Delphi中,有一随机函数,是这样定义的:function Random [ ( Range: Integer) ]; 其中,参数Range为一整数,该函数返回值也为整数,其范围为 ...
2017 ZSTU寒假排位赛 #2
题目链接:https://vjudge.net/contest/147632#overview. A题,状态压缩一下然后暴力即可. B题,水题,略过. C题,有负数,前缀和不是单调的,因此不能用尺取法 ...
problem 202,263、232、21、231
[263]Ugly Number Write a program to check whether a given number is an ugly number. Ugly numbers are ...
ui主线程控件的更新就让这个activity的异步任务做完整
项目中使用的SingleMessageView,控件实例化后,点击用户头像,此时跳转到UserInfo里查看这个用户的头像.用户名.签名.标签. 之前,师兄在SingleMessage里写了个头像的点 ...
Ubuntu切换默认语言
不得不说,从Ubuntu到Debian,又到CentOS 7,我胡汉三又回来了... 然后又装了个中文版的Ubuntu16.04LTS,不得不说,Ubuntu对中文的支持真的很好不过,还是不太习惯, ...
mysql中游标的使用案例详解（学习笔记）
1.游标是啥玩意?简单的说:游标(cursor)就是游动的标识,啥意思呢,通俗的这么说,一条sql取出对应n条结果资源的接口/句柄,就是游标,沿着游标可以一次取出一行.我给大家准备一张图: 2.怎么使 ...
HNU 13081 Even Up Solitaire解题报告
题目大意:给定一个数组,若相邻的两个数之和为偶数,则将此两个数移除,通过这种方法将满足条件得数移除后数组还剩多少个数. 此题太水,不做解释.直接代码之: #include <stdio.h> ...

Python自然语言处理学习笔记之信息提取步骤&分块（chunking）

Python自然语言处理学习笔记之信息提取步骤&分块（chunking）的更多相关文章

随机推荐

热门专题