数据集与词性标注

数据集是NLP中的重要一环。

但是提到数据集，很多人的第一个想法可能是：“这玩意从网上下载就好了，不用管”。

真的不用管？最开始我也是这么认为的

于是我直奔CoNLL-2003去下载数据集。地址如下：https://www.clips.uantwerpen.be/conll2003/ner/

但是经过了解，该数据集的来源是新闻报纸之类的内容，与我要应用NLP的领域严重不符。

所以，除非你的NLP任务与网络上已经公布的、较多人实现的任务重合，否则数据集一般不能直接使用

也就是说，在完成你的NLP任务前，你需要自行构建一个数据集

但是怎么做呢？我们现在可以确认的一件事情是：数据集不可能手动构建的

拿CoNLL-2003的数据集进行分析，我们需要构建一个与其形式类似的数据集应该怎么做？

U.N.         NNP  I-NP  I-ORG

official     NN   I-NP  O

Ekeus        NNP  I-NP  I-PER

heads        VBZ  I-VP  O

for          IN   I-PP  O

Baghdad      NNP  I-NP  I-LOC

.            .    O     O

这是eng.traindata数据集的一部分，简单介绍一下构成

第一列是单词，显然是来自原始文本；

第二列是词性（pos）标签，就是名词、动词、专有名词等等一些表示某个词词性的标注

第三列是句法块标签，表示某词在该句子中的上下文成分

第四列是命名实体识别（NER）标签,关于什么是NER，请看

https://www.cnblogs.com/DAYceng/p/14923065.html/

由于句法分析（也就是第三列标签）需要训练单独的模型来实现，这里不做介绍

到这里，事情就变得有点眉目了

我们得到了两个关键词：POS和NER

通过高强度互联网搜索发现NLTK正好有用于POS的模块（nltk.pos_tag）以及用于chunk的模块（ne_chunk）

查看NLTK的文档得知，pos_tag（）的输入是一个进行tokenize分词之后的句子

这里文档使用了word_tokenize模块进行分词，如果你觉得其分词结果不满意，你也可以直接用split分词

tokenized_sentences = corup_token.split(" ")

pos_res = nltk.pos_tag(tokenized_sentences) #标注句子

这样就得到了一个句子的POS 标签

下面进行NER标注，依然是使用NLTK，并且需要使用到上一步中POS的结果

注：chunk的结果是一个“树”（一种特殊的数据结构）

tree = ne_chunk(pos_res)   # 使用nltk的chunk工具获得chunk的树结构

使用tree2conlltags对树进行解析可以得到我们需要的结果

iob_tags_listtup = tree2conlltags(tree) # 解析树，获得chunktags的元组列表

至此，我们就得到了一个句子的pos和ner标签

打包成一个函数如下：

def postags(croup_token,output):

    '''

    使用nltk.pos_tag对分词之后的summary进行词性标注

    :param output:

    选择输出形式，

    输出原始格式数据（0）：[('buffer', 'NN'), ('overflow', 'NN'), ...,(...)]

    输出词性标签（1）：['NN', 'NN',...,'...']

    输出chunking标签（2）

    :param croup_token:经过'分词-去除特殊符号-小写'处理的sentences数据

    :return:列表返回值

    '''

    ne_chunked_tags = []

    pos_tags = []

    pos_raw = []

    tokenized_sentences = croup_token_token.split(" ") #nltk.word_tokenize(data)

    # print(tokenized_sentences)

    pos_res = nltk.pos_tag(tokenized_sentences)

    pos_res_tup = pos_res[0]   # 得到元组

    tree = ne_chunk(pos_res)   # 使用nltk的chunk工具获得chunk的树结构

    # print(tree)

    iob_tags_listtup = tree2conlltags(tree) # 解析树，获得chunktags的元组列表

    # print(iob_tags_listtup)

    # print(iob_tags_listtup)

    for i in range(len(iob_tags_listtup)):

        # print(iob_tags_listtup[i])

        tmp_tup = iob_tags_listtup[i]

        # print(tmp_tup[2])

        pos_raw.append(tmp_tup)

        pos_tags.append(tmp_tup[1])

        ne_chunked_tags.append(tmp_tup[2])

    # print(ne_chunked_tags)

    if output == 0:

        return pos_raw

    elif output == 1:

        return pos_tags

    elif output == 2:

        return ne_chunked_tags

【NLP学习其四】如何构建自己用于训练的数据集？什么是词性标注？的更多相关文章

深度学习之TensorFlow构建神经网络层
深度学习之TensorFlow构建神经网络层基本法深度神经网络是一个多层次的网络模型,包含了:输入层,隐藏层和输出层,其中隐藏层是最重要也是深度最多的,通过TensorFlow,python代码可 ...
Caffe学习系列（四）之--训练自己的模型
前言: 本文章记录了我将自己的数据集处理并训练的流程,帮助一些刚入门的学习者,也记录自己的成长,万事起于忽微,量变引起质变. 正文: 一.流程 1)准备数据集 2)数据转换为lmdb格式 3)计算 ...
caffe︱深度学习参数调优杂记+caffe训练时的问题+dropout/batch Normalization
一.深度学习中常用的调节参数本节为笔者上课笔记(CDA深度学习实战课程第一期) 1.学习率步长的选择:你走的距离长短,越短当然不会错过,但是耗时间.步长的选择比较麻烦.步长越小,越容易得到局部最优 ...
文本向量化及词袋模型 - NLP学习（3-1）
分词(Tokenization) - NLP学习(1) N-grams模型.停顿词(stopwords)和标准化处理 - NLP学习(2) 之前我们都了解了如何对文本进行处理:(1)如用NLTK文 ...
UFLDL深度学习笔记（四）用于分类的深度网络
UFLDL深度学习笔记 (四)用于分类的深度网络 1. 主要思路本文要讨论的"UFLDL 建立分类用深度网络"基本原理基于前2节的softmax回归和无监督特征学习,区别在于使 ...
NLP学习(5)----attention/ self-attention/ seq2seq/ transformer
目录: 1. 前提 2. attention (1)为什么使用attention (2)attention的定义以及四种相似度计算方式 (3)attention类型(scaled dot-produc ...
nlp学习杂记
什么是 token embedding? 输入一个word,在字典里查找得到它对应的下标就是token,然后用该数字下标去lookup表查找得到该词对应的词向量(词嵌入)就是embedding wor ...
NLP学习（3）---Bert模型
一.BERT模型: 前提:Seq2Seq模型前提:transformer模型 bert实战教程1 使用BERT生成句向量,BERT做文本分类.文本相似度计算 bert中文分类实践用bert做中文命 ...
[笔记] 基于nvidia/cuda的深度学习基础镜像构建流程 V0.2
之前的[笔记] 基于nvidia/cuda的深度学习基础镜像构建流程已经Out了,以这篇为准. 基于NVidia官方的nvidia/cuda image,构建适用于Deep Learning的基础im ...

随机推荐

冷饭新炒 | 深入Quartz核心运行机制
目录 Quartz的核心组件 JobDetail Trigger 为什么JobDetail和Trigger是一对多的关系常见的Tigger类型怎么排除掉一些日期不触发 Scheduler List ...
02 SVN 与 Git 的优缺点
上一篇博客大致聊了聊关于版本控制系统的周边,这一篇我们就来继续唠唠作为近年来最受欢迎的两个版本控制系统的优缺点吧. 聊优缺点之前,先简单了解一下这两个这两个版本控制系统好了: 关于 SVN SVN 概 ...
为什么catch了异常，但事务还是回滚了？
前几天我发了这篇文章<我来出个题:这个事务会不会回滚?>得到了很多不错的反馈,也有不少读者通过微信.群或者邮件的方式,给了我一些关于test4的回复.其中还有直接发给我测试案例,来证明我的 ...
Maven项目无法下载JAR包，输入mvn help:system出现No plugin found for prefix 'help' in the current project and in the plugin groups的解决方案
这个问题困扰了我很久,一直无法解决:我在虚拟机里面按照同样的步骤配置了三次maven项目,每次都能成功:可一旦到外面maven项目总是创建失败,输入mvn help:system总是出现No plug ...
AWS上创建EKS（K8S）集群
1.注意事项及准备工作 EKS分为EKS Master和EKS Node两种角色;EKS Master为全托管,EKS Node为CloudFormation创建 EKS Node若在NAT网络里,一 ...
Spring Boot 无侵入式实现RESTful API接口统一JSON格式返回
前言现在我们做项目基本上中大型项目都是选择前后端分离,前后端分离已经成了一个趋势了,所以总这样·我们就要和前端约定统一的api 接口返回json 格式, 这样我们需要封装一个统一通用全局模版api ...
6.11、制作windos虚拟机
1.下载kvm支持windows系统的驱动程序: cd /tmp/ wget https://fedorapeople.org/groups/virt/virtio-win/direct-downlo ...
9、mysql的备份与恢复
mysql中 /*! ....*/ 不是注释,mysql为了保持兼容,它把一些特有的仅在mysql上用的语句放在/*!....*/中, 这样这些语句如果在其他数据库中是不会被执行,但在mysql中它会 ...
Flex中利用事件机制进行主程序与子窗体间参数传递
在开发具有子窗体,或者itemrenderer的应用时,常常涉及到子窗体向父窗体传递参数或者从itemrenderer内的控件向外部的主程序传递参数的需求.这些都可以通过事件机制这一统一方法加以解决. ...
AcWing 829. 模拟队列
实现一个队列,队列初始为空,支持四种操作: (1) "push x" – 向队尾插入一个数x: (2) "pop" – 从队头弹出一个数: (3) " ...

【NLP学习其四】如何构建自己用于训练的数据集？什么是词性标注？

数据集与词性标注

【NLP学习其四】如何构建自己用于训练的数据集？什么是词性标注？的更多相关文章

随机推荐

热门专题