nltk处理文本

nltk(Natural Language Toolkit)是处理文本的利器。

安装

pip install nltk

进入python命令行，键入nltk.download()可以下载nltk需要的语料库等等。

分词

按词语分割（传入句子）

sentence='hello,world!'

tokens=nltk.word_tokenize(sentence)

tokens就是一个分割好的词表，如下：

['hello', ',', 'world', '!']

按句子分割（传入多个句子组成的文档）

text='This is a text. I want to split it.'

sens=nltk.sent_tokenize(text)

sens就是分割好的句子组成的list,如下：

['This is a text.', 'I want to split it.']

词性标注

tags = [nltk.pos_tag(tokens) for tokens in words]

[[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('text', 'NN'), ('for', 'IN'), ('test', 'NN'), ('.', '.')], [('And', 'CC'), ('I', 'PRP'), ('want', 'VBP'), ('to', 'TO'), ('learn', 'VB'), ('how', 'WRB'), ('to', 'TO'), ('use', 'VB'), ('nltk', 'NN'), ('.', '.')]]

附录：nltk的词性：

 CC      Coordinating conjunction 连接词

```
CD     Cardinal number  基数词
```

DT     Determiner  限定词（如this,that,these,those,such，不定限定词：no,some,any,each,every,enough,either,neither,all,both,half,several,many,much,(a) few,(a) little,other,another.

```
EX     Existential there 存在句
```
```
FW     Foreign word 外来词
```

IN     Preposition or subordinating conjunction 介词或从属连词

```
JJ     Adjective 形容词或序数词
```

JJR     Adjective, comparative 形容词比较级

JJS     Adjective, superlative 形容词最高级

```
LS     List item marker 列表标示
```
```
MD     Modal 情态助动词
```

NN     Noun, singular or mass 常用名词 单数形式

NNS     Noun, plural  常用名词 复数形式

NNP     Proper noun, singular  专有名词，单数形式

NNPS     Proper noun, plural  专有名词，复数形式

```
PDT     Predeterminer 前位限定词
```

POS     Possessive ending 所有格结束词

```
PRP     Personal pronoun 人称代词
```

PRP$     Possessive pronoun 所有格代名词

```
RB     Adverb 副词
```

RBR     Adverb, comparative 副词比较级

RBS     Adverb, superlative 副词最高级

```
RP     Particle 小品词
```
```
SYM     Symbol 符号
```

TO     to 作为介词或不定式格式

```
UH     Interjection 感叹词
```

VB     Verb, base form 动词基本形式

VBD     Verb, past tense 动词过去式

VBG     Verb, gerund or present participle 动名词和现在分词

VBN     Verb, past participle 过去分词

VBP     Verb, non-3rd person singular present 动词非第三人称单数

VBZ     Verb, 3rd person singular present 动词第三人称单数

WDT     Wh-determiner 限定词（如关系限定词：whose,which.疑问限定词：what,which,whose.）

WP      Wh-pronoun 代词（who whose which）

WP$     Possessive wh-pronoun 所有格代词

WRB     Wh-adverb   疑问代词（how where when）

提取关键词

如何对一段话提取关键词呢？主要思想就是先分词，再标词性。

# -*- coding=UTF-8 -*-

import nltk

from nltk.corpus import brown

from nltk.stem import SnowballStemmer

from nltk.corpus import stopwords

# This is our fast Part of Speech tagger

#############################################################################

brown_train = brown.tagged_sents(categories='news')

regexp_tagger = nltk.RegexpTagger(

    [(r'^-?[0-9]+(.[0-9]+)?$', 'CD'),

    (r'(-|:|;)$', ':'),

    (r'\'*$', 'MD'),

    (r'(The|the|A|a|An|an)$', 'AT'),

    (r'.*able$', 'JJ'),

    (r'^[A-Z].*$', 'NNP'),

    (r'.*ness$', 'NN'),

    (r'.*ly$', 'RB'),

    (r'.*s$', 'NNS'),

    (r'.*ing$', 'VBG'),

    (r'.*ed$', 'VBD'),

    (r'.*', 'NN')

])

unigram_tagger = nltk.UnigramTagger(brown_train, backoff=regexp_tagger)

bigram_tagger = nltk.BigramTagger(brown_train, backoff=unigram_tagger)

#############################################################################

# This is our semi-CFG; Extend it according to your own needs

#############################################################################

cfg = {}

cfg["NNP+NNP"] = "NNP"

cfg["NN+NN"] = "NNI"

cfg["NNI+NN"] = "NNI"

cfg["JJ+JJ"] = "JJ"

cfg["JJ+NN"] = "NNI"

#############################################################################

class NPExtractor(object):

    # Split the sentence into singlw words/tokens

    def tokenize_sentence(self, sentence):

        tokens = nltk.word_tokenize(sentence)

        #去除停用词,标点，数字,长度小于2的词

        tokens=[w.lower() for w in tokens if(w.isalpha())&(len(w)>1)]#使用tfid，不必去除停用词

        #词干提取

        stemmer=SnowballStemmer('english')

        tokens=[stemmer.stem(w) for w in tokens]

        return tokens

    # Normalize brown corpus' tags ("NN", "NN-PL", "NNS" > "NN")

    def normalize_tags(self, tagged):

        n_tagged = []

        for t in tagged:

            if t[1] == "NP-TL" or t[1] == "NP":

                n_tagged.append((t[0], "NNP"))

                continue

            if t[1].endswith("-TL"):

                n_tagged.append((t[0], t[1][:-3]))

                continue

            if t[1].endswith("S"):

                n_tagged.append((t[0], t[1][:-1]))

                continue

            n_tagged.append((t[0], t[1]))

        return n_tagged

    # Extract the main topics from the sentence

    def extract(self,sentence):

        tokens = self.tokenize_sentence(sentence)

        tags = self.normalize_tags(bigram_tagger.tag(tokens))

        merge = True

        while merge:

            merge = False

            for x in range(0, len(tags) - 1):

                t1 = tags[x]

                t2 = tags[x + 1]

                key = "%s+%s" % (t1[1], t2[1])

                value = cfg.get(key, '')

                if value:

                    merge = True

                    tags.pop(x)

                    tags.pop(x)

                    match = "%s %s" % (t1[0], t2[0])

                    pos = value

                    tags.insert(x, (match, pos))

                    break

        matches = []

        for t in tags:

            if t[1] == "NNP" or t[1] == "NNI" or t[1]=="NN":

                matches.append(t[0])

        return matches

利用这里的extract函数就可以提取文本的关键词。

更多参见nltk官方文档：nltk

nltk处理文本的更多相关文章

【NLP】Python NLTK获取文本语料和词汇资源
Python NLTK 获取文本语料和词汇资源作者:白宁超 2016年11月7日13:15:24 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集 ...
使用 NLTK 对文本进行清洗，索引工具
使用 NLTK 对文本进行清洗,索引工具 EN_WHITELIST = '0123456789abcdefghijklmnopqrstuvwxyz ' # space is included in w ...
NLTK实现文本切分
之前已经了解了使用nltk库,将文本作为参数传入相应函数进行切分的方法,下面看看使用正则表达式如何来进行文本切分. 1. 使用正则表达式切分 1.1 通过RegexpTokenizer 进行切分.先导 ...
【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理
干货!详述Python NLTK下如何使用stanford NLP工具包作者:白宁超 2016年11月6日19:28:43 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的 ...
【NLP】Python NLTK处理原始文本
Python NLTK 处理原始文本作者:白宁超 2016年11月8日22:45:44 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开 ...
[转]【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理阅读目录
[NLP]干货!Python NLTK结合stanford NLP工具包进行文本处理原贴: https://www.cnblogs.com/baiboy/p/nltk1.html 阅读目录目 ...
机器学习之路： python nltk 文本特征提取
git: https://github.com/linyi0604/MachineLearning 分别使用词袋法和nltk自然预言处理包提供的文本特征提取 from sklearn.feature_ ...
使用Python中的NLTK和spaCy删除停用词与文本标准化
概述了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatizatio ...
【NLP】Python NLTK 走进大秦帝国
Python NLTK 走进大秦帝国作者:白宁超 2016年10月17日18:54:10 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公 ...

随机推荐

学习鸟哥的Linux私房菜笔记（11）——系统监视1
一.了解系统状况 uname:显示系统信息 hostname:显示主机名 last:列出最近的用户登录 lastlog:列出每一个用户的最近登录情况 free:显示内存使用状况还可以使用vmstat ...
链表与哈希表基本概念及Java常用集合
-链表- 是一种物理存储单元上非连续.非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的.链表由一系列结点(链表中每一个元素称为结点)组成,结点可以在运行时动态生成.每个结点包括两个 ...
《大规模Web服务开发技术》
Web 服务开发的心灵鸡汤周末去上海陪妹子的两天在路途上看完了这本<大规模 Web 服务开发技术>. <大规模 Web 服务开发技术>是日本的 Hetena 团队以夏天举办的 ...
delphi 中的函数指针回调函数（传递函数指针，以及它需要的函数参数）
以下代码仅仅是测试代码:delphi XE7 UP1 interface uses Winapi.Windows, Winapi.Messages, System.SysUtils, System.V ...
Qt实用技巧：界面切换使用Dialog全屏切换
需求在做应用程序的过程中,需要使用界面切换,界面切换到下一个界面使用new一个界面并显示,如系统设置,相关信息展示等等. (注意:本技巧适用的条件是,主界面不需要相关的信号与槽做消息循环,因为主界面 ...
node fs 文件/目录删除
删除文件如下: 过程:先判断文件路径是否存在.读取该文件下所有文件.循环该文件,判断是否是文件夹还是文件. 移除文件夹使用fs.rmdirSync("路径") 移除文件使用fs.u ...
一句话的设计模式(JAVA版)
·结构型模式: o适配器:用来把一个接口转化成另一个接口,如 java.util.Arrays#asList(). o桥接模式:这个模式将抽象和抽象操作的实现进行了解耦,这样使得抽象和实现可以独立地变 ...
11991 - Easy Problem from Rujia Liu?（的基础数据结构)
UVA 11991 - Easy Problem from Rujia Liu? 题目链接题意:给一个长度n的序列,有m询问,每一个询问会问第k个出现的数字的下标是多少思路:用map和vector ...
R 语言学习（二）—— 向量
1. 入门将摄氏度转化为华氏度 >> 27*1.8+32 [1] 80.6 [1]:表示数字的向量索引号,在 R 语言中任何一个数字都看作一个向量. 向量化 >> temp ...
Windows中点击“关闭”button发生了什么？
对于Windows操作,当用户点击"关闭"button时,窗体函数就会收到一个WM_DESTROY消息. 窗体函数应该调用PostQuitMessage(0) 向消息队列插入一个W ...

nltk处理文本

安装

分词

词性标注

提取关键词

nltk处理文本的更多相关文章

随机推荐

热门专题