python之自然语言处理入门(一)

前言

NTLK是著名的Python自然语言处理工具包,记录一下学习NTLK的总结。

安装nltk

pip install nltk

# 测试

import nltk

安装相关的包

import nltk

nltk.download()

# 在弹出的界面选择想要安装的包

# 也可以指定安装

nltk.download('brown')

自然语言处理

第一步：获取语料库

语料库又称为词典，涉及多个分类，nltk自带了大量的语料库，意料之中大部分都是英文语料库，随便选一个装上。

import nltk

nltk.download('brown') # 布朗大学的语料库

但是我需要的是中文的语料库，发现有一个繁体中文的语料库，装上；

nltk.download('sinica_treebank')

另外还可以安装自己的语料库，将语料库文件放在LTK_DATA/corpora/的目录下

from nltk.corpus import PlaintextCorpusReader

corpus_root = r"xxxx" # 获取语料库目录

file_pattern = r"xxx\.txt" # 获取下面的文件

wordlists = PlaintextCorpusReader(corpus_root, file_pattern)

wordlists.fileids() # 获取文件列表

wordlists.words("1001.txt") # 获取单词

很多的分词工具自带了标注语料库，可以参考使用。

第二步：分词

将一个句子分解成不同词性的词语，有众多不同的分词工具，英文分词简单，中文如jieba，foolnltk等。

英文分词

# 安装库

import nltk

nltk.download('punkt')

import nltk

text1 = 'I like the movie so much!'

raw_words = nltk.word_tokenize(text1)

print(raw_words)

中文分词

# 安装

pip install jieba

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)

print("Full Mode:" + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)

print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式

print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式

print(", ".join(seg_list))

英文文本的词形归一化

词干提取

# 三个常用的类PorterStemmer, SnowballStemmer, LancasterStemmer

from nltk.stem.porter import PorterStemmer, SnowballStemmer, LancasterStemmer

porter_stemmer = PorterStemmer()

snowball_stemmer = SnowballStemmer('english') # 选择一门语言

lancaster_stemmer = LancasterStemmer()

print(lancaster_stemmer.stem('looked'))

print(porter_stemmer.stem('red'))

print(porter_stemmer.stem('looking')) # 除去ing等保留词干

snowball_stemmer.stem('looking')

词形归并

from nltk.stem import WordNetLemmatizer 

wordnet_lematizer = WordNetLemmatizer()

print(wordnet_lematizer.lemmatize('are'))

print(wordnet_lematizer.lemmatize('went'))

词性标注

import nltk

words = nltk.word_tokenize('Python is a good language.')

print(nltk.pos_tag(words))

去除停用词

停用词都是人工输入、非自动化生成的，形成停用词表,分词后判断是否是停用词。

from nltk.corpus import stopwords

filtered_words = [word for word in words if word not in stopwords.words('english')]

英文语言处理实例

安装需要的库

import nltk

nltk.download('wordnet')

nltk.download('punkt')

nltk.download('stopwords')

实例

import nltk

from nltk.stem import WordNetLemmatizer

from nltk.corpus import stopwords

def proc_text(text):

    """

    处理文本

    """

    # 分词

    raw_words = nltk.word_tokenize(text)

    new_words = raw_words

    # 词形归并

    wordnet_lematizer = WordNetLemmatizer()

    words = [wordnet_lematizer.lemmatize(new_word) for new_word in new_words]

    # 去除停用词

    filtered_words = [word for word in words if word not in stopwords.words('english')]

    # 去除标点

    res_words = [word for word in filtered_words if word not in ',.!' ]

    return res_words 

if __name__ == "__main__":

    with open('./english.txt') as f:

        text = f.read()

        print(proc_text(text))

中文语言处理实例

import jieba

def chinese_text(text):

    """

    处理中文文本

    :param text:

    :return:

    """

    # 分词

    word_list = jieba.cut(text, cut_all=True)

    # 除去空字符

    words = [word for word in word_list if word]

    return words

总结

自然语言处理按步骤来分别为获取语料库、加载语句进行分词、词型归一化、最后输出处理结果，后续在此基础上可以进一步统计、过滤等。

参考

python之自然语言处理入门(一)的更多相关文章

Python NLTK 自然语言处理入门与例程(转)
转 https://blog.csdn.net/hzp666/article/details/79373720 Python NLTK 自然语言处理入门与例程在这篇文章中,我们将基于 Pyt ...
转-Python自然语言处理入门
Python自然语言处理入门原文链接:http://python.jobbole.com/85094/ 分享到:20 本文由伯乐在线 - Ree Ray 翻译,renlytime 校稿.未经许 ...
Python编程：从入门到实践（选记）
本文参考< Python 编程:从入门到实践>一书,作者: [ 美 ] Eric Matthes 第1章起步 1.1 搭建python环境在不同的操作系统中, Python 存 ...
HanLP《自然语言处理入门》笔记--1.新手上路
1. 新手上路自然语言处理(Natural Language Processing,NLP)是一门融合了计算机科学.人工智能及语言学的交叉学科,它们的关系如下图所示.这门学科研究的是如何通过机器学习 ...
HanLP《自然语言处理入门》笔记--2.词典分词
2. 词典分词中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本. 中文分词算法大致分为基于词典规则与基于机器学习这两大派. 2.1 什么是词在基于词典的中文分词中,词 ...
Python黑客编程2 入门demo--zip暴力破解
Python黑客编程2 入门demo--zip暴力破解上一篇文章,我们在Kali Linux中搭建了基本的Python开发环境,本篇文章为了拉近Python和大家的距离,我们写一个暴力破解zip包密 ...
用Python做自然语言处理必知的八个工具【转载】
Python以其清晰简洁的语法.易用和可扩展性以及丰富庞大的库深受广大开发者喜爱.其内置的非常强大的机器学习代码库和数学库,使Python理所当然成为自然语言处理的开发利器. 那么使用Python进行 ...
python学习笔记--Django入门四管理站点--二
接上一节 python学习笔记--Django入门四管理站点设置字段可选编辑Book模块在email字段上加上blank=True,指定email字段为可选,代码如下: class Autho ...
Python云端系统开发入门——框架基础
Django框架基础这是我学习北京理工大学嵩天老师的<Python云端系统开发入门>课程的笔记,在此我特别感谢老师的精彩讲解和对我的引导. 1.Django简介与安装 Django是一个 ...

随机推荐

Windows搭建Log4Net+FileBeat+ELK日志分析系统过程
参考博客:http://udn.yyuap.com/thread-54591-1-1.html ; https://www.cnblogs.com/yanbinliu/p/6208626.html ; ...
Android手机Fiddler真机抓包
Fiddler是最强大最好用的Web调试工具之一,它能记录所有客户端和服务器的http和https请求,允许用户监视,设置断点,甚至修改输入输出数据,Fiddler包含了一个强大的基于事件脚本的子系统 ...
【bzoj1495】[NOI2006]网络收费暴力+树形背包dp
题目描述给出一个有 $2^n$ 个叶子节点的完全二叉树.每个叶子节点可以选择黑白两种颜色. 对于每个非叶子节点左子树中的叶子节点 $i$ 和右子树中的叶子节点 $j$ :如果 $i$ 和 $j$ 的 ...
【Java并发编程】之二：线程中断
[Java并发编程]之二:线程中断使用interrupt()中断线程当一个线程运行时,另一个线程可以调用对应的Thread对象的interrupt()方法来中断它,该方法只是在目标线程中设置一 ...
Python网络编程socket
网络编程之socket 看到本篇文章的题目是不是很疑惑,what is this?,不要着急,但是记住一说网络编程,你就想socket,socket是实现网络编程的工具,那么什么是socket,什么是 ...
CPP 替代 PIL 图片处理（缩略图生成）
python中使用PIL(Pyhton Image Library)进行图片处理,好处就是编写简单方便,但是不能很好利用机器多核的特点,于是在项目中决定使用cpp来实现图片处理. 项目中的图片处理主要 ...
DP——P2300 合并神犇
题目背景 loidc来到了NOI的赛场上,他在那里看到了好多神犇. 题目描述神犇们现在正排成一排在刷题.每个神犇都有一个能力值p[i].loidc认为坐在附近的金牌爷能力参差不齐非常难受.于是loi ...
P2891 [USACO07OPEN]吃饭Dining（最大流+拆点）
题目描述 Cows are such finicky eaters. Each cow has a preference for certain foods and drinks, and she w ...
【bzoj3170】[Tjoi2013]松鼠聚会
3170: [Tjoi2013]松鼠聚会 Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 1670 Solved: 885[Submit][Statu ...
学习 opencv---(12)OpenCV 图像金字塔：高斯金字塔，拉普拉斯金字塔与图片尺寸缩放
在这篇文章里,我们一起学习下图像金字塔的一些基本概念,如何使用OpenCV函数pyrUp和pyrDown 对图像进行向上和向下采样,以及了解专门用于缩放图像尺寸的resize函数的用法.此博文一共 ...