用python实现入门级NLP
今天看到一篇博文,是讲通过python爬一个页面,并统计页面词频的脚本,感觉蛮有意思的
Python NLP入门教程:http://python.jobbole.com/88874/
本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。
什么是NLP?
简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。
这里讨论一些自然语言处理(NLP)的实际应用例子,如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词,以及生成语法正确完整句子和段落。
这并不是NLP能做的所有事情。
NLP实现
搜索引擎: 比如谷歌,Yahoo等。谷歌搜索引擎知道你是一个技术人员,所以它显示与技术相关的结果;
社交网站推送:比如Facebook News Feed。如果News Feed算法知道你的兴趣是自然语言处理,就会显示相关的广告和帖子。
语音引擎:比如Apple的Siri。
垃圾邮件过滤:如谷歌垃圾邮件过滤器。和普通垃圾邮件过滤不同,它通过了解邮件内容里面的的深层意义,来判断是不是垃圾邮件。
NLP库
下面是一些开源的自然语言处理库(NLP):
- Natural language toolkit (NLTK);
- Apache OpenNLP;
- Stanford NLP suite;
- Gate NLP library
其中自然语言工具包(NLTK)是最受欢迎的自然语言处理库(NLP),它是用Python编写的,而且背后有非常强大的社区支持。
NLTK也很容易上手,实际上,它是最简单的自然语言处理(NLP)库。
在这个NLP教程中,我们将使用Python NLTK库。
安装 NLTK
如果您使用的是Windows/Linux/Mac,您可以使用pip安装NLTK:
- pip install nltk
打开python终端导入NLTK检查NLTK是否正确安装:
- import nltk
如果一切顺利,这意味着您已经成功地安装了NLTK库。首次安装了NLTK,需要通过运行以下代码来安装NLTK扩展包:
- import nltk
- nltk.download()
这将弹出NLTK 下载窗口来选择需要安装哪些包:
您可以安装所有的包,因为它们的大小都很小,所以没有什么问题。
使用Python Tokenize文本
首先,我们将抓取一个web页面内容,然后分析文本了解页面的内容。
我们将使用urllib模块来抓取web页面:
- import urllib.request
- response = urllib.request.urlopen('http://php.net/')
- html = response.read()
- print (html)
从打印结果中可以看到,结果包含许多需要清理的HTML标签。
然后BeautifulSoup模块来清洗这样的文字:
- from bs4 import BeautifulSoup
- import urllib.request
- response = urllib.request.urlopen('http://php.net/')
- html = response.read()
- soup = BeautifulSoup(html,"html5lib")
- # 这需要安装html5lib模块
- text = soup.get_text(strip=True)
- print (text)
现在我们从抓取的网页中得到了一个干净的文本。
下一步,将文本转换为tokens,像这样:
- from bs4 import BeautifulSoup
- import urllib.request
- response = urllib.request.urlopen('http://php.net/')
- html = response.read()
- soup = BeautifulSoup(html,"html5lib")
- text = soup.get_text(strip=True)
- tokens = text.split()
- print (tokens)
统计词频
text已经处理完毕了,现在使用Python NLTK统计token的频率分布。
可以通过调用NLTK中的FreqDist()
方法实现:
- from bs4 import BeautifulSoup
- import urllib.request
- import nltk
- response = urllib.request.urlopen('http://php.net/')
- html = response.read()
- soup = BeautifulSoup(html,"html5lib")
- text = soup.get_text(strip=True)
- tokens = text.split()
- freq = nltk.FreqDist(tokens)
- for key,val in freq.items():
- print (str(key) + ':' + str(val))
如果搜索输出结果,可以发现最常见的token是PHP。
您可以调用plot
函数做出频率分布图:
- freq.plot(20, cumulative=False)
- # 需要安装matplotlib库
这上面这些单词。比如of
,a
,an
等等,这些词都属于停用词。
一般来说,停用词应该删除,防止它们影响分析结果。
处理停用词
NLTK自带了许多种语言的停用词列表,如果你获取英文停用词:
- from nltk.corpus import stopwords
- stopwords.words('english')
现在,修改下代码,在绘图之前清除一些无效的token:
- clean_tokens = list()
- sr = stopwords.words('english')
- for token in tokens:
- if token not in sr:
- clean_tokens.append(token)
最终的代码应该是这样的:
- from bs4 import BeautifulSoup
- import urllib.request
- import nltk
- from nltk.corpus import stopwords
- response = urllib.request.urlopen('http://php.net/')
- html = response.read()
- soup = BeautifulSoup(html,"html5lib")
- text = soup.get_text(strip=True)
- tokens = text.split()
- clean_tokens = list()
- sr = stopwords.words('english')
- for token in tokens:
- if not token in sr:
- clean_tokens.append(token)
- freq = nltk.FreqDist(clean_tokens)
- for key,val in freq.items():
- print (str(key) + ':' + str(val))
现在再做一次词频统计图,效果会比之前好些,因为剔除了停用词:
- freq.plot(20,cumulative=False)
使用NLTK Tokenize文本
在之前我们用split
方法将文本分割成tokens,现在我们使用NLTK来Tokenize文本。
文本没有Tokenize之前是无法处理的,所以对文本进行Tokenize非常重要的。token化过程意味着将大的部件分割为小部件。
你可以将段落tokenize成句子,将句子tokenize成单个词,NLTK分别提供了句子tokenizer和单词tokenizer。
假如有这样这段文本:
- Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude.
使用句子tokenizer将文本tokenize成句子:
- from nltk.tokenize import sent_tokenize
- mytext = "Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
- print(sent_tokenize(mytext))
输出如下:
- ['Hello Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']
这是你可能会想,这也太简单了,不需要使用NLTK的tokenizer都可以,直接使用正则表达式来拆分句子就行,因为每个句子都有标点和空格。
那么再来看下面的文本:
- Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude.
1
|
|
这样如果使用标点符号拆分,Hello Mr
将会被认为是一个句子,如果使用NLTK:
- from nltk.tokenize import sent_tokenize
- mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
- print(sent_tokenize(mytext))
输出如下:
- ['Hello Mr. Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']
这才是正确的拆分。
接下来试试单词tokenizer:
- from nltk.tokenize import word_tokenize
- mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
- print(word_tokenize(mytext))
输出如下:
- ['Hello', 'Mr.', 'Adam', ',', 'how', 'are', 'you', '?', 'I', 'hope', 'everything', 'is', 'going', 'well', '.', 'Today', 'is', 'a', 'good', 'day', ',', 'see', 'you', 'dude', '.']
Mr.
这个词也没有被分开。NLTK使用的是punkt模块的PunktSentenceTokenizer,它是NLTK.tokenize的一部分。而且这个tokenizer经过训练,可以适用于多种语言。
非英文Tokenize
Tokenize时可以指定语言:
- from nltk.tokenize import sent_tokenize
- mytext = "Bonjour M. Adam, comment allez-vous? J'espère que tout va bien. Aujourd'hui est un bon jour."
- print(sent_tokenize(mytext,"french"))
输出结果如下:
- ['Bonjour M. Adam, comment allez-vous?', "J'espère que tout va bien.", "Aujourd'hui est un bon jour."]
同义词处理
使用nltk.download()
安装界面,其中一个包是WordNet。
WordNet是一个为自然语言处理而建立的数据库。它包括一些同义词组和一些简短的定义。
您可以这样获取某个给定单词的定义和示例:
- from nltk.corpus import wordnet
- syn = wordnet.synsets("pain")
- print(syn[0].definition())
- print(syn[0].examples())
输出结果是:
- a symptom of some physical hurt or disorder
- ['the patient developed severe pain and distension']
WordNet包含了很多定义:
- from nltk.corpus import wordnet
- syn = wordnet.synsets("NLP")
- print(syn[0].definition())
- syn = wordnet.synsets("Python")
- print(syn[0].definition())
结果如下:
- the branch of information science that deals with natural language information
- large Old World boas
可以像这样使用WordNet来获取同义词:
- from nltk.corpus import wordnet
- synonyms = []
- for syn in wordnet.synsets('Computer'):
- for lemma in syn.lemmas():
- synonyms.append(lemma.name())
- print(synonyms)
输出:
- ['computer', 'computing_machine', 'computing_device', 'data_processor', 'electronic_computer', 'information_processing_system', 'calculator', 'reckoner', 'figurer', 'estimator', 'computer']
反义词处理
也可以用同样的方法得到反义词:
- from nltk.corpus import wordnet
- antonyms = []
- for syn in wordnet.synsets("small"):
- for l in syn.lemmas():
- if l.antonyms():
- antonyms.append(l.antonyms()[0].name())
- print(antonyms)
输出:
- ['large', 'big', 'big']
词干提取
语言形态学和信息检索里,词干提取是去除词缀得到词根的过程,例如working的词干为work。
搜索引擎在索引页面时就会使用这种技术,所以很多人为相同的单词写出不同的版本。
有很多种算法可以避免这种情况,最常见的是波特词干算法。NLTK有一个名为PorterStemmer的类,就是这个算法的实现:
- from nltk.stem import PorterStemmer
- stemmer = PorterStemmer()
- print(stemmer.stem('working'))
- print(stemmer.stem('worked'))
输出结果是:
- work
- work
还有其他的一些词干提取算法,比如 Lancaster词干算法。
非英文词干提取
除了英文之外,SnowballStemmer还支持13种语言。
支持的语言:
- from nltk.stem import SnowballStemmer
- print(SnowballStemmer.languages)
- 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish'
你可以使用SnowballStemmer
类的stem
函数来提取像这样的非英文单词:
- from nltk.stem import SnowballStemmer
- french_stemmer = SnowballStemmer('french')
- print(french_stemmer.stem("French word"))
单词变体还原
单词变体还原类似于词干,但不同的是,变体还原的结果是一个真实的单词。不同于词干,当你试图提取某些词时,它会产生类似的词:
- from nltk.stem import PorterStemmer
- stemmer = PorterStemmer()
- print(stemmer.stem('increases'))
结果:
- increas
现在,如果用NLTK的WordNet来对同一个单词进行变体还原,才是正确的结果:
- from nltk.stem import WordNetLemmatizer
- lemmatizer = WordNetLemmatizer()
- print(lemmatizer.lemmatize('increases'))
结果:
- increase
结果可能会是一个同义词或同一个意思的不同单词。
有时候将一个单词做变体还原时,总是得到相同的词。
这是因为语言的默认部分是名词。要得到动词,可以这样指定:
- from nltk.stem import WordNetLemmatizer
- lemmatizer = WordNetLemmatizer()
- print(lemmatizer.lemmatize('playing', pos="v"))
结果:
- play
实际上,这也是一种很好的文本压缩方式,最终得到文本只有原先的50%到60%。
结果还可以是动词(v)、名词(n)、形容词(a)或副词(r):
- from nltk.stem import WordNetLemmatizer
- lemmatizer = WordNetLemmatizer()
- print(lemmatizer.lemmatize('playing', pos="v"))
- print(lemmatizer.lemmatize('playing', pos="n"))
- print(lemmatizer.lemmatize('playing', pos="a"))
- print(lemmatizer.lemmatize('playing', pos="r"))
输出:
- play
- playing
- playing
- playing
词干和变体的区别
通过下面例子来观察:
- from nltk.stem import WordNetLemmatizer
- from nltk.stem import PorterStemmer
- stemmer = PorterStemmer()
- lemmatizer = WordNetLemmatizer()
- print(stemmer.stem('stones'))
- print(stemmer.stem('speaking'))
- print(stemmer.stem('bedroom'))
- print(stemmer.stem('jokes'))
- print(stemmer.stem('lisa'))
- print(stemmer.stem('purple'))
- print('----------------------')
- print(lemmatizer.lemmatize('stones'))
- print(lemmatizer.lemmatize('speaking'))
- print(lemmatizer.lemmatize('bedroom'))
- print(lemmatizer.lemmatize('jokes'))
- print(lemmatizer.lemmatize('lisa'))
- print(lemmatizer.lemmatize('purple'))
输出:
- stone
- speak
- bedroom
- joke
- lisa
- purpl
- ---------------------
- stone
- speaking
- bedroom
- joke
- lisa
- purple
词干提取不会考虑语境,这也是为什么词干提取比变体还原快且准确度低的原因。
个人认为,变体还原比词干提取更好。单词变体还原返回一个真实的单词,即使它不是同一个单词,也是同义词,但至少它是一个真实存在的单词。
如果你只关心速度,不在意准确度,这时你可以选用词干提取。
在此NLP教程中讨论的所有步骤都只是文本预处理。在以后的文章中,将会使用Python NLTK来实现文本分析。
我已经尽量使文章通俗易懂。希望能对你有所帮助。
用python实现入门级NLP的更多相关文章
- 【python】入门级识别验证码
前情:这篇文章所提及的内容是博主上个暑假时候做的,一直没有沉下心来把自己的心得写在纸面上,所幸这个假期闲暇时候比较多,想着能写多少是多少,于是就有了此篇. 验证码?我也能破解? 关于验证码的介绍就不多 ...
- Python的入门级试用(简明教程)
声明:借鉴Python 简明教程 用 Python 编写的传统的 'Hello World' 程序.使用 Python 运行你的程序的方法有两种:使用交互式解释器提示符或者使用源文件.现在我们来看一下 ...
- Python NLP入门教程
本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库.NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库. 什么是NLP? 简单来说,自然 ...
- Python 黑客 --- 002 入门级 ZIP压缩文件口令暴力破解机
Python 黑客 入门级实战:ZIP压缩文件口令暴力破解机 使用的系统:Ubuntu 14.04 LTS Python语言版本:Python 2.7.10 V 编写zip 压缩文件口令破解器需要使用 ...
- 学习NLP:《精通Python自然语言处理》中文PDF+英文PDF+代码
自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一. 推荐学习自然语言处理的一本综合学习指南<精通Python自然语言处理>,介绍了如何用Python实现各种NLP任务,以帮助 ...
- NLP(一) Python常用开发工具
一.Numpy NumPy系统是Python的一种开源的数值计算包. 包括: 1.一个强大的N维数组对象Array: 2.比较成熟的(广播)函数 库: 3.用于整合C/C++和Fortran代码的工具 ...
- Python 学习参考书目推荐
Python 学习,参考书目推荐 前言 好的技术书籍可以帮助我们快速地成长,大部分人或多或少地受益于经典的技术书籍.在「Python开发者」微信公号后台,我们经常能收到让帮忙推荐书籍的消息.这类的问题 ...
- 关于python中模块的import路径
前两天被一个同事问了一个python的问题: 为什么一个目录里的python文件引用不要另一个兄弟目录的python文件,但是这两个目录的父母录运行时是可以引用到了.当时感觉一直是模块和包的机制问题, ...
- 如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析
前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读 ...
随机推荐
- Hadoop-hdfs安装与配置
一.安装要求 安装JDK yum -y install jdk(或手动安装) 设置namenode节点到datanode节点的免密码登陆 a. 本地免密码登录 # ssh loc ...
- SVG描边动画实现过程
准备工具:Adobe AI+PS 1.确定SVG画布的大小,在PS中切出需要描边效果的区域,以此区域的大小做为SVG容器的大小. 2.将PS中切好的图片直接拖拽到AI中 3.使用AI中的钢 ...
- NOI模拟题5 Problem A: 开场题
Solution 注意到\(\gcd\)具有结合律: \[ \gcd(a, b, c) = \gcd(a, \gcd(b, c)) \] 因此我们从后往前, 对于每个位置\(L\), 找到每一段不同的 ...
- my-> git使用笔记
要在本地新建分支test0227并切换到该分支,运行git checkoutout 并加上-b参数,如: git checkout -b test0227 这相当于执行下面这两条命令: git bra ...
- Docker镜像原理和最佳实践
https://yq.aliyun.com/articles/68477 https://yq.aliyun.com/articles/57126 DockerCon 2016 深度解读: Dock ...
- shell实践--shell内嵌指令实现查看上线时间
实践小点子: 1. 做一个shell 内嵌指令例如:ls,cd,pwd这样 就实现查看上线多久: 解决办法有两种: 1) 利用脚本,如新指令为look;利用别名的方法,将look.sh脚本 ...
- Source tree配置gitlab
1.打开控制台:ssh-keygen -t rsa -C "GIT上的账号邮箱" 2.回车 3.输入密码(git上的账号密码) 4.确认密码 5.输入命令 cd .ssh 6.输入 ...
- java.io.IOException: Cannot run program "java" (in directory "/data01/var/lib/jenkins/workspace/2540cb62a866eda983ab8cba34fcd4f9"): error=2, No such file or directory
通过下图所示方式,可以在同一台机器上启动多个jenkins slave 执行项目的时候报错: 解决办法:首先排查,目标文件或者目录是否存在,如果存在,则在目录机器添加/usr/bin/java的软链接 ...
- flask的httponly默认值为True
如图flask的app.py里显示app的默认配置,httponly默认值为true,所以如果开发者不修改这个配置的话,攻击者是无法通过xss攻击读取浏览器cookie这部分信息的. Cookie:s ...
- python 工具 字符串转numpy浮点数组
不同的数字之间使用 空格“ ”,“$”,"*"等隔开,支持带小数点的字符串NumArray=str2num(LineString,comment='#')将字符串中的所有非Doub ...