手把手教你NLTK WordNet使用方法
最近看了WordNet,0基础入门,简单记下笔记。因为本身不是学自然语言处理的,好多名词不是特别清楚,现有的博客读的晕乎乎,所以重新写了这个,理清思路。除了行文中提到的链接,其他几个有用的参考链接如下:
- 这个slides很好用:https://sp1920.github.io/wordnet_spacy.pdf
- https://www.cnblogs.com/qq874455953/p/10792575.html
wordnet的安装
wordnet的官网地址为:https://wordnet.princeton.edu/,可以在线使用和查询。此外,在python中wordnet是nltk的一个组件,安装方法如下:
pip install nltk
在python中下载和import wordnet组件如下:
>>> import nltk
>>> nltk.download('wordnet')
>>> from nltk.corpus import wordnet as wn
由于墙的问题,下载过程中可能会报错,可以从网盘(指路,这个博客有链接https://blog.csdn.net/RainyD4y/article/details/106970593)下载后放在相应位置。放在那个位置呢?你可以随便你运行一个wordnet命令,系统就会把路径print出来,随便选择一个把下载下来的nltk_data文件夹或wordnet.zip放在对应位置就好。
>>> from nltk.corpus import wordnet as wn
>>> ws.synsets('published')
LookupError:
**********************************************************************
Resource wordnet not found.
Please use the NLTK Downloader to obtain the resource:
>>> nltk.download('wordnet')
Attemp to load corpora/wordnet.zip/wordnet/
Searched in:
- 'C:\\Users\\...\\nltk_data'
- 'C:\\nltk_data'
- 'C:\\Users\\...\\Anaconda3\\nltk_data'
- 'C:\\Users\\...\\Anaconda3\\lib\\nltk_data'
- 'C:\\Users\\...\\AppData\\Roaming\\nltk_data'
**********************************************************************
单词和词集
由于一个单词(lemma如,‘dog’,或者叫词条)可以有很多个含义(synset,如‘dog.n.01’,或者叫词集),wordnet中某一单词的具体含义表示方法为:单词.词性.词义序号
- 词性:包含NOUN,VERB,ADJ,ADV等,实际使用一个小写字母表示:n, v, a
- 词义序号:一个单词在同一个词性下也可能有多种含义,为每一个含义都分配一个序号
词集是单词的一个含义(一个含义可能由很多单词表示),我们用synsets质量查看dog的所有同义词集(pos值可以为——NOUN,VERB,ADJ,ADV…)
>>> wn.synsets("car",pos=wn.NOUN)
[Synset( "car.n.01" ), Synset("car.n.02"), Synset("car.n.03"), Synset("car.n.04"), Synset ("cable_car.n.01")]
其中,"car.n.01"表示car在名词中的第一个含义。每个意思的具体含义可以按如下方法查看
>>> for synset in wn.synsets("car"):
... print(synset.definition())
同时,一个含义可能对应了多个多个单词(lemma),可以用以下方法查询词集对应的多有单词(同义词)
>>> wn.synset('dog.n.01').lemma_names( )
['dog', 'domestic_dog', 'Canis_familiaris']
>>> wn.synset('dog.n.01').lemmas( )
[Lemma('dog.n.01.dog'),
Lemma('dog.n.01.domestic_dog'),
Lemma('dog.n.01.Canis_familiaris')]
词集(synset)之间的关系
对于名词,WordNet认为词集(含义)之间呈树形结构,因而词集有上位词与下位词,查看方法为
>>> dog = wn.synset('dog.n.01') # 创建词集对象
>>> dog.hypernyms() # 上位词集(父类)
[Synset('canine.n.02'), Synset('domestic_animal.n.01')]
>>> dog.hyponyms() # 下位词集(子类)
[Synset('basenji.n.01'), Synset('corgi.n.01'), ...]
WordNet提供了两个词集之间的相似度(0~1,越大相似度越高)
>>> dog = wn.synset('dog.n.01')
>>> cat = wn.synset('cat.n.01')
>>> dog.path_similarity(cat)
0.2
由于是树状结构可以查看他们的最低共同祖先
>>> dog.lowest_common_hypernyms(cat)
[Synset('carnivore.n.01')]
对于动词,词之间的关系主要表现为蕴含关系,例如:
>>> wn.synset('walk.v.01').entailments()#走路蕴含着抬脚
[Synset('step.v.01')]
对于形容词和副词,他们没有被组织成分类体系,也不能用path_distance查看相似度。形容词和副词最有用的关系是similar to。
>>> beau.similar_tos()
[Synset('beauteous.s.01'), Synset('bonny.s.01'), Synset('dishy.s.01'), Synset('exquisite.s.04'), Synset('fine-looking.s.01'), Synset('glorious.s.03'), Synset('
gorgeous.s.01'), Synset('lovely.s.01'), Synset('picturesque.s.01'), Synset('pretty-pretty.s.01'), Synset('pretty.s.01'), Synset('pulchritudinous.s.01'), Synset('ravishing.s.01'), Synset('scenic.s.01'), Synset('stunning.s.04')]
其他词集之间的关系还有,部分、实质、集合等关系,示例如下。由于这些关系不是(NLP门外汉)最常用的,也不太好理解,不展开描述,具体关系的含义可以参考:https://blog.csdn.net/sinat_22581761/article/details/78577618
>>> wn.synset('tree.n.01').part_meronyms() #tree的部件(条目-部件)
[Synset('burl.n.02'), Synset('crown.n.07'), Synset('limb.n.02'), Synset('stump.n.01'), Synset('trunk.n.01')]
>>> wn.synset('tree.n.01').substance_meronyms() #tree的实质(条目-实质)
[Synset('heartwood.n.01'), Synset('sapwood.n.01')]
>>> wn.synset('tree.n.01').member_holonyms() #tree集合是森林
[Synset('forest.n.01')]
>>> wn.synset('burl.n.02').part_holonyms() #由上边第一行代码的输出结果可知'burl.n.02'是'tree.n.01'的一个部件,因此burl的整体是tree无疑
[Synset('tree.n.01')]
>>> wn.synset('heartwood.n.01').substance_holonyms()#同理,heartwood是tree的一个实质,其整体也是tree无疑
[Synset('tree.n.01')]
单词(lemma)之间的关系
单词之间的关系即同义词/反义词,同义词查询上文已经介绍过,反义词查询方法为
>>> wn.lemma('hot.a.01.hot').antonyms()
[Lemma('cold.a.01.cold')]
介绍完啦,撒花!就这么简单!
手把手教你NLTK WordNet使用方法的更多相关文章
- 《手把手教你》系列基础篇(九十七)-java+ selenium自动化测试-框架设计篇-Selenium方法的二次封装和页面基类(详解教程)
1.简介 上一篇宏哥介绍了如何设计支持不同浏览器测试,宏哥的方法就是通过来切换配置文件设置的浏览器名称的值,来确定启动什么浏览器进行脚本测试.宏哥将这个叫做浏览器引擎类.这个类负责获取浏览器类型和启动 ...
- 手把手教你做个人 app
我们都知道,开发一个app很大程度依赖服务端:服务端提供接口数据,然后我们展示:另外,开发一个app,还需要美工协助切图.没了接口,没了美工,app似乎只能做成单机版或工具类app,真的是这样的吗?先 ...
- 手把手教从零开始在GitHub上使用Hexo搭建博客教程(四)-使用Travis自动部署Hexo(2)
前言 前面一篇文章介绍了Travis自动部署Hexo的常规使用教程,也是个人比较推荐的方法. 前文最后也提到了在Windows系统中可能会有一些小问题,为了在Windows系统中也可以实现使用Trav ...
- 推荐!手把手教你使用Git
推荐!手把手教你使用Git 原文出处: 涂根华的博客 http://blog.jobbole.com/78960/ 一:Git是什么? Git是目前世界上最先进的分布式版本控制系统. 二:SVN与 ...
- 手把手教你写Sublime中的Snippet
手把手教你写Sublime中的Snippet Sublime Text号称最性感的编辑器, 并且越来越多人使用, 美观, 高效 关于如何使用Sublime text可以参考我的另一篇文章, 相信你会喜 ...
- 30分钟手把手教你学webpack实战
30分钟手把手教你学webpack实战 阅读目录 一:什么是webpack? 他有什么优点? 二:如何安装和配置 三:理解webpack加载器 四:理解less-loader加载器的使用 五:理解ba ...
- 【转】手把手教你把Vim改装成一个IDE编程环境(图文)
手把手教你把Vim改装成一个IDE编程环境(图文) By: 吴垠 Date: 2007-09-07 Version: 0.5 Email: lazy.fox.wu#gmail.com Homepage ...
- 手把手教你在Windows下使用MinGW编译libav(参考libx264的编入)
转自:http://www.th7.cn/Program/cp/201407/242762.shtml 手把手教你在Windows下使用MinGW编译libav libav是在Linux下使用纯c语言 ...
- 手把手教你用动软.NET代码生成器实例教程
动软实战攻略 手把手教你用动软 文档编号:20110421 版权所有 © 2004-2011 动软 在线帮助:http://help.maticsoft.com 目录 一. 产品介绍 ...
随机推荐
- OSCP Learning Notes - Exploit(5)
Java Applet Attacks Download virtual machines from the following website: https://developer.microsof ...
- P3379 最近公共祖先(LCA) 洛谷
题意简单明了(这就是个模板). 就是让我们找2个节点的公共祖先而已,但我们要讲的做法不是生硬的爆搜,而且直接搜好像过不去…… 这次就讲我往后拖了n多天才开始学了倍增LCA. 嗯,这个题,如果2个节点的 ...
- 程序员每日一乐:html动态烟花设计 3D
3D版烟花 效果图:file:///C:/Users/QianXin/Desktop/3D%E7%83%9F%E8%8A%B1.html 经过一天的的工作或者学习是否感到枯燥乏味?现在的你是否想找些乐 ...
- Prime Ring Problem--------多重循环用递归来做
链接:https://vjudge.net/problem/UVA-524 题意:给出正整数n,输出以1开头,由2到n组合的字符序列,使相邻的数相加为素数,最后一个(关键信息为n大于1小于等于16), ...
- nginx--做为负载均衡使用
在之前的文章中,我们通过服务代理的方式已经看到了Nginx有作为负载均衡服务的功能了,在这篇文章中,我会讲解Nginx的基本的负载均衡的使用.backup状态演示.轮询策略和加权轮询.负载均衡策略ip ...
- 解决移动端rem加载瞬间页面错乱的方法(放大或者缩小)
移动端布局有很多种,这里我们最常使用到rem+百分比的布局方式(高度/字体设置rem单位,宽度设置百分比)来处理屏幕兼容,这种方法在兼容上是比较不错的,可以使得字体以及整体适应各种大小的屏幕,可以解决 ...
- .NET Core学习笔记(7)——Exception最佳实践
1.为什么不要给每个方法都写try catch 为每个方法都编写try catch是错误的做法,理由如下: a.重复嵌套的try catch是无用的,多余的. 这一点非常容易理解,下面的示例代码中,O ...
- matplotlib 显示中文问题
import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams[' ...
- Codeforces Round #654 (Div. 2) A~E 题解
LINK:CF R 654 div2 前言:F题是一个线段树分类讨论的题目 比赛的时候没看 赛后感觉没什么意思 所以咕掉了. 记事:第一次笼统的写一场比赛的题目 可能是我这场比赛打的太差了 题目不难 ...
- 题解 [SHOI2002]滑雪
记忆化搜索$||dp||$剪枝 先讲方法,代码待会上 方法一:记忆化搜索 这个方法不怎么解释,就是每搜索完一个高度的最长路径记录一下,以后搜索其他的点时如果走到了这条路就直接用记录的值计算就是了 方法 ...