【停用词】NLP中的停用词怎么获取?我整理了6种方法
一、停用词介绍
您好,我是@马哥python说 ,一名10年程序猿。
在自然语言处理(NLP)研究中,停用词stopwords是指在文本中频繁出现但通常没有太多有意义的词语。这些词语往往是一些常见的功能词、虚词甚至是一些标点符号,如介词、代词、连词、助动词等,比如中文里的"的"、"是"、"和"、"了"、"。"等等,英文里的"the"、"is"、"and"、"..."等等。
停用词的作用是在文本分析过程中过滤掉这些常见词语,从而减少处理的复杂度,提高算法效率,并且在某些任务中可以改善结果的质量,避免分析结果受到这些词的干扰。
二、停用词应用场景
2.1 提取高频词
在使用jieba.analyse提取高频词时,可以事先把停用词存入stopwords.txt文件,然后用以下语句设置停用词:jieba.analyse.set_stop_words('stopwords.txt') 这样提取出的高频词就不会出现停用词了。
2.2 词云图
在使用wordcloud画词云图时,可以设置WordCloud对象的参数stopwords,把需要设置的停用词放到这个参数里(通常情况下,需要手动多次增加停用词,多轮迭代,才能绘制出满意的词云图结果)。
图1:加入停用词后的「淄博烧烤」词云图
图2:未加入停用词的「淄博烧烤」词云图
图2掺杂了太多无意义的词语,严重影响了词频分析结果,图1效果就好多了,由此可见停用词在文本分析里的重要性。
三、停用词获取方法
3.1 自定义停用词
在科研领域,很多机构公开了一些停用词库,比如中文停用词表、哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库等,以方便广大科研者使用。
下面,以哈工大停用词表为例,完整代码如下:
# 读取停用词(哈工大通用停用词表)
with open('hit_stopwords.txt', 'r') as f:
stopwords_list = f.readlines()
stopwords_list = [i.strip() for i in stopwords_list]
print('停用词数量:', len(stopwords_list))
print('停用词列表:')
print(stopwords_list)
运行截图:
自定义停用词
可以看到,中文停用词还是挺全面的,共767个。
我整理了一份较详尽的停用词词典,包含:中文停用词表、哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库,公众号"老男孩的平凡之路"后台回复"停用词"直接拿!
3.2 用wordcloud调取停用词
Python中的wordcloud是用来画词云图的库,它可以根据文本中单词的频率或重要性,将单词以不同的大小、颜色等形式展示在图像中,从而形成一个视觉上吸引人的词云图。
同时,它也内置了英文停用词库,完整代码如下:
from wordcloud import STOPWORDS
print('停用词数量:', len(STOPWORDS))
print('停用词列表:')
print(STOPWORDS)
运行截图:
用wordcloud调取停用词
可以看到,wordcloud共包含了192个常用英文停用词。
3.3 用nltk调取停用词
nltk是一个流行的自然语言处理库,提供了许多文本处理和语言分析的功能。包含停用词加载、文本分词、词性标注、命名实体识别、词干提取和词形还原等常见功能。
其中,nltk内置了多种语言的停用词,下面分别介绍中文、英文停用词。
3.3.1 nltk中文停用词
完整代码:
import nltk
from nltk.corpus import stopwords
# 下载停用词资源
nltk.download('stopwords')
# 获取中文停用词列表
stopwords_cn_list = stopwords.words('chinese')
# 打印中文停用词列表
print('中文停用词数量:', len(stopwords_cn_list))
print('中文停用词:\n', stopwords_cn_list)
运行截图:
nltk中文停用词
可以看到,nltk共包含841个中文停用词。
3.3.2 nltk英文停用词
完整代码:
import nltk
from nltk.corpus import stopwords
# 下载停用词资源
nltk.download('stopwords')
# 获取英文停用词列表
stopwords_en_list = stopwords.words('english')
# 打印英文停用词列表
print('英文停用词数量:', len(stopwords_en_list))
print('英文停用词:\n', stopwords_en_list)
运行截图:
nltk英文停用词
可以看到,nltk共包含179个英文停用词。
3.4 用sklearn调取停用词
sklearn是一个用于机器学习的Python库,它包含了各种经典和先进的机器学习算法,如分类、回归、聚类、降维、特征选择、模型选择等。
其中,sklearn.feature_extraction是用于特征提取的模块,可以利用它调取停用词库,完整代码如下:
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS
# 打印停用词列表
print('停用词数量:', len(ENGLISH_STOP_WORDS))
print('停用词列表:')
print(list(ENGLISH_STOP_WORDS))
运行截图:
sklearn调取停用词
可以看到,sklearn共包含318个英文停用词。
3.5 用gensim调取停用词
gensim是一个用于主题建模和自然语言处理的Python库。它提供了一组功能强大的工具和算法,用于从大规模文本语料库中提取语义主题和执行相关的文本处理任务。
其中,gensim.parsing.preprocessing是gensim库中用于文本预处理的模块。该模块提供了一系列函数和工具,用于对文本进行标记化、停用词去除、大小写转换、标点符号去除、词干提取等常见的文本预处理任务。
用gensim调取停用词,完整代码如下:
from gensim.parsing.preprocessing import STOPWORDS
# 打印停用词列表
print('停用词数量:', len(STOPWORDS))
print('停用词列表:')
print(list(STOPWORDS))
运行截图:
gensim调取停用词
可以看到,gensim共包含337个英文停用词。
3.6 用spacy调取停用词
spacy是一个用于自然语言处理的Python库,具有高性能、易用性和多语言支持的特点。它提供了一系列的功能和工具,用于词法分析、命名实体识别、句法分析、依存关系分析等常见的自然语言处理任务。
用spacy调取停用词,完整代码如下:
import spacy
nlp = spacy.load("en_core_web_sm")
stopwords = nlp.Defaults.stop_words
# 打印停用词列表
print('停用词数量:', len(stopwords))
print('停用词列表:')
print(list(stopwords))
运行截图:
spacy调取停用词
可以看到,spacy共包含326个英文停用词。
以上。
您好,我是@马哥python说,一名10年程序猿,开发过很多原创文本挖掘、情感分析案例,可移步:https://zhuanlan.zhihu.com/p/508625189
推荐阅读:
【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据
【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"阳了"的评论
【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"狂飙"的评论
【停用词】NLP中的停用词怎么获取?我整理了6种方法的更多相关文章
- SQL Server中灾难时备份结尾日志(Tail of log)的两种方法
转自:http://www.cnblogs.com/CareySon/archive/2012/02/23/2365006.html SQL Server中灾难时备份结尾日志(Tail of log) ...
- Java中获取键盘输入值的三种方法
Java中获取键盘输入值的三种方法 Java程序开发过程中,需要从键盘获取输入值是常有的事,但Java它偏偏就没有像c语言给我们提供的scanf(),C++给我们提供的cin()获取键盘输入值 ...
- Oracle中获取执行计划的几种方法分析
以下是对Oracle中获取执行计划的几种方法进行了详细的分析介绍,需要的朋友可以参考下 1. 预估执行计划 - Explain PlanExplain plan以SQL语句作为输入,得到这条S ...
- 在Activity中响应ListView内部按钮的点击事件的两种方法!!!
在Activity中响应ListView内部按钮的点击事件的两种方法 转载:http://www.cnblogs.com/ivan-xu/p/4124967.html 最近交流群里面有人问到一个问题: ...
- C#中得到程序当前工作目录和执行目录的五种方法
string str="";str += "\r\n" + System.Diagnostics.Process.GetCurrentProcess().Mai ...
- (网页)angular中实现li或者某个元素点击变色的两种方法(转)
转自脚本之家: 本篇文章主要介绍了angular中实现li或者某个元素点击变色的两种方法,非常具有实用价值,需要的朋友可以参考下 本文介绍了angular中实现li或者某个元素点击变色的两种方法,分享 ...
- C#统计给定的文本中字符出现的次数,使用循环和递归两种方法
前几天看了一个.net程序员面试题目,题目是”统计给定的文本中字符出现的次数,使用循环和递归两种方法“. 下面是我对这个题目的解法: 1.使用循环: /// <summary> /// 使 ...
- (转)Shell中获取字符串长度的七种方法
Shell中获取字符串长度的七种方法 原文:http://blog.csdn.net/jerry_1126/article/details/51835119 求字符串操作在shell脚本中很常用,下面 ...
- golang中获取字符串长度的几种方法
一.获取字符串长度的几种方法 - 使用 bytes.Count() 统计 - 使用 strings.Count() 统计 - 将字符串转换为 []rune 后调用 len 函数进行统计 ...
- java中把文件拷贝到指定目录下最简单几种方法
java中把文件拷贝到指定目录下最简单几种方法 String savePath = "D:/file";// 文件保存到d盘的file目录下 File savefile = n ...
随机推荐
- C# 获取QQ会话聊天信息
利用UIAutomation获取QQ会话聊天信息 AutomationElement window = AutomationElement.FromHandle(get.WindowHwnd); Au ...
- 工具推荐-personal kanban
工具推荐 -- personal kanban 看板工具 在项目中接触到项目管理工具pingcode中含有看板工具 但是实际使用时一般一周才看一下项目进度 这个看板的参与度实际上很低 为了将日常的工作 ...
- 【Java面试题】Hibernate
六.Hibernate 50)简述一下 hibernate 的开发流程 第一步:加载 hibernate 的配置文件,读取配置文件的参数(jdbc 连接参数,数据 库方言,hbm 表与对象关系映射文件 ...
- list集合中的实现类Vector
Vector: 它底层也是用数组来存数据对象的,但它是唯一一个线程安全的,线程安全也就意味着时间长,效率慢,如果是单一线程的话,建议不使用该实现类 add(E element): 将指定的元素追加到此 ...
- #虚树,树形dp#洛谷 3233 [HNOI2014]世界树
题目 分析 考虑建一棵虚树,倍增找到虚树上相邻两个点的中间点统计答案 记录每个虚树点最近的距离以及编号最小的点,主要是细节问题 代码 #include <cstdio> #include ...
- 中文GPTS,字节中文扣子Coze使用全教程
字节出自己的GPTS了,名字英文名叫coze,中文名叫"扣子".和OpenAI的GPTS类似.具有可定制性和完成特定任务的强大功能,它提供了一种新的GPT方式,可以让用户根据自己的 ...
- Makefile 常用命令详解
在软件开发中,Makefile是一种非常常用的自动化工具.Makefile文件包含了一系列规则,用于编译.打包.测试等操作,可以帮助我们自动化这些操作,提高项目的管理和编译效率.本文将介绍Makefi ...
- C++ 模板和泛型编程详解
C++中的模板和泛型编程是非常重要的概念.模板是一种将数据类型作为参数的通用程序设计方法.它们允许开发人员编写可以处理各种数据类型的代码,而无需为每种数据类型编写不同的代码.下面介绍了一些关于C++中 ...
- HR必备|可视化大屏助HR实现人才资源价值最大化
人力资源管理质量的优劣关系到企业可持续发展目标的实现,在信息化时代背景下,应用信息技术加强人力资源管理过程的优化,利用技术提升人力资源管理质量和效率已是大势所趋. 利用信息技术构建信息化人力资源管理平 ...
- HUAWEI DevEco Studio 3.1版本发布,配套ArkTS声明式开发全面升级
原文:https://mp.weixin.qq.com/s/ap5gH7vm3BUm0nU2WOzAzw,点击链接查看更多技术内容. 今年开发者大会发布了HarmonyOS应用开发套件Dev ...