jieba库及wordcloud库的使用

知识内容：

1.jieba库的使用

2.wordcloud库的使用

参考资料：

https://github.com/fxsjy/jieba

https://blog.csdn.net/fontthrone/article/details/72775865

一、jieba库的使用

1.jieba库介绍

jieba是优秀的中文分词第三方库，使用pip安装后可以使用其来对中文文本进行分词

特点：

支持三种分词模式：
- 精确模式，试图将句子最精确地切开，适合文本分析，单词无冗余；
- 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义，存在冗余；
- 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
支持繁体分词
支持自定义词典
MIT 授权协议

2.jieba库方法

(1)jieba库3种分词方法(3种模式)

3种模式对应的方法如下：

cut(s)和lcut(s) 　　　　　　　　 # 精确模式
lcut(s, cut_all=True) 　　　　 # 全模式(存在冗余)
cut_for_search(s)和lcut_for_search(s) 　　 # 搜索模式(存在冗余)

注：cut()和lcut()的不同：cut返回的是生成器，lcut返回的是列表。cut_for_search()和lcut_for_search()也是前者返回生成器，后者返回列表

另外：

cut 方法lcut方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
cut_for_search 方法和lcut_for_searchlcut_for_search接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

示例：

 import jieba

 s = "中国是一个伟大的国家"

 res1 = jieba.lcut(s)                                          # 精确模式

 res2 = jieba.lcut(s, cut_all=True)                            # 全模式(存在冗余)

 res3 = jieba.lcut_for_search("中华人民共和国是伟大的")           # 搜索模式(存在冗余)

 print(res1, res2, res3, sep="\n")

 import jieba

 seg_list = jieba.cut("我来到北京清华大学", cut_all=True)

 print("Full Mode: " + "/ ".join(seg_list))  # 全模式

 seg_list = jieba.cut("我来到北京清华大学", cut_all=False)

 print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

 seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式

 print(", ".join(seg_list))

 seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式

 print(", ".join(seg_list))

结果：

(2)向字典中添加新词或添加自定义词典

使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典，当然也可以使用load_userdict(file_name)来导入自定义字典

最简单的用法：add_word() 直接向分词词典中添加新词

示例：

 s = "李小福是创新办主任也是云计算方面的专家"

 print(jieba.lcut(s))

 jieba.add_word("创新办")

 print(jieba.lcut(s))

还可以使用load_userdict(file_name)导入自定义字典

示例：

自定义字典文件dict.txt内容如下：

 云计算 5

 李小福 2 nr

 创新办 3 i

 easy_install 3 eng

 好用 300

 s = "李小福是创新办主任也是云计算方面的专家"

 print(jieba.lcut(s))

 jieba.load_userdict("dict.txt")

 print(jieba.lcut(s))

3.文本词频统计通用代码

 import string

 import jieba

 # 统计哈姆雷特和三国演义的词频

 # 统计hamlet的词频 -> 可以用做英文的通用分词和统计

 class Hamlet(object):

     def __init__(self, name):

         """

         :param name: 文本名字或路径

         """

         self.text_name = name

     def get_text(self):

         """

         获取文本并进行相关处理

         :return: 返回文本内容

         """

         txt = open(self.text_name, "r").read().lower()

         for ch in string.punctuation:

             txt = txt.replace(ch, " ")

         return txt

     def count(self):

         """

         统计单词出现的次数并输出结果

         """

         hamlet_txt = self.get_text()

         words = hamlet_txt.split()

         counts = {}

         for word in words:

             counts[word] = counts.get(word, 0) + 1

         items = list(counts.items())

         # key指定用列表中每一项中第二个值作为排序依据, reverse设置排序顺序 设为True的排序顺序为从大到小

         items.sort(key=lambda x: x[1], reverse=True)

         for i in range(10):

             print(items[i][0], items[i][1])

 # 统计三国演义中人物名字的词频 -> 可以用做中文的通用分词及统计

 class ThreeKindDom(object):

     def __init__(self, name):

         """

         :param name: 文本名字或路径

         """

         self.text_name = name

     def get_text(self):

         """

         获取文本并进行相关处理

         :return: 返回文本内容

         """

         txt = open(self.text_name, "r", encoding="utf-8").read()

         return txt

     def split_txt(self):

         """

         对文本进行分词

         :return: 返回分词后的列表

         """

         threekingdom_txt = self.get_text()

         words = jieba.lcut(threekingdom_txt)

         return words

     def count(self):

         """

         统计单词出现的次数并输出结果

         """

         words = self.split_txt()

         # excludes为要去掉的词

         excludes = {"将军", "却说", "二人", "不可", "荆州", "不能", "如此", "商议", "如何", "左右",

                     "军马", "引兵", "军士", "次日", "主公", "大喜", "天下", "东吴", "于是", "今日", "魏兵"}

         counts = {}

         for word in words:

             rword = word

             if len(word) == 1:

                 continue

             # 对一些特殊的词进行处理

             elif word == "诸葛亮" or word == "孔明" or word == "孔明曰":

                 rword = "孔明"

             elif word == "关公" or word == "云长":

                 rword = "关羽"

             elif word == "玄德" or word == "玄德曰":

                 rword = "刘备"

             elif word == "孟德" or word == "丞相":

                 rword = "曹操"

             counts[rword] = counts.get(rword, 0) + 1

         for word in excludes:

             del counts[word]

         items = list(counts.items())

         # key指定用列表中每一项中第二个值作为排序依据, reverse设置排序顺序 设为True的排序顺序为从大到小

         items.sort(key=lambda x: x[1], reverse=True)

         for i in range(8):

             print(items[i][0], items[i][1])

 if __name__ == '__main__':

     # s1 = Hamlet("hamlet.txt")

     # s1.count()

     s2 = ThreeKindDom("threekingdoms.txt")

     s2.count()

二、wordcloud库的使用

1.wordcloud库介绍

wordcloud库是基于Python的词云生成类库,很好用,而且功能强大

词云如下所示：

2.wordcloud库基本使用

实例：

 import wordcloud

 c = wordcloud.WordCloud()                           # 生成词云对象

 c.generate("wordcloud by Python")                   # 加载词云文本

 c.to_file("wordcloud.png")                          # 输出词云文件

WordCloud方法的参数如下：

width：指定词云对象生成的图片的宽度(默认为200px)
height：指定词云对象生成的图片的高度(默认为400px)
min_font_size：指定词云中字体最小字号，默认为4
max_font_size：指定词云中字体最大字号
font_step：指定词云中字体之间的间隔，默认为1
font_path：指定字体文件路径
max_words：指定词云中能显示的最多单词数，默认为200
stop_words：指定在词云中不显示的单词列表
background_color：指定词云图片的背景颜色，默认为黑色

指定词云形状：

 import jieba

 import wordcloud

 from scipy.misc import imread

 mask = imread("yun.png")                # 读取图片数据到mask中

 f = open("文档.txt", "r", encoding="utf-8")

 data = f.read()

 f.close()

 ls = jieba.lcut(data)                   # 分词

 txt = " ".join(ls)                      # 将列表中的单词连接成一个字符串

 w = wordcloud.WordCloud(mask=mask)      # 指定词云形状

 w.generate(txt)

 w.to_file("output.png")

3.生成词云通用代码

 import jieba

 import wordcloud

 from scipy.misc import imread

 def make_cloud(input_file, output_file, **kwargs):

     """

     制作词云的通用代码

     :param input_file: 输入文本的路径或名字

     :param output_file: 输出图片的路径或名字

     :param kwargs:   WordCloud的参数(width、height、background_color、font_path、max_words)

     :return:

     """

     width = kwargs.get("width")

     height = kwargs.get("height")

     background_color = kwargs.get("background_color")

     font_path = kwargs.get("font_path")

     max_words = kwargs.get("max_words")

     f = open(input_file, "r", encoding="utf-8")

     data = f.read()

     f.close()

     ls = jieba.lcut(data)                   # 分词

     txt = " ".join(ls)                      # 将列表中的单词连接成一个字符串

     w = wordcloud.WordCloud(width=width, height=height, background_color=background_color, font_path=font_path,

                             max_words=max_words)

     w.generate(txt)

     w.to_file(output_file)

 def make_cloud_png(input_file, output_file, png_file, **kwargs):

     """

     用特殊图形制作词云的通用代码

     :param input_file: 输入文本的路径或名字

     :param output_file: 输出图片的路径或名字

     :param png_file:  设置词云的图片形状的文件路径或名字

     :param kwargs: WordCloud的参数(width、height、background_color、font_path、max_words)

     :return:

     """

     width = kwargs.get("width")

     height = kwargs.get("height")

     background_color = kwargs.get("background_color")

     font_path = kwargs.get("font_path")

     max_words = kwargs.get("max_words")

     mask = imread(png_file)

     f = open(input_file, "r", encoding="utf-8")

     data = f.read()

     f.close()

     ls = jieba.lcut(data)                   # 分词

     txt = " ".join(ls)                      # 将列表中的单词连接成一个字符串

     w = wordcloud.WordCloud(width=width, height=height, background_color=background_color, font_path=font_path,

                             max_words=max_words, mask=mask)

     w.generate(txt)

     w.to_file(output_file)

jieba库及wordcloud库的使用的更多相关文章

使用jieba库与wordcloud库第三方库进行词频统计
一.jieba库与wordcloud库的使用 1.jieba库与wordcloud库的介绍 jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最 ...
python预课05 爬虫初步学习+jieba分词+词云库+哔哩哔哩弹幕爬取示例（数据分析pandas）
结巴分词 import jieba """ pip install jieba 1.精确模式 2.全模式 3.搜索引擎模式 """ txt ...
python词云生成-wordcloud库
python词云生成-wordcloud库全文转载于'https://www.cnblogs.com/nickchen121/p/11208274.html#autoid-0-0-0' 一.word ...
wordcloud库基本介绍和使用方法
一.wordcloud库基本介绍 1.1 wordcloud库概述 wordcloud是优秀的词云展示第三方库词云以词语为基本单位,更加直观和艺术的展示文本 1.2wordcloud库的安装 pip ...
python爬虫——京东评论、jieba分词、wordcloud词云统计
接上一章,动态页面抓取——抓取京东评论区内容. url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJS ...
Python常用的标准库以及第三方库
Python常用的标准库以及第三方库有哪些? 20个必不可少的Python库也是基本的第三方库读者您好.今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们.他们 ...
【转】iOS动态库和静态库的简要介绍
静态库与动态库的区别首先来看什么是库,库(Library)说白了就是一段编译好的二进制代码,加上头文件就可以供别人使用. 什么时候我们会用到库呢?一种情况是某些代码需要给别人使用,但是我们不希望别人 ...
C++ 系列：静态库与动态库
转载自http://www.cnblogs.com/skynet/p/3372855.html 这次分享的宗旨是——让大家学会创建与使用静态库.动态库,知道静态库与动态库的区别,知道使用的时候如何选择 ...
C++静态库与动态库
C++静态库与动态库这次分享的宗旨是--让大家学会创建与使用静态库.动态库,知道静态库与动态库的区别,知道使用的时候如何选择.这里不深入介绍静态库.动态库的底层格式,内存布局等,有兴趣的同学,推荐一 ...

随机推荐

android中的5大布局
1.线性布局:LinearLayout layout_margin 上下左右的距离分别为下面图中的orientation表示的是布局中的方向分别有horizontal表示水平 vertic ...
Spring如何解析XML文件——Spring源码之XML初解析
首先,在我的这篇博客中已经说到容器是怎么初步实现的,并且要使用XmlBeanDefinitionReader对象对Xml文件进行解析,那么Xml文件是如何进行解析的,将在这片博客中进行一些陈述. 数据 ...
koa-connect源码解析
文中提到的koa均为koa2 提到nodejs, 想必大家都知道express和koa. express: 大 koa: 小比较的的是功能, 社区, 中间件,相关资源等这里我就专门说说中间件吧, ...
【网络通讯】Nat知识了解
一.Nat的含义 NAT(Network Address Translation,网络地址转换)是1994年提出的.当在专用网内部的一些主机本来已经分配到了本地IP地址(即仅在本专用网内使用的专用地址 ...
test20180919 递归问题
题意定义 \[ f(n)=\left\{ \begin{array}{} 1 & n=1\\ f(n-f(f(n-1)))+1 & n>1 \end{array} \right ...
dockercompose up build fail
docker https://auth.docker.io/token dial tcp lookup auth.docker.io i/o timeo Error response from dae ...
CentOS升级Python2.6到Python2.7并安装pip
原文:http://ruter.sundaystart.net/2015/12/03/Update-python/ 貌似CentOS 6.X系统默认安装的Python都是2.6版本的?平时使用以及很多 ...
socat 简单试用
socat的主要特点就是在两个数据流之间建立通道:且支持众多协议和链接方式: ip, tcp, udp, ipv6, pipe,exec,system,open,proxy,openssl,socke ...
五、概念数据模型(CDM生成LDM,PDM和OOM)
概念数据模型概念数据模型(Conceptual Data Model,CDM):表达的是数据整体逻辑结构,该结构独立于任何软件和数据存储结构,即它只是系统分析人员,应用程序设计人员,维护人员和用 ...
APP自动化测试各项指标分析
一.内存分析专项启动App. DDMS->update heap 操作app,点几次GC dump heap hprof-conv转化 MAT分析二.区分几种内存 VSS- Virtual ...

jieba库及wordcloud库的使用

jieba库及wordcloud库的使用的更多相关文章

随机推荐

热门专题