使用jieba分析小说人物出现次数】的更多相关文章

分析: 1. 读取小说,以读的形式打开 with open('文件名.txt','r',encoding='utf8') as f: str = f.read() 2. 切割小说 ret = jieba.lcut(str) 3. 统计所有词语出现次数 --> 准备一个字典 dic = {} for word in ret: if len(word) == 1: # 去掉名字为一个字的 continue dic[word] = dic.get(word, 0) + 1 准备一个多余称呼的列表 ex…
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字"加群",加入华为云线上技术讨论群:输入关键字"最新活动",获取华为云最新特惠促销.华为云诸多技术大咖.特惠活动等你来撩! 文本分析 很多时候,我们会去统计一片文章中的高频词汇,以此来作为文章的关键词条,那么词频分析在python中,该用什么模块做?jieba! 第一次听到这个词就乐了,一个**"结巴",帮助我们统计词频-但仔细了解这个模块后,你会发现它…
一.安装所需要的第三方库 jieba (jieba是优秀的中文分词第三分库) pyecharts (一个优秀的数据可视化库) <三国演义>.txt下载地址(提取码:kist ) 使用pycharm安装库 打开Pycharm选择[File]下的Settings 出现下面页面, 选择右边的[+]出现下面页面,在此页面顶端搜索想要的库,然后安装就可以了 二.编写代码 import jieba #导入库 import os print("人物出现次数前十名:") txt = ope…
这周老师布置了一项作业,让我们回去将自己喜欢的小说里面的主角出场次数统计出来,我对这个充满了兴趣,但我遇到了三个问题: (1)一开始选了一部超长的小说(最爱之一),但是运行时老是不行,老是显示下图错误: (2)我一开始是像书本那样直接把txt文件名打上去,类似于open(‘two.txt’,'r').read(),但总是出现一下一行字: (3)三个字的人名总是会有几个人只打了两个字 一.撇开这些问题,开始写代码: 我刚开始以为是小说太长了,运行不了,就找了一部短一些的小说,我最爱的小说——<我和…
当服务器压力比较大,跑起来很费力时候.我们经常做站点页面优化,会去查找那些页面访问次数比较多,而且比较费时. 找到那些访问次数高,并且比较耗时的地址,就行相关优化,会取得立竿见影的效果的. 下面是我在做优化时候,经常用到的一段shell 脚本. 这个也可以算是,统计web页面的slowpage 慢访问页面,象mysql slowquery .nginx 日志配制: log_format main '$remote_addr - $remote_user [$time_local] $reques…
1.知识点 """ 1)cut() a) codecs.open() 解决编码问题 b) f.readline() 读取一行,也可以使用f.readlines()读取多行 c) words =" ".join(jieba.cut(line))分词,每个词用空格分隔 2)lcut() 返回一个list列表 """ 2.标点符号处理,并分词,存储到文件中 def fenCi(): """ 标点符号处理…
文本可视化[二]--<今生今世>人物关系可视化python实现 在文本可视化[一]--<今生今世>词云生成与小说分析一文中,我使用了jieba分词和wordcloud实现了,文本关键词的提取并生成词云,同时也尝试直接提取人名关键词来绘制.这次我们换一种方式--通过分析人物之间的关系,而不是人物在文本集中的频率来绘制一张复杂网络图,如下所示.数据经过可视化后还是非常有趣的.下面就讲讲人物关系网图的实过程. 用到的工具 jieba jieba分词,最好用的开源中文分词工具.他最主要的两…
庆余年电视剧终于在前两天上了,这两天赶紧爬取数据看一下它的表现. ​ ​ 庆余年 ​ <庆余年>是作家猫腻的小说.这部从2007年就开更的作品拥有固定的书迷群体,也在文学IP价值榜上有名. ​ 期待已久的影视版的<庆余年>终于播出了,一直很担心它会走一遍<盗墓笔记>的老路.在<庆余年>电视剧上线后,就第一时间去看了,真香. ​ ​ 庆余年微博传播分析 <庆余年>在微博上一直霸占热搜榜,去微博看一下大家都在讨论啥: ​ 一条条看显然不符合数据分析师…
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html 目录: 零:写在前面的一些废话 一.R眼看琅琊榜的基本原理 1.导入数据 2.筛选数据 3.多条件筛选对话 4.导出数据 二.R眼看琅琊榜的基础分析 1.快速对文本分章节 2.快速定位人物出场章节 3.快速定位人物互动章节 三.总结 零:写在前面的一些废话 最近电视剧琅琊榜非常之火,除了主角以外,里面很多配角都非常出彩. 原著琅琊榜也是非常精彩的.有些电视剧里没明说的解析,在小说里会明文说出来…
综艺,是我们劳累了一天的放松方式,也是我们饭后的谈资.看着自己喜欢的综艺,时光足够美.而<令人心动的offer >,就是一个不错的综艺选择.有人说它让自己更自卑了,而我觉得挺有意思. <令人心动的offer >目前为止已经播出了两季,第一季在豆瓣为8.3分,共有5万余人评分,第二季目前评分低于第一季,评分仅7.1分. 本文通过爬取<令人心动的offer>第二季13万+弹幕,进行可视化分析和情感分析. 数据获取 <令人心动的offer>第二季在腾讯视频独家播出…
参考:http://www.jianshu.com/p/3bd06f8816d7 项目原理:   实验基于简单共现关系,编写 Python 代码从纯文本中提取出人物关系网络,并用Gephi 将生成的网络可视化.下面介绍共现网络的基本原理.(共现网络简单的英文介绍)   共现网络的基本原理:    实体间的共现是是一种基于统计信息的提取,关系密切的人物往往会在文中的多段连续出现,通过文中以出现的实体(人名),计算不同实体共同出现的比率和次数,设定一个阈值,大于该阈值认为实体间存在某种联系.   准…
Python基于共现提取<釜山行>人物关系 一.课程介绍 1. 内容简介 <釜山行>是一部丧尸灾难片,其人物少.关系简单,非常适合我们学习文本处理.这个项目将介绍共现在关系中的提取,使用python编写代码实现对<釜山行>文本的人物关系提取,最终利用Gephi软件对提取的人物关系绘制人物关系图. 2. 课程知识点 本课程项目完成过程中将学习: 共现网络的基本原理 Python代码对<釜山行>中人物关系提取的具体实现 jieba库的基本使用 Gephi软件的基…
一.jieba库的使用与说明 1.jieba库基本介绍 jieba库是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语         - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 2.jieba库使用说明 (1).jieba分词的三种模式 精确模式.全模式.搜索引擎模式 - 精确模式:把文本精确的切分开,不存在冗余单词         - 全模式:把文本中所有可能的词语都扫描出来,有冗余 - 搜索引擎模式:在精确模式…
一.程序说明 本程序流程是读取红楼梦txt文件----使用jieba进行分词----借助Counter读取各人名出现次数并排序----使用matplotlib将结果可视化 这里的统计除了将“熙凤”出现的次数合并到“凤姐”中外并没有其他处理,但应该也大体能反映人物提及次数情况 二.执行结果展示 条形图: 饼状图: 三.程序源代码 import jieba from collections import Counter import matplotlib.pyplot as plt import n…
author:weizhendong data:2019.12.19 func:绘制三国演义人物关系图 """ import codecs import jieba.posseg as pseg import xlwt def excel_write(names,workbook): # 创建一个worksheet worksheet = workbook.add_sheet('node') worksheet.write(0, 0, label='ID') workshee…
什么是聚类分析? 聚类分析属于探索性的数据分析方法.通常,我们利用聚类分析将看似无序的对象进行分组.归类,以达到更好地理解研究对象的目的.聚类结果要求组内对象相似性较高,组间对象相似性较低.在三国数据分析中,很多问题可以借助聚类分析来解决,比如三国人物身份划分.聚类分析的基本过程是怎样的?  选择聚类变量 在分析三国人物身份的时候,我们会根据一定的假设,尽可能选取对角色身份有影响的变量,这些变量一般包含与身份密切相关的统率.武力.智力.政治.魅力.特技.枪兵.戟兵.弩兵.骑兵.兵器.水军等.但是…
一:查询slow log的状态,如示例代码所示,则slow log已经开启. mysql> show variables like '%slow%'; +---------------------+------------------------------------------+ | Variable_name | Value | +---------------------+------------------------------------------+ | log_slow_que…
原文:https://www.cnblogs.com/skymyyang/p/7239010.html 一:查询slow log的状态,如示例代码所示,则slow log已经开启. mysql> show variables like '%slow%'; +---------------------+------------------------------------------+ | Variable_name | Value | +---------------------+------…
01.前言 很多电影也上映,看电影前很多人都喜欢去 『豆瓣』 看影评,所以我爬取44130条 『豆瓣』 的用户观影数据,分析用户之间的关系,电影之间的联系,以及用户和电影之间的隐藏关系. 02.爬取观影数据 数据来源 https://movie.douban.com/ 在『豆瓣』平台爬取用户观影数据. 爬取用户列表 网页分析 为了获取用户,我选择了其中一部电影的影评,这样可以根据评论的用户去获取其用户名称(后面爬取用户观影记录只需要『用户名称』). https://movie.douban.co…
Codeforces 题目传送门 & 洛谷题目传送门 这个 \(42\) 的条件非常奇怪,不过注意到本题 \(a_i\) 范围的最大值为 \(10^{14}\),而在值域范围内 \(42\) 的幂的个数最多只有 \(13\) 个,故考虑用类似于 seg-beats 的方法解决这道题. 首先不考虑操作 \(2\)(区间赋值操作),我们很容易发现一个性质,那就是我们对一个区间进行区间加的操作,每额外进行一次,都是因为存在某个数 \(a_i\) 达到了 \(42\) 的整数次幂,而我们的 \(a_i\…
本文转自知乎 作者:苏格兰折耳喵 ----------------------------------------------------- 作为数据分析爱好者,本文作者将想从数据的角度去解读<欢乐颂2>这部热播剧的方方面面,包括舆情传播.网络口碑.人物社交网络分析及,以及小说内容的文本分析. 5月11日,让众多安迪粉期待已久的<欢乐颂>第二季终于播出.相比首季,<欢乐颂2>在造型和场景上显得更为精致时尚,且其中每个角色的造型却都是遵从的其身份和背景,并不突兀. 正所谓…
第二章 Python语言基本语法元素 一.选择题C B B C A D B A D B二.编程题1.获得用户输入的一个整数N,计算并输出N的32次方.在这里插入图片描述2.获得用户输入的一段文字,将这段文字进行垂直输出.在这里插入图片描述3.获得用户输入的一个合法算式,例如1.2+3.4,输出运算结果.在这里插入图片描述4.获得用户输入的一个小数,提取并输出其整数部分.在这里插入图片描述5.获得用户输入的一个整数N,计算并输出1到N相加的和.在这里插入图片描述第三章 数字类型 一.选择题C A…
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于菜J学Python,作者: J哥 Python爬取爬取腾讯视频弹幕视频讲解 https://www.bilibili.com/video/BV1954y1r7pi/…
一.线程与多线程 1.线程与进程 线程指的是 进程(运行中的程序)中单一顺序的执行流. 多个独立执行的线程相加 = 一个进程 多线程程序是指一个程序中包含有多个执行流,多线程是实现并发机制的一种有效手段. 2.线程的生命周期 每个线程都要经历创建.就绪.运行.阻塞和死亡等5个状态,线程从产生到消失的状态变化称之为生命周期 从图中可以看到,一个线程的生命周期一般经过如下步骤: 一个线程通过实例化创建线程对象后,进入新生状态. 线程对象通过调用 start()方法进入就绪状态,一个处在就绪状态的线程…
因为我很喜欢龙族,额........我也很喜欢python这门语言.然后就结合了一下,用python了解了一下龙族四本书的人物出场次数及排名. <龙族1火之晨曦> 路明非 1877 诺诺 659 芬格尔 321 恺撒 282 古德里安 230 <龙族2悼亡者之瞳> 路明非 1370 楚子航 1264 昂热 439 恺撒 382 夏弥 229 <龙族3黑月之潮> 路明非 2400 恺撒 2141 源稚生 1545 楚子航 1311 昂热 924 绘梨衣 705 <龙…
不同来源的异构数据间存在着千丝万缕的关联,这种数据之间隐藏的关联关系和网络结构特性对于数据分析至关重要,图计算就是以图作为数据模型来表达问题并予以解决的过程. 一.背景 随着网络信息技术的飞速发展,数据逐渐向多源异构化方向发展,且不同来源的异构数据之间也存在的千丝万缕的关联,这种数据之间隐藏的关联关系和网络结构特性对于数据分析至关重要.但传统关系型数据库在分析大规模数据关联特性时存在性能缺陷.表达有限等问题,因此有着更强大表达能力的图数据受到业界极大重视,图计算就是以图作为数据模型来表达问题并予…
如果你是网络安全从业人员,其中重要的工作便是了解安全行业的最新资讯以及技术趋势,那么浏览各大安全博客网站或许是信息来源最好的方法之一.最近有国外网站对50多个互联网安全博客做了相关排名,小编整理其中排名前30的安全博客,希望能给大家带来一些帮助. 博客排名基于以下标准: 1.博客在谷歌上的声誉和搜索排名 2.在Facebook.twitter和其他社交媒体网站的影响力及知名度 3.文章的质量和统一性 4.Feedspot的编辑团队和专家评审 具体博客排名如下: 1.We Live Securit…
简介 最近工作中有一个需求:要求发送http请求到某站点获取相应的数据,但对方网站限制了请求的次数:一分钟最多200次请求. 搜索之后,在stackoverflow网站查到一个类似的问题..但里面用到了Reactive Extensions,权衡之下最后还是决定自己简单实现一分钟最多200次请求. 思路 思路很简单,一分钟200次,平均下来一次请求300ms,大概3次的时候将近一秒,所以一次异步发送三个请求,然后线程暂停900ms. 这里的关键是运行代码时尽量不要堵塞线程,可以速度很快执行发送请…
[原创博文,转载请声明出处] 基于上一篇博文介绍如何源码编译创建自己的gatling可执行工具,今天介绍一下如何基于gatling做性能测试! 由于gatling的测试例脚本是基于scala写的,所以,测试的case脚本当然是一个scala文件了.gatling的测试脚本是用scala写的遵循DSL模型的可读性和维护性极强的脚本.由于DSL重在声明做什么,而不像一般的命令式的编程语言写一堆指令表述怎么做,所以DSL的声明式编程更加侧重在做什么上下功夫,给人一种类似自然语言的程序,但是它比自然语言…
基于ORACLE的应用系统很多性能问题,是由应用系统SQL性能低劣引起的,所以,SQL的性能优化很重要,分析与优化SQL的性能我们一般通过查看该SQL的执行计划,本文就如何看懂执行计划,以及如何通过分析执行计划对SQL进行优化做相应说明. 一.什么是执行计划(explain plan) 执行计划:一条查询语句在ORACLE中的执行过程或访问路径的描述. 二.如何查看执行计划 1: 在PL/SQL下按F5查看执行计划.第三方工具toad等. 很多人以为PL/SQL的执行计划只能看到基数.优化器.耗…