python里jieba识别金庸小说人名地

2024-11-07

python实例：利用jieba库，分析统计金庸名著《倚天屠龙记》中人物名出现次数并排序

本实例主要用到python的jieba库首先当然是安装pip install jieba 这里比较关键的是如下几个步骤: 加载文本,分析文本 txt=open("C:\\Users\\Beckham\\Desktop\\python\\倚天屠龙记.txt","r", encoding='utf-8').read() #打开倚天屠龙记文本 words=jieba.lcut(txt) #jieba库分析文本对数据进行筛选和处理 for word in words:

Python文章相关性分析---金庸武侠小说分析

百度到<金庸小说全集 14部>全(TXT)作者:金庸下载下来,然后读取内容with open('names.txt') as f: data = [line.strip() for line in f.readlines()] novels = data[::2] names = data[1::2] novel_names = {k: v.split() for k, v in zip(novels, names)} //可以在这里打印下看是不是都读取过 //开始分词并加载 for _,

Python文章相关性分析---金庸武侠小说分析-2018.1.16

最近常听同事提及相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来. 输出结果: 比较有意思的巧合是黄蓉使出打狗棒,郭靖就用了降龙十八掌,再后测试了名词的解析. 小说集可以百度<金庸小说全集 14部>全(TXT)作者:金庸下载下来.需要整理好格式,门派和武功名称之间需要有换行符,留意删除掉最后一行的空白区域.下载完成后可以用自己习惯的工具或程序做相应调整,因语料内容太长,博客里面不允许"堆砌",所以没复制上来,有需要的可以再联系. with op

使用scrapy爬取金庸小说目录和章节url

刚接触使用scrapy的时候,如果一开始就想实现特别复杂的配置,显然是不太现实的,用一些小的例子可以帮助自己理解各个模块. 今天的目标:爬取http://www.luoxia.com/shendiao/ 网站金庸小说神雕侠侣目录及各章节链接,并且保存到mongoDB数据库分析:使用scrapy不做任何处理,实际上就可以得到原网页,但是我需要得到的目录名字和名录的url地址,所以需要对response进行解析(在spiders模块完成), 然后我需要保存到数据库,需要在itempipeline里

QR code 金庸小说体（二）

传说在二维码世纪,流传着这样一个传说,long long ago,武林一片混乱,这时魔教二长老创立了一门绝世武功——QR code,随后称霸武林.但同时也遭到武林中人的觊觎和反抗,各大武林正派掌门人一起修炼了一套对付二长老的神功.终于经历了七天七夜昏天地暗的恶战后,联盟取得了胜利,但二长老和各大掌门们却从此失踪,也在没有人知道他们的绝世武学.魔教因此隐匿,从此与武林井水不犯河水,武林风平浪静.直到互联网(没错,玩的就是穿越)的出现…… 屌丝遇难由于互联网的出现,武林中便又开始传起了关于武功秘

python3爬虫爬取金庸小说所有角色

# -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup url = 'http://www.jinyongwang.com/data/renwu/'; def getHTML(url): r = requests.get(url) return r.content def parseHTML(html): soup = BeautifulSoup(html,'html.parser') body = soup.bo

金庸的武侠世界和SAP的江湖

2018年10月30日晚,成都地铁一号线,Jerry手机app上突然弹出来一条金庸去世的新闻. Jerry识字很早,小学一年级就开始蹭我父亲的<射雕英雄传>看了.小时候,我爸工作的车间里有一位领导,退休后把自己家的一个房间腾出来,满满两个落地书架摆满了各种武侠小说.每逢寒暑假,Jerry的父亲就会带着我去那里租小说回家看,一本书一天的租金是一角钱.Jerry至今都要感激我的父母,在我小的时候,没有因为武侠小说在某些人眼里是闲书而禁止我看,让我的童年多了不少乐趣. 正因为如此,金庸的小说可以说伴

金庸和古龙，Netweaver和微服务，以及SAP Hybris Revenue Cloud

这周Jerry在长沙客户现场待了几天,感谢易总和彩亮的款待.终于有机会和关注这个公众号的一些CRM顾问们进行线下互动,感觉很不错.得知公众号里某些文章帮助顾问们解决了一些工作中的实际问题,我很高兴.感谢大家的支持,只要时间允许,这个公众号我会一直写下去. 和CRM顾问们中午吃饭时聊到了SAP一些新的云产品采用了微服务架构开发,因此我写了这篇文章. 如果要找金庸小说里帮助Jerry提高编程水平最有用的一句话,无疑是:重剑无锋,大巧不工. 杨过被郭芙斩断一臂后,以前掌握的编程语言,哦不,以前掌握的武

金庸笔下的"程序员" | 附金庸武侠全集

金庸飞雪连天射白鹿,笑书神侠倚碧鸳当您八十高龄取得牛津大学唐朝史学博士学位,我还以为这是另一部史诗开始的信号,然而没有后续了.我的高中到大学,是十遍<笑傲江湖>的距离,我的整个青春,是大侠郭靖到祖师郭襄的岁月.你是桀骜不羁的方正君子令狐冲,也是侠气冲天嫉恶如仇的大侠胡斐,但你说你最像优柔寡断多情却残忍的张无忌.不过,在我心中,您永远是我的偶像,一路走好,老爷子 . 今天与人闲谈中无意间提到了“倚天屠龙记”中的张无忌,这是一个普通的甚至性格有点软弱的主角,性格复杂,很多人读完小说以后觉得他一点

Python爬虫实例（六）多进程下载金庸网小说

目标任务:使用多进程下载金庸网各个版本(旧版.修订版.新修版)的小说代码如下: # -*- coding: utf-8 -*- import requests from lxml import etree from multiprocessing import Pool import os import sys reload(sys) sys.setdefaultencoding('utf-8') headers = {'User-Agent':'Mozilla/5.0 (Windows NT

python环境jieba分词的安装

我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明======= 代码对 Python 2/3 均兼容 * 全自动安装:`easy_install jieba` 或者 `pip install jieba` / `pip3 install jieba`* 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 `python setup.py install`* 手动安装:将

python之jieba库

jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English documentation. 特点支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析:

致敬金庸：武侠版编程语言...Java像张无忌还是令狐冲？

我就喜欢这样,等新闻消失,热点过去,人们快要遗忘的时候, 用自己的方式,想起他.让他被人想起. 短评:夫千里之远,不足以举其大:千仞之高,不足以举其深.<倚天屠龙记> 短评:这世间和张三丰动过手的人早已死的干干净净.<倚天屠龙记> 短评:喜欢吧,看一眼是如此,过一辈子也是如此.<侠客行> 短评:你爹爹妈妈不好,生的你太美,可害苦咱们男人啦!<倚天屠龙记> 点评:我对你的敬仰之情有如滔滔江水连绵不绝,又如黄河之泛滥,一发不可收拾<鹿鼎记> 点评:少

[Python] 基于 jieba 的中文分词总结

目录模块安装开源代码基本用法启用Paddle 词性标注调整词典智能识别新词搜索引擎模式分词使用自定义词典关键词提取停用词过滤模块安装 pip install jieba jieba分词器支持4种分词模式: 精确模式该模式会试图将句子最精确地切分开,适合在文本分析时使用. 全模式该模式会将句子中所有可以成词的词语都扫描出来,速度也非常快,缺点是不能解决歧义问题,有歧义的词语也会被扫描出来. 搜索引擎模式该模式会在精确模式的基础上对长词语再进行切分,将更短的词切分出来.在搜索引

python结巴(jieba)分词

python结巴(jieba)分词一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义. (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词.2.支持繁体分词3.支持自定义词典二.实现结巴分词的实现原理主要有一下三点:(1)基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG).(2)采用了动态

python安装Jieba中文分词组件并测试

python安装Jieba中文分词组件 1.下载http://pypi.python.org/pypi/jieba/ 2.解压到解压到python目录下: 3.“win+R”进入cmd:依次输入如下代码: C:\Users\Administrator>cd D:\softwareIT\Python27\jieba-0.39 C:\Users\Administrator>d: D:\softwareIT\Python27\jieba-0.39>python setup.py install

Python爬虫爬取全书网小说，程序源码+程序详细分析

Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下内容: 第二步:进入如下页面分析Network中的内容(网址.编码方式一般为gbk) 第三步:程序详细分析如下所示: # _*_ utf-8 _*_: # author:Administrator from urllib import request #导入请求库,有的版本是import reque

原创游戏，金庸群侠传X 0.5公布

首先说一下背景,我个人从小特别爱玩游戏,对小时候一款游戏<金庸群侠传>DOS版更是情有独钟,自己工作以后,利用业余时间自己整了一个原创的改编版丢网上(找图片.音乐.写剧情更是虐心之极,耗时之极),竟然挺受玩家欢迎.收到莫大鼓励,于是各种业余时间在家自娱自乐写着玩的态度发了一堆版本号.眼下在没有不论什么宣传的情况下,能保持日均2000-3000独立IP的訪问.楼主自得其乐,自虐当中-- 又经过将近两周每天奋斗到凌晨两点(在老婆的抱怨下才睡觉),在一大批玩家千呼万唤哆哆紧逼的情况下,我最终把金X

基于Python使用SVM识别简单的字符验证码的完整代码开源分享

关键字:Python,SVM,字符验证码,机器学习,验证码识别 1 概述基于Python使用SVM识别简单的验证字符串的完整代码开源分享. 因为目前有了更厉害的新技术来解决这类问题了,但是本文作为初级入门方法,还是具有一定的学习意义的,所以就将源码和相关的素材开源出来. 本文虽然已经不具备太强的实战性和迁移性,但是主要希望能够是以一个有趣的应用点来让对机器学习有兴趣的同学找到入门点. 上面提到的 “更厉害的新技术” 是指 “CNN 卷积神经网络”,这个工具基本上免去了本文介绍的繁杂的图片预

为什么在Python里推荐使用多进程而不是多线程

转载 http://bbs.51cto.com/thread-1349105-1.html 最近在看Python的多线程,经常我们会听到老手说:"Python下多线程是鸡肋,推荐使用多进程!",但是为什么这么说呢? 要知其然,更要知其所以然.所以有了下面的深入研究: 首先强调背景: 1. GIL是什么? GIL的全称是Global Interpreter Lock(全局解释器锁),来源是python设计之初的考虑,为了数据安全所做的决定. 2. 每个CPU在同一时间只能执行一

python里jieba识别金庸小说人名地

热门专题