IT小说】的更多相关文章

本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 链接:http://tieba.baidu.com/p/4792877734 首先,自己定义一个类,方便使用.其实类就像一个"水果篮",这个"水果篮"里有很多的"水果",也就是我们类里面定义的变量啊,函数啊等等,各种各样的.每一种"水果&q…
随便说点什么 因为在学python,所有自然而然的就掉进了爬虫这个坑里,好吧,主要是因为我觉得爬虫比较酷,才入坑的. 想想看,你可以批量自动的采集互联网上海量的资料数据,是多么令人激动啊! 所以我就被这块大蛋糕吸引过来了 :) 想学爬虫自然要去找学习资料了,不过网上有很多,我找了不少,个人觉得崔庆才的爬虫教程写得不错.起码对我来说,入门是够了. 感兴趣的朋友可以点进链接看看:Python爬虫学习系列教程   <==这位兄台博客做得也很好 掌握了基本的爬虫知识,主要是urllib,urlib2,r…
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html 目录: 零:写在前面的一些废话 一.R眼看琅琊榜的基本原理 1.导入数据 2.筛选数据 3.多条件筛选对话 4.导出数据 二.R眼看琅琊榜的基础分析 1.快速对文本分章节 2.快速定位人物出场章节 3.快速定位人物互动章节 三.总结 零:写在前面的一些废话 最近电视剧琅琊榜非常之火,除了主角以外,里面很多配角都非常出彩. 原著琅琊榜也是非常精彩的.有些电视剧里没明说的解析,在小说里会明文说出来…
在家无聊,想看看小说,不过看的眼睛痛,就想着下个有声小说来听听.但风上找到的都是要一集一集下,还得重命名,122集啊,点到什么时候. 写个批处理下载的脚本.记录下过程. 一.老套路了,找到下载URL.通过查看网页源码,发现主页:http://www.qktsw.com/down/1831.html  的下载列表隐藏在: 打开这个js文件,看看是什么东西: 看标红的东西,觉得眼熟,这不就是主页上面的下载列表的ID号么: 二.获取id号: 简单,正则表达式: m=re.compile(r'\$(.*…
书旗小说这个手机软件用了好久了,大一的时候就开始用,业余无聊时间可以看一看网络小说打发一下时间. 书旗免费小说是一款内容以免费小说书旗网为基础的在线阅读器,除了拥有传统阅读器的书籍同步阅读.全自动书签.自动保存阅读历史.点击翻页.全屏文字搜索定位.自动预读.同步更新等功能外,更有离线书包.增强书签以及资讯论坛等扩展内容,使阅读更丰富更自由!它的界面简洁优美,没有多余冗杂的其他模块,没有推送广告,独特的书架设置让用户可以一目了然了解到小说的更新进展.离线书包可以直接将整本书下载到本地,在没网的时候…
再写一个用BeautifulSoup抓站的工具,体会BeautifulSoup的强大. 根据小说索引页获取小说全部章节内容并在本地整合为小说全文.不过不是智能的,不同的站点对代码需要做相应的修改. #!/usr/bin/env python import os import sys import re import time import chardet import urllib.request as ur from urllib.parse import urljoin,urlparse f…
前言 在贴吧看了个小说追了几天被删帖了,于是自己找书名,打算下载下来看,结果要么是需要充值,要么不提供下载.作为一个猿类,怎么能忍. 好在小说网站多入牛毛,有的采用js加载文字来防采集,有的用css图片替换个别文字来防采集,但这都不是我们今天要攻克的对象,我们只想找一个软柿子来捏捏不想花太多时间和精力,于是就找到了下面的网站,网址我就不放了(我不会告诉你们源码里有的). 本意是不想花太多时间和精力的,没想到写个博客分享下比写个代码花的时间还多....写代码才花了15分钟,写博客花了我1个小时.…
有句名言,叫做10000小时成为某一个领域的专家.姑且不辩论这句话是否正确,让我们到达10000小时的时候再回头来看吧. 突然想到我最近一直在追的小说,作者每天都会更新两章,而且质量挺高.所以从这篇开始,稍微提高下对文字的要求,至少要对得起观众吧. 本文作者Java 现经验约为15 Hour,请各位不吝赐教. 由点及面 有多种保持记忆的方式, 1: 零碎的记忆碎片,必须要用东西串联起来. 越是独立的知识,消亡的越快. 2: 如果实在无法串联,让点聚合,即扩大点占据的面积.占据位置越小的知识,消亡…
这一节主要内容是使用正则表达式提取网站的正文,主要面向于小说章节网站.其中涉及到一些其他知识点,比如异步读取.异步流写入等,代码中都会有详细的注解.现在流行的网络文学都是每日一更或几更,没有一个统一的下载入口.以下我将实现一个简单的章节小说下载器的功能,将章节小说以整本的形式下载保存,保守估计能下载网络上70%以上小说. 先看看小说网站的网页源码,天蚕土豆的大主宰第一章. http://www.biquge.com/4_4606/991334.html 笔趣网 http://www.fqxsw.…
神马小说--- 使用opensearch打造高性能搜索服务 [使用背景] 神马小说是最早使用opensearch的用户,和opensearch一起成长.目前神马小说每天2亿搜索pv,1000w 用户.产品形态分全网sc,垂搜,app三大块. opensearch在使用中表现稳定可靠,每天平均latency 40ms,平均qps 2500. [使用过程] 神马小说团队有着资深的搜索背景,在小说产品刚起步的时候,面临着自己搭建引擎或者选用opensearch的基础方向问题.当时选择opensearc…