爬起点小说 day01

先介绍下我自己爬起点小说的思路：

1.爬取所有的类型列表
a.链接存redis中类型表：novel_list 具体每一种类型：bnovel_all_list（把novel_list和bnovel_list合并为bnovel_list）
b.名字存到mongodb中，构成树链表表名： bnovel_all_list
2.爬取小说的名字和链接(redis:all_novel_href （只需要novels 的id） mongodb:novels上一个id作为标签)
小说表：每次添加，去重（如果有就更新mongodb的数据(根据redis的id)，没有就添加到mongodb中）（可能没有重复的）
所有链接都放到redis（id(mongodb的id)+url）中，把小说名放到mongodb中
3.爬小说的首页：
1.爬取作者，书的状态（连载or完结）（更新到mongodb中）
4.根据目录去爬取所有的章节（mongodb中章名作为键，内容存的文件位置作为值）（在mongodb中可以把汉字作为键）（mongodb章节表）
vip:章节的处理，爬还是不爬？爬（要的只是书的数量，内容无所谓）
连载和完结的处理：将所有未完结书的最后一章链接都存到redis中，格式为书的id+链接
每天根据这个链接去查看有没有下一章，有就去爬取，并更改mongodb的数据库，并把链接更新（
redis的lrange or lpop操作?）
（先执行每天的查看，未完结的每次都去爬书的首页，完结就修改mongodb的数据，未完结就pass）

过几天介绍上代码

爬起点小说 day01的更多相关文章

爬起点小说 day02
总的来说起点小说还是挺好爬的,就是爬取小说的时候太慢了,4000多本小说就爬了2天一夜首先爬取的是网页的所有类别,并把类别名存入到mongodb中,链接存到redis中: import scrapy ...
爬起点小说day03
# 把所有类别的前3页的小说爬取下来 import scrapyfrom scrapy.http import Requestfrom time import sleepfrom qidianNove ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
python之爬取小说
继上一篇爬取小说一念之间的第一章,这里将进一步展示如何爬取整篇小说 # -*- coding: utf- -*- import urllib.request import bs4 import re ...
用Python爬取小说《一念永恒》
我们首先选定从笔趣看网站爬取这本小说. 然后开始分析网页构造,这些与以前的分析过程大同小异,就不再多叙述了,只需要找到几个关键的标签和user-agent基本上就可以了. 那么下面,我们直接来看代码. ...
Scrapy爬取小说简单逻辑
Scrapy爬取小说简单逻辑一准备工作 1)安装Python 2)安装PIP 3)安装scrapy 4)安装pywin32 5)安装VCForPython27.exe ........... 具体 ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
python3下BeautifulSoup练习一（爬取小说）
上次写博客还是两个月以前的事,今天闲来无事,决定把以前刚接触python爬虫时的一个想法付诸行动:就是从网站上爬取小说,这样可以省下好多流量(^_^). 因为只是闲暇之余写的,还望各位看官海涵:不足之 ...

随机推荐

Java常用类（一）之Object类详解
大家都知道Object是所有类的父类,任何类都默认继承Object 理论上Object类是所有类的父类,即直接或间接的继承java.lang.Object类.由于所有的类都继承在Object类,因此省 ...
Akka（30）： Http：High-Level-Api，Routing DSL
在上篇我们介绍了Akka-http Low-Level-Api.实际上这个Api提供了Server对进来的Http-requests进行处理及反应的自定义Flow或者转换函数的接入界面.我们看看下面官 ...
80端口被系统服务【kernel&System】占用解决方案
netstat -ano | findstr port //查看端口占用情况 tasklist | findstr port //查看端口被占用的具体服务名运行net stop http ...
（转）Java中使用正则表达式的一个简单例子及常用正则分享
转自:http://www.jb51.net/article/67724.htm 这篇文章主要介绍了Java中使用正则表达式的一个简单例子及常用正则分享,本文用一个验证Email的例子讲解JAVA中如 ...
iOS 通讯录空格
iOS 通讯录联系人出现 ASCII 码值为 160 的空格 NOTE: 这里的"空格"是指在通讯录中取出的联系人中带有特殊空格带有特殊空格的字符串 " ...
Memcached理解
一.Memcached简介: 1. Memcached是一个自由开源的,高性能的,分布式内存对象缓存系统. 2. Memcached是一种基于内存的key-value存储,用来存储小块的任意数据(字符 ...
Bootstrap的核心——栅格系统的使用
前言絮叨絮叨 Bootstrap 是基于 HTML.CSS.JAVASCRIPT 的,它简洁灵活,使得 Web 开发更加快捷. 而栅格系统是Bootstrap中的核心,正是因为栅格系统的 ...
1053: [HAOI2007]反素数ant
1053: [HAOI2007]反素数ant Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 3480 Solved: 2036[Submit][St ...
Re.findall() & Re.finditer()的用法
re.findall(pattern, string, flags=0) Return all non-overlapping matches of pattern in string, as a l ...
Hibernate的基础入门(一)
一Java三层结构 1 web层:struts框架 2 service层:Spring框架 3 dao层 :hibernate框架相当于MVC的思想 1 M:模型èhibernate框架 2 V: ...

爬起点小说 day01

爬起点小说 day01的更多相关文章

随机推荐

热门专题