scrapy爬取小说盗墓笔记

# -*- coding: utf-8 -*-

import scrapy

from daomu.items import DaomuItem

class DaomuspiderSpider(scrapy.Spider):

    name = "daomuspider"

    # allowed_domains = ["www.daomubiji.com"]

    start_urls = ['http://www.daomubiji.com/']

    index_url = 'http://www.daomubiji.com/'

    def start_requests(self):

        yield scrapy.Request(url=self.index_url,callback=self.parse_book)

    def parse_book(self, response):

        for url in response.css('.article-content a'):

            book_url = url.css('a::attr(href)').extract_first()

            yield scrapy.Request(url=book_url, callback=self.parse_chapter)

    def parse_chapter(self, response):

        item = DaomuItem()

        book_title = response.css('.focusbox .container h1::text').extract_first()

        book_info = response.css('.focusbox .container .focusbox-text::text').extract_first()

        book_url = response.url

        for chapter in response.css('.excerpts-wrapper .excerpts .excerpt'):

            chapter_title = chapter.css('a::text').extract_first().split(' ')[1] + ':'+ chapter.css('a::text').extract_first().split(' ')[-1]

            chapter_url = chapter.css('a::attr(href)').extract_first()

            item['book_title'] = book_title

            item['book_info'] = book_info

            item['book_url'] = book_url

            item['chapter_title'] = chapter_title

            item['chapter_url'] = chapter_url

            yield item

            yield scrapy.Request(url = chapter_url,callback=self.parse_detail, meta={'item':item})#重点在这里,用meta进行转移到下一个函数

    def parse_detail(self, response):

        item = response.meta['item']

        content = response.css('.article-content p::text').extract()

        item['content'] = content

        yield item

import pymongo

class DaomuPipeline(object):

    def __init__(self):

        self.mongo_uri = 'localhost'

        self.mongo_db = 'daomu'

    # @classmethod

    # def frow_crawler(cls, crawler):

    #     return cls(

    #         mongo_uri = crawler.settings.get('MONGO_URI'),

    #         mongo_db = crawler.settings.get('MONGO_DB')

    #     )

    def open_spider(self,spider):

        self.client = pymongo.MongoClient(self.mongo_uri)

        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):

        name = item.__class__.__name__

        self.db[name].insert(dict(item))#一定要注意这里用dict

        return item

    def close_spider(self, spider):

        self.client.close()

scrapy爬取小说盗墓笔记的更多相关文章

Scrapy爬取小说简单逻辑
Scrapy爬取小说简单逻辑一准备工作 1)安装Python 2)安装PIP 3)安装scrapy 4)安装pywin32 5)安装VCForPython27.exe ........... 具体 ...
python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库_20161201
1.爬取页面 http://www.quanshu.net/book/9/9055/ 2.用到模块urllib(网页下载),re正则匹配取得title及titleurl,urlparse(拼接完整ur ...
scrapy 爬取小说
QiushuSpider # -*- coding: utf-8 -*- import scrapy import time from qiushu.items import QiushuItem c ...
Scrapy 应用之爬取《盗墓笔记》
爬取<盗墓笔记>和爬取<宦海沉浮>原理一样,但是使用了两种不同的追踪链接的方式,<盗墓笔记>使用的是跟踪下一页链接,直至没有下一页为止,<宦海沉浮>则是 ...
小说免费看！python爬虫框架scrapy 爬取纵横网
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 风,又奈何 PS:如有需要Python学习资料的小伙伴可以加点击下方 ...
以豌豆荚为例，用 Scrapy 爬取分类多级页面
本文转载自以下网站:以豌豆荚为例,用 Scrapy 爬取分类多级页面 https://www.makcyun.top/web_scraping_withpython17.html 需要学习的地方: 1 ...
scrapy 爬取纵横网实战
前言闲来无事就要练练代码,不知道最近爬取什么网站好,就拿纵横网爬取我最喜欢的雪中悍刀行练手吧准备 python3 scrapy 项目创建: cmd命令行切换到工作目录创建scrapy项目两条命 ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...

随机推荐

Java-Integer源码分析
除了两种浮点型,剩下的几种基本数据类型的包装类几乎都实现了常量池,有好处用数据的时候直接去拿,没有再去创建,坏处是在程序编译的时候就存入大量数据不管用不用到.下面是一篇很好的文章,很详细,转自:htt ...
【Python】 SQLAlchemy的初步使用
SQLAlchemy 在很多Python的web框架中都整合进了SQLAlchemy这个主要发挥ORM作用的模块.所谓ORM,就是把复杂的SQL语句给包装成更加面向对象,易于理解的样子.在操作数据库的 ...
Spring Boot 2.0(五)：Docker Compose + Spring Boot + Nginx + Mysql 实践
我知道大家这段时间看了我写关于 docker 相关的几篇文章,不疼不痒的,仍然没有感受 docker 的便利,是的,我也是这样认为的,I know your felling . 前期了解概念什么的确实 ...
js和jquery实现显示隐藏
(选择的重要性) 当点击同一个按钮的时候实现显示影藏 <a id="link" class="b-btn-four task-resolve add-sub-tas ...
算法题丨Longest Consecutive Sequence
描述 Given an unsorted array of integers, find the length of the longest consecutive elements sequence ...
alpha-咸鱼冲刺day7（后续一波）-紫仪
总汇链接一,合照 emmmmm.自然还是没有的. 二,项目燃尽图三,项目进展正在写登陆+注册ing 注册搞出来了!!!!!!!!QAQ(喜极而泣!!!!.jpg) 四,问题困难数据流程大概是搞 ...
C语言第二次博客作业---分支结构陈张鑫
一.PTA实验作业题目1:计算分段函数[2] 本题目要求计算下列分段函数f(x)的值: 1.实验代码 int main(){double x,y; scanf("%lf",&am ...
RE:1054652545 - 论自己是如何蠢死的
1.Java web 项目中 login/list 文件夹中return "login/list" 反复读取不到对应的jsp文件一周后检查出来的原因上一级文件夹login前面多出 ...
我所知道的window.location
多说无益直接上干货假如一个地址为 http://127.0.0.1:5000/index.html?id=4 window.location.href -- 完整路径 -- http://127 ...
Linux的安装和使用技巧
LinuxCentOs开始设置一个普通的用户,如果想进入root用户,可以su然后设置密码,然后第二次再次输入su,然后输入相同的密码就可以进去了有很多命令需要在root下才能执行,但是在创建时却是 ...

scrapy爬取小说盗墓笔记

scrapy爬取小说盗墓笔记的更多相关文章

随机推荐

热门专题