Scrapy 应用之爬取《盗墓笔记》

爬取《盗墓笔记》和爬取《宦海沉浮》原理一样，但是使用了两种不同的追踪链接的方式，《盗墓笔记》使用的是跟踪下一页链接，直至没有下一页为止，《宦海沉浮》则是将所有的url都放在start_urls中进行爬取

第一步：新建项目

KeysdeMacBook:Desktop keys$ scrapy startproject Novel

New Scrapy project 'Novel', using template directory '/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/scrapy/templates/project', created in:

    /Users/keys/Desktop/Novel

You can start your first spider with:

    cd Novel

    scrapy genspider example example.com

第二步：创建爬虫

KeysdeMacBook:Desktop keys$ cd Novel/

KeysdeMacBook:MyCrawl keys$ scrapy genspider BiJi www.mossiella.com/html/255.html

第三步：配置item.py

# -*- coding: utf-8 -*-

import scrapy

class NovelItem(scrapy.Item):

    url = scrapy.Field()

    title = scrapy.Field()

    content = scrapy.Field()

第四步：编写爬虫

# -*- coding: utf-8 -*-

import scrapy

from Novel.items import NovelItem

class BijiSpider(scrapy.Spider):

    name = 'BiJi'

    allowed_domains = ['www.mossiella.com']

    start_urls = ['http://www.mossiella.com/html/255.html/']

    def parse(self, response):

        url = response.url

        title = response.xpath('//h1/text()').extract_first('')

        content = ','.join(response.xpath('//div[@class="zwcent"]/p/text()').extract())

        myitem = NovelItem()

        myitem['url'] = url

        myitem['title'] = title

        myitem['content'] = content

        yield myitem

        next_url = response.xpath('//a[@rel="next"]')

        if next_url:

            url = next_url.css('::attr(href)').extract_first('')

            yield scrapy.Request(url=url, callback=self.parse)

第五步：配置pipeline.py

import pymysql

class MysqlPipeline(object):

    # 采用同步的机制写入mysql

    def __init__(self):

        self.conn = pymysql.connect(

            '127.0.0.1',

            'root',

            'rootkeys',

            'Article',

            charset="utf8",

            use_unicode=True)

        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

        insert_sql = """

            insert into BiJi(url, title, content)

            VALUES (%s, %s, %s)

        """

        # 使用VALUES实现传值

        self.cursor.execute(

            insert_sql,

            (item["url"],

             item["title"],

             item["content"]))

        self.conn.commit()

第六步：配置setting.py

BOT_NAME = 'Novel'

SPIDER_MODULES = ['Novel.spiders']

NEWSPIDER_MODULE = 'Novel.spiders'

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

ROBOTSTXT_OBEY = False

第七步：运行爬虫

import os

import sys

from scrapy.cmdline import execute

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

run_spider = 'BiJi'

if __name__ == '__main__':

    print('Running Spider of ' + run_spider)

    execute(['scrapy', 'crawl', run_spider])

Scrapy 应用之爬取《盗墓笔记》的更多相关文章

python爬虫-爬取盗墓笔记
本来今天要继续更新 scrapy爬取美女图片系列文章,可是发现使用免费的代理ip都非常不稳定,有时候连接上,有时候连接不上,所以我想找到稳定的代理ip,下次再更新 scrapy爬取美女图片之应对反 ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...
安居客scrapy房产信息爬取到数据可视化(下)-可视化代码
接上篇:安居客scrapy房产信息爬取到数据可视化(下)-可视化代码,可视化的实现~ 先看看保存的数据吧~ 本人之前都是习惯把爬到的数据保存到本地json文件, 这次保存到数据库后发现使用mongod ...
Scrapy定时执行爬取任务与定时关闭任务
当我们利用Python scrapy框架写完脚本后,脚本已经可以稳定的进行数据的爬取,但是每次需要手动的执行,太麻烦,如果能自动运行,在自动关闭那就好了,经过小编研究,完全是可以实现的,今天小编介绍2 ...
Scrapy爬虫笔记 - 爬取知乎
cookie是一种本地存储机制,cookie是存储在本地的 session其实就是将用户信息用户名.密码等)加密成一串字符串,返回给浏览器,以后浏览器每次请求都带着这个sessionId 状态码一般是 ...
scrapy框架 + selenium 爬取豆瓣电影top250......
废话不说,直接上代码..... 目录结构 items.py import scrapy class DoubanCrawlerItem(scrapy.Item): # 电影名称 movieName = ...
Scrapy实战篇（八）之Scrapy对接selenium爬取京东商城商品数据
本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据 ...
【scrapy】关于爬取的内容是Unicode编码
自己练习爬取拉钩网信息的时候爬取的信息如下: {'jobClass': [u'\u9500\u552e\u52a9\u7406'], 'jobUrl': u'https://www.lagou.com ...
scrapy 也能爬取妹子图？
目录前言 Media Pipeline 启用Media Pipeline 使用 ImgPipeline 抓取妹子图瞎比比前言我们在抓取数据的过程中,除了要抓取文本数据之外,当然也会有抓取图片的需 ...

随机推荐

centos7 更换jdk版本
查看java版本 java -version 如果有java版本(如果没有直接看红色虚线以下的) 输入 rpm -qa | grep java会显示以下几条内容: ******* ******** ...
SpringBoot整合国际化I18n
本文主要实现的功能: 从文件夹中直接加载多个国际化文件后台设置前端页面显示国际化信息的文件实现国际化项目初始化,简单看下项目的目录和文件在resource下创建国际化文件 messages.p ...
let和const注意点
let 一.块级作用域下面的代码如果使用var,最后输出的是10. var a = []; for (var i = 0; i < 10; i++) { a[i] = function () ...
PeopleSoft FSCM Production Support 案例分析
PeopleSoft FSCM Production Support 案例分析 2010年的时候曾建言博客园开辟Oracle ERP模块供大家交流,博客园如约开辟Oracle ERP 模块,而我后来却 ...
Selenium私房菜系列7 -- 玩转Selenium Server
本篇主要是想更进一步介绍Selenium Server的工作原理,这次我们从Selenium Server的交互模式开始. 在<第一个Selenium RC测试案例>中,我们以命令“jav ...
MyBatis插入数据之后返回插入记录的id
MyBatis插入数据的时候,返回该记录的id<insert id="insert" keyProperty="id" useGeneratedKeys= ...
POJ 1739 Tony's Tour （插头DP，轮廓线DP）
题意:给一个n*m的矩阵,其中#是障碍格子,其他则是必走的格子,问从左下角的格子走到右下角的格子有多少种方式. 思路: 注意有可能答案是0,就是障碍格子阻挡住了去路. 插头DP有两种比较常见的表示连通 ...
实验3 分支&循环语句（1）
part 1 1.在循环中使用控制语句continue和break,其功能区别是: continue:只控制本次循环的结束. break:终止并跳出循环,之后的循环也不再执行. 2.在两层嵌套循环中 ...
插入函数概念接收一个callback，然后外面函数，接一个对象，和一个next，外面都执行完了，继续执行下一个函数，相当于一个链状体，插入了一个函数的概念 | log4js 输出等于 console.info
插入函数概念接收一个callback,然后外面函数,接一个对象,和一个next,外面都执行完了,继续执行下一个函数,相当于一个链状体,插入了一个函数的概念 app.use(function (ctx ...
理解GloVe模型（Global vectors for word representation）
理解GloVe模型概述模型目标:进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息.输入:语料库输出:词向量方法概述:首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学 ...

Scrapy 应用之爬取《盗墓笔记》

Scrapy 应用之爬取《盗墓笔记》的更多相关文章

随机推荐

热门专题