一个简单的scrapy爬虫demo

爬取豆瓣top250的电影名称＋电影口号

使用到持久化流程：

爬虫文件爬取到数据后，需要将数据封装到items对象中。
使用yield关键字将items对象提交给pipelines管道进行持久化操作。
settings.py配置文件中开启管道

同时完成多页爬取

【douban.py】

import scrapy

from ..items import ScPachongItem

class DoubanSpider(scrapy.Spider):

    name = 'douban'

    start_urls = [

        'https://movie.douban.com/top250',

    ]

    allowed_domains = ["douban.com"]

    pageNum = 0  # 起始页码

    # 爬取多页

    url = 'https://movie.douban.com/top250?start={}&filter='  # 每页的url

    #解析函数

    def parse(self, response):

        # xpath为response中的方法，可以将xpath表达式直接作用于该函数中

        odiv = response.xpath('//div[@class="item"]')

        for div in odiv:

            # xpath函数返回的为列表，列表中存放的数据为Selector类型的数据。我们解析到的内容被封装在了Selector对象中，需要调用extract()函数将解析的内容从Selecor中取出。

            name = div.xpath('.//span[@class="title"]/text()')[0].extract()

            slogan = div.xpath('.//span[@class="inq"]/text()')[0].extract()

            item = ScPachongItem()

            item['name'] = name

            item['slogan'] = slogan

            yield item

        # 爬取所有页码数据

        self.pageNum += 25

        if self.pageNum <= 250:  # 一共爬取250条数据（共10页）

            url = self.url.format(self.pageNum)

            # 递归爬取数据：callback参数的值为回调函数（将url请求后，得到的相应数据继续进行parse解析），递归调用parse函数

            yield scrapy.Request(url=url, callback=self.parse)

【pipelines.py】

对item的操作可以双路开，

比如保存成data.txt和保存到MySQL中

只需要重新定义一个类

然后在【settings.py】中保存值，就会按照保存值的大小先后进行。

【【值越小，优先级别越高】】

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

# useful for handling different item types with a single interface

from itemadapter import ItemAdapter

class ScPachongPipeline:

    def __init__(self):

        self.fp = None

    def open_spider(self,spider):

        print('爬虫开始')

        self.fp = open('./data.txt', 'w')

    def process_item(self, item, spider):

        # self.fp.write(item['name'] + '\n')

        self.fp.write(item['name'] + ':' + item['slogan'] + '\n')

        return item

    #结束爬虫时，执行一次

    def close_spider(self,spider):

        self.fp.close()

        print('爬虫结束')

【【两种持久化操作方式】】

#该类为管道类，该类中的process_item方法是用来实现持久化存储操作的。

class DoublekillPipeline(object):

    def process_item(self, item, spider):

        #持久化操作代码 （方式1：写入磁盘文件）

        return item

#如果想实现另一种形式的持久化操作，则可以再定制一个管道类：

class DoublekillPipeline_db(object):

    def process_item(self, item, spider):

        #持久化操作代码 （方式1：写入数据库）

        return item

复制代码

【items.py】

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class ScPachongItem(scrapy.Item):

    # define the fields for your item here like:

    name = scrapy.Field()

    slogan = scrapy.Field()

    pass

【settings.py】

在ITEM_PIPELINES中可以调整300、200这种权值大小，调整item存取的先后。

# Scrapy settings for sc_pachong project

#

# For simplicity, this file contains only settings considered important or

# commonly used. You can find more settings consulting the documentation:

#

#     https://docs.scrapy.org/en/latest/topics/settings.html

#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html

#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'sc_pachong'

SPIDER_MODULES = ['sc_pachong.spiders']

NEWSPIDER_MODULE = 'sc_pachong.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)

#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)

# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay

# See also autothrottle settings and docs

#DOWNLOAD_DELAY = 3

# The download delay setting will honor only one of:

#CONCURRENT_REQUESTS_PER_DOMAIN = 16

#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)

#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)

#TELNETCONSOLE_ENABLED = False

# Override the default request headers:

#DEFAULT_REQUEST_HEADERS = {

#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

#   'Accept-Language': 'en',

#}

# Enable or disable spider middlewares

# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html

#SPIDER_MIDDLEWARES = {

#    'sc_pachong.middlewares.ScPachongSpiderMiddleware': 543,

#}

# Enable or disable downloader middlewares

# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html

#DOWNLOADER_MIDDLEWARES = {

#    'sc_pachong.middlewares.ScPachongDownloaderMiddleware': 543,

#}

# Enable or disable extensions

# See https://docs.scrapy.org/en/latest/topics/extensions.html

#EXTENSIONS = {

#    'scrapy.extensions.telnet.TelnetConsole': None,

#}

# Configure item pipelines

# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

   'sc_pachong.pipelines.ScPachongPipeline': 300,

}

# Enable and configure the AutoThrottle extension (disabled by default)

# See https://docs.scrapy.org/en/latest/topics/autothrottle.html

#AUTOTHROTTLE_ENABLED = True

# The initial download delay

#AUTOTHROTTLE_START_DELAY = 5

# The maximum download delay to be set in case of high latencies

#AUTOTHROTTLE_MAX_DELAY = 60

# The average number of requests Scrapy should be sending in parallel to

# each remote server

#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0

# Enable showing throttling stats for every response received:

#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)

# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings

#HTTPCACHE_ENABLED = True

#HTTPCACHE_EXPIRATION_SECS = 0

#HTTPCACHE_DIR = 'httpcache'

#HTTPCACHE_IGNORE_HTTP_CODES = []

#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

最终爬取结果，保存为data.txt

肖申克的救赎:希望让人自由。

霸王别姬:风华绝代。

阿甘正传:一部美国近现代史。

泰坦尼克号:失去的才是永恒的。

这个杀手不太冷:怪蜀黍和小萝莉不得不说的故事。

千与千寻:最好的宫崎骏，最好的久石让。

美丽人生:最美的谎言。

辛德勒的名单:拯救一个人，就是拯救整个世界。

星际穿越:爱是一种力量，让我们超越时空感知它的存在。

、、、

、、、

、、、【不予展开了】

也可以通过命令行，保存成json格式。

平时可以不通过命令行运行 scrapy

只需要在最外围定义【run.py】

# -*- coding: utf-8 -*-

from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'douban'])

运行此函数能直接是爬虫跑起来

保存json格式时

定义【save.py】

# -*- coding: utf-8 -*-

from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'douban','-o', 'items.json','-t','json'])

以上两个模块的【douban】、【items】.json根据自己需要修改

[scrapy]一个简单的scrapy爬虫demo的更多相关文章

做一个简单的scrapy爬虫
前言: 做一个简单的scrapy爬虫,带大家认识一下创建scrapy的大致流程.我们就抓取扇贝上的单词书,python的高频词汇. 步骤: 一,新建一个工程scrapy_shanbay 二,在工程中中 ...
一个简单的webservice的demo（下）winform异步调用webservice
绕了一大圈,又开始接触winform的项目来了,虽然很小吧.写一个winform的异步调用webservice的demo,还是简单的. 一个简单的Webservice的demo,简单模拟服务一个简单 ...
一个简单的Webservice的demo(中)_前端页面调用
首先新建项目,这里有两种调用方式,为了能方便理解,新建页面WebserviceTest如下图: 先引用写好的服务,这里用上次写好的服务.见上次写的一个简单的Webservice的demo,简单模拟服务 ...
一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html 自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息. 爬虫主要是获 ...
Java实现一个简单的网络爬虫
Java实现一个简单的网络爬虫 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWri ...
一个简单的C#爬虫程序
这篇这篇文章主要是展示了一个C#语言如何抓取网站中的图片.实现原理就是基于http请求.C#给我们提供了HttpWebRequest和WebClient两个对象,方便发送请求获取数据,下面看如何实 1 ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址
一.第一步是创建一个scrapy项目 sh-3.2# scrapy startproject liuyifeiImage sh-3.2# chmod -R 777 liuyifeiImage/ 二.分 ...
一个简单的Webservice的demo,简单模拟服务
前段时间一直在学习WCF,匆匆忙忙的把<WCF全面解析>和<WCF服务编程>看了一遍,好多东西都不是很懂,又听了一下WCF分布式开发的网络教程,算是马马虎虎的明白点了.回顾了一 ...

随机推荐

Vue的数据更新，页面不更新的解决办法
可能原因更新的数据跟源数据不是同一个,即不是同一个引用解决办法最稳妥的办法,可通过拿到源数据取索引的方式进行数据的更新,如: 有一个源数据叫:originData 那么如果在更新时,通过this ...
QA|Pycharm：allure : 无法将“allure”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路径正确，然后再试一次。|Allure
Pycharm中生成allure测试报告时报错如图: 单独执行allure --version也不行,cmd这样执行也报同样的错网上查了说是环境变量问题,加一下cmd可以了,重启pycharm也可 ...
LeetCode--1039
Smiling & Weeping ----我总是躲在梦与季节的身处, 听花与黑夜唱尽梦魇, 唱尽繁华,唱断所有记忆的来路. 题目链接:1039. 多边形三角剖分的最低得分 - 力扣(Leet ...
万字长文深度解读Java线程池，硬核源码分析
前言本文将深入分析Java线程池的源码,包括线程池的创建.任务提交.工作线程的执行和线程池的关闭等过程.通过对线程池源码的解析,我们能够更好地理解线程池的原理和机制,为我们在实际开发中合理使用线程池 ...
CocoaPods 在iOS开发中养活了这么多项目，它到底是个啥？
对于iOS开发者而言,CocoaPods并不陌生,通过pod相关的命令操作,就可以很方便的将项目中用到的三方依赖库资源集成到项目环境中,大大的提升了开发的效率.CocoaPods作为iOS项目的包管理 ...
centos7离线安装docker和docker-compose
1.找一台可联网的centos7主机在这台可以联网的机器上把离线包都下载好. 2.下载docker rpm安装包和相关依赖 ## 安装yum-utils包,添加docker yum源 sudo yu ...
秋招还没Offer怎么办？
如果你是双非院线.没有实习经历.没有出众的技术(算法没刷一千道,也没做过 Spring Cloud 项目).现在还没有面试(或只有少量的面试).并且目前还没有 Offer,那么恭喜你,你和目前大部分同 ...
ElasticSearch系列——文档操作
文章目录 Elasticsearch的增删查改(CURD) 一 CURD之Create 二 CURD之Update 三 CURD之Delete 四 CURD之Retrieve Elasticsearc ...
maven error
1 [INFO] Assembling webapp [crm9] in [/home/wukongcrm/72crm-java/target/ROOT] 2 [INFO] Processing wa ...
如何通过代码混淆绕过苹果机审，解决APP被拒问题
目录 iOS代码混淆功能分析实现流程类名修改方法名修改生成垃圾代码替换png等静态资源MD5 info.plist文件添加垃圾字段功能分析实现流程类名修改方法名修改生成垃圾代码 ...

[scrapy]一个简单的scrapy爬虫demo

一个简单的scrapy爬虫demo

爬取豆瓣top250的电影名称＋电影口号

[scrapy]一个简单的scrapy爬虫demo的更多相关文章

随机推荐

热门专题