Scrapy框架(五)--请求传参

在某些情况下，我们爬取的数据不在同一个页面中，例如，我们爬取一个电影网站，电影的名称，评分在一级页面，而要爬取的其他电影详情在其二级子页面中。

这时我们就需要用到请求传参。

请求传参的使用场景

当我们使用爬虫爬取的数据没有存在于同一张页面的时候，则必须使用请求传参。（深度爬取）

示例：爬取boss的岗位名称，岗位描述

# -*- coding: utf-8 -*-

import scrapy

from bossPro.items import BossproItem

class BossproSpider(scrapy.Spider):

    name = 'bosspro'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.zhipin.com/c100010000-p100109/?ka=search_100109']

    url = 'https://www.zhipin.com/c100010000-p100109/?page=%s&ka=page-%s'

    page_num = 2

    def detail_parse(self,response):

        job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()

        job_desc = ''.join(job_desc)

        item = response.meta.get('item')

        item['job_desc'] = job_desc

        print(job_desc)

        yield item

    def parse(self, response):

        print(response.text)

        li_list = response.xpath('//*[@id="main"]/div/div[2]/ul/li')

        print(li_list)

        for li in li_list:

            item = BossproItem()

            job_name = li.xpath('.//div[@class="job-title"]/span[1]/a/text()').extract_first()

            detail_url = 'https://www.zhipin.com'+li.xpath('.//div[@class="job-title"]/span[1]/a/@href').extract_first()

            print(detail_url)

            print(job_name)

            item['job_name'] = job_name

            # meta可以将参数 传递给回调的函数

            yield scrapy.Request(url=detail_url,callback=self.detail_parse,meta={'item':item})

            # 请求传参就是将不同页面请求到的数据封装到item中 存储在管道 可通过meta参数传递item

        if self.page_num <=5:

            new_url = format(self.url % (self.page_num,self.page_num))

            self.page_num+=1

            yield scrapy.Request(url=new_url,callback=self.parse)

Scrapy框架(五)--请求传参的更多相关文章

scrapy框架3——请求传参
当使用scrapy爬取的数据不在同一张页面中(一次请求与数据后解析无法获得想要的全部数据),需要请求传参,在第一次解析时实例化item,将item传递,再次将请求到的数据解析后,封装在item中. 关 ...
python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件
# settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l ...
scrapy框架post请求发送，五大核心组件，日志等级，请求传参
一.post请求发送 - 问题:爬虫文件的代码中,我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送,但是起始url的确是进行了请求的发送,那这是如何实现的呢? - 解答: ...
scrapy框架的日志等级和请求传参, 优化效率
目录 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级请求传参如何提高scripy的爬取效率 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级在使 ...
13.scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是s ...
scrapy框架的日志等级和请求传参
日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息 ...
scrapy框架之日志等级和请求传参-cookie-代理
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
爬虫开发10.scrapy框架之日志等级和请求传参
今日概要日志等级请求传参今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志 ...
Scrapy框架之日志等级和请求传参
一.Scrapy的日志等级在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. 1.日志等级(信息种类) ERROR:错误 WARN ...
13，scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy ...

随机推荐

新手小白-创建IDEA项目（ IDEA 2021.2.1 版本）
好久没打开IDEA这个软件,我发现连项目怎么具体创建都不知道了,哭唧唧~记录一下创建项目: 1.先创建一个空项目,点击[File] -- > [New] --> [Project]; 2 ...
Serverless 在阿里云函数计算中的实践
简介: 近日,阿里云 aPaaS&Serverless 前端技术专家袁坤在 CSDN 云原生 meetup 长沙站分享了 Serverless 在阿里云函数计算 FC 的实践. 作者:CSDN ...
[FAQ] Goland 始终没有包代码的提示？
表现:import 引入的包始终是红色的,表示没有找到引入的包. 注意,在这里开启Go Modules: 然后在 Exteneral Libraries 里看到 Go Modules 即可. Refe ...
[Gin] gin-jwt 中间件的请求流程与使用思路
gin-jwt 中间件是对 jwt-go 的封装以适应 gin 框架.gin-jwt 对不同的请求流程有不同的 handler: 登录请求流程是用 LoginHandler. 需要 jwt 令牌的后 ...
4.prometheus监控--监控linux服务器
一.监控linux服务器 1.1 二进制安装 # 客户端操作wget https://github.com/prometheus/node_exporter/releases/download/v1. ...
python使用pysql操作MySQL数据库
前言 pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同.但目前pymysql支持python3.x而后者不支持3.x版本. 本文测试python版本:2.7.11. ...
自动生成robot自动化测试用例
背景:java项目使用swagger管理接口,随着需求的开发接口也有增加,要从swagger界面中去查找出新增的接口是件很费时,效率很低的事情. 适用情况: java项目且适用swagger管理接口 ...
EasyRepro与测试自动化（一）概览
EasyRepro是一个框架,允许在特定的Dynamics 365组织上执行自动化UI测试.你可以使用它来自动化冒烟测试.回归测试和负载测试等.该框架是由开源项目Selenium构建的,Seleniu ...
Git/SourceTree版本管理
目录视频课程: 工作区: 文件状态: 回退版本: 合并分支合并提交冲突删除分支忽略文件汉英对照表多端同步添加远程仓库推送代码到远程仓库拉取代码视频课程: https://www. ...
fastposter v2.8.3 发布电商海报生成器
fastposter v2.8.3 发布电商海报生成器 fastposter海报生成器,电商海报编辑器,电商海报设计器,fast快速生成海报海报制作海报开发.贰维海报,图片海报,分享海报贰维码推 ...

Scrapy框架(五)--请求传参

Scrapy框架(五)--请求传参的更多相关文章

随机推荐

热门专题