scrapy 请求meta参数使用案例-豆瓣电影爬取

num = 0

import scrapy

from scrapy.http import HtmlResponse

from scrapy_demo.items import DoubanItem

"""

这个例子主要是学习meta传参。

"""

class DoubanSpider(scrapy.Spider):

    """爬取豆瓣top250"""

    name = "douban"

    allowed_domains = ["douban.com"]

    start_urls = ["https://movie.douban.com/top250"]

    def parse(self, response: HtmlResponse, **kwargs):

        item_list_xpath = '//div[@class="article"]/ol/li/div[@class="item"]'

        selector_list = response.xpath(item_list_xpath)

        num = 0

        for selector in selector_list:

          # 不爬太多数据了...

            if num >= 2:

                break

            num+=1

            doubanitem = DoubanItem()

            # 取出的数据有&nbsp;这个在unicode中会显示\xa0，所以替换成空格

            title = selector.xpath('./div[@class="info"]/div[@class="hd"]/a/span[@class="title"]/text()').get()\

                .strip().replace('\xa0', ' ')

            summary = selector.xpath('./div[@class="info"]/div[@class="bd"]/p[not(@class="quote")]/text()').get()\

                .strip().replace('\xa0', " ")

            score = selector.xpath(

                './div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').get()

            detail_url = selector.xpath('./div[@class="info"]/div[@class="hd"]/a/@href').get()

            # print(detail_url)

            doubanitem["title"] = title

            doubanitem["score"] = score

            doubanitem["summary"] = summary

            # yield doubanitem

            # 访问详情页

            yield scrapy.Request(

                url=detail_url, callback=self.parse_detail, meta={"item": doubanitem},

                headers={

                    "Host": "movie.douban.com",

                    "Referer": "https://movie.douban.com/top250",

                    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"

                }

            )

    def parse_detail(self, response: HtmlResponse):

        print("enter detail parse")

        # print(response.text)

        doubanitem = response.meta.get("item")

        desc = response.xpath('//span[@property="v:summary"]/text()').get()

        # callback中的修改对传递进来的meta中的字典不会影响原来字典中的值，这玩意估计是deepcopy一份了,,,草...

        doubanitem["desc"] = desc

        yield doubanitem

scrapy 请求meta参数使用案例-豆瓣电影爬取的更多相关文章

Python登录豆瓣并爬取影评
上一篇我们讲过Cookie相关的知识,了解到Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自 ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...
单线程多任务协程vip电影爬取
单线程多任务协程vip电影爬取 --仅供学习使用勿作商用如有违规后果自负!!! 这几天一直在使用python爬取电影,主要目的也是为了巩固前段时间强化学习的网络爬虫,也算是一个不错的检验吧,面对众 ...
神技！微信小程序（应用号）抢先入门体验（附最新案例-豆瓣电影）持续更新
微信小程序 Demo(豆瓣电影) 由于时间的关系,没有办法写一个完整的说明,后续配合一些视频资料,请持续关注官方文档:https://mp.weixin.qq.com/debug/wxadoc/de ...
Python爬虫入门教程：豆瓣Top电影爬取
基本开发环境 Python 3.6 Pycharm 相关模块的使用 requests parsel csv 安装Python并添加到环境变量,pip安装需要的相关模块即可. 爬虫基本思路一. ...
Scrapy分布式爬虫打造搜索引擎- (二)伯乐在线爬取所有文章
二.伯乐在线爬取所有文章 1. 初始化文件目录基础环境 python 3.6.5 JetBrains PyCharm 2018.1 mysql+navicat 为了便于日后的部署:我们开发使用了虚拟 ...
Python Scrapy的QQ音乐爬虫音乐下载、爬取歌曲信息、歌词、精彩评论
QQ音乐爬虫(with scrapy)/QQ Music Spider UPDATE 2019.12.23 已实现对QQ音乐文件的下载,出于版权考虑,不对此部分代码进行公开.此项目仅作为学习交流使用, ...
猫眼电影爬取(一)：requests+正则，并将数据存储到mysql数据库
前面讲了如何通过pymysql操作数据库,这次写一个爬虫来提取信息,并将数据存储到mysql数据库 1.爬取目标爬取猫眼电影TOP100榜单要提取的信息包括:电影排名.电影名称.上映时间.分数 2 ...
Scrapy教程——搭建环境、创建项目、爬取内容、保存文件
1.创建项目在开始爬取之前,您必须创建一个新的Scrapy项目.进入您打算存储代码的目录中,运行新建命令. 例如,我需要在D:\00Coding\Python\scrapy目录下存放该项目,打开命令 ...
Scrapy：腾讯招聘整站数据爬取
项目地址:https://hr.tencent.com/ 步骤一.分析网站结构和待爬取内容以下省略一万字步骤二.上代码(不能略了) 1.配置items.py import scrapy class ...

随机推荐

升级java11后，maven命令打包报错
一.问题升级java11后,maven命令打包报错: mvn clean package -Dmaven.test.skip=true [ERROR] Failed to execute goal ...
JavaScript中的浅拷贝与深拷贝
前言 JavaScript中的浅拷贝和深拷贝是非常重要的概念,它们在处理对象和数组时具有不同的作用.在编程中,经常需要复制数据以便进行各种操作,但必须注意拷贝的方式,以确保得到预期的结果. 浅拷贝是创 ...
使用js开发一个快速打开前端项目的alfred插件
使用js开发一个快速打开前端项目的插件目录前言使用的技术栈步骤问题发现待优化前言一直以来开发都是先打开vscode,然后选择项目,在项目多的情况下会觉得挺繁琐:如果同时打开了许多vsc ...
爬虫系列——Scrapy
文章目录一介绍二安装三命令行工具四项目结构以及爬虫应用简介五 Spiders 六 Selectors 七 Items 八 Item Pipeline 九 Dowloader Midd ...
OPPO主题组件开发 - 组件内容自适应
OPPO桌面有 3*5.3*6.4*5.4*6.5*5.5*6 等布局,随着布局不同,组件大小也会发生改变:不同型号手机分辨率不同,组件大小也不一致.这就要求组件内容做到自适应. 说明 OPPO主题组 ...
基于AI模型的验证码安全识别(B站，知乎等)
bilibili 汉字识别顺序验证码实现基本思路: 先利用Selenium模拟登录,当然在这之前做好请求伪装,get方法使边框最大化,并且将系统的windows窗口缩放比例设置为100%, ...
2006年piner的面试题
数据库切换日志的时候,为什么一定要发生检查点?这个检查点有什么意义?表空间管理方式有哪几种,各有什么优劣.本地索引与全局索引的差别与适用情况.一个表a varchar2(1),b number(1), ...
在 kubernetes 环境中实现 gRPC 负载均衡
前言前段时间写过一篇 gRPC 的入门文章,在最后还留了一个坑没有填: 也就是 gRPC 的负载均衡问题,因为当时的业务请求量不算大,再加上公司没有对 Istio 这类服务网格比较熟悉的大牛,所以我 ...
Lora升级！ReLoRa！最新论文 High-Rank Training Through Low-Rank Updates
关注公众号TechLead,分享AI与云服务技术的全维度知识.作者拥有10+年互联网服务架构.AI产品研发经验.团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专 ...
什么是yaml格式与json格式
什么是yaml格式与json格式 yaml格式:文件名格式以 .yml .yaml 为后缀,用空格缩进表示字段的层级关系,可读性高,易于人类管理 yaml格式布尔值类型:只有在是true/fal ...

scrapy 请求meta参数使用案例-豆瓣电影爬取

scrapy 请求meta参数使用案例-豆瓣电影爬取的更多相关文章

随机推荐

热门专题