scrapy 请求传参

class MovieSpider(scrapy.Spider):

    name = 'movie'

    allowed_domains = ['www.id97.com']

    start_urls = ['http://www.id97.com/']

    def parse(self, response):

        div_list = response.xpath('//div[@class="col-xs-1-5 movie-item"]')

        for div in div_list:

            item = MovieproItem()

            item['name'] = div.xpath('.//h1/a/text()').extract_first()

            item['score'] = div.xpath('.//h1/em/text()').extract_first()

            #xpath(string(.))表示提取当前节点下所有子节点中的数据值（.）表示当前节点

            item['kind'] = div.xpath('.//div[@class="otherinfo"]').xpath('string(.)').extract_first()

            item['detail_url'] = div.xpath('./div/a/@href').extract_first()

            #请求二级详情页面，解析二级页面中的相应内容,通过meta参数进行Request的数据传递

            yield scrapy.Request(url=item['detail_url'],callback=self.parse_detail,meta={'item':item})

    def parse_detail(self,response):

        #通过response获取item

        item = response.meta['item']

        item['actor'] = response.xpath('//div[@class="row"]//table/tr[1]/a/text()').extract_first()

        item['time'] = response.xpath('//div[@class="row"]//table/tr[7]/td[2]/text()').extract_first()

        item['long'] = response.xpath('//div[@class="row"]//table/tr[8]/td[2]/text()').extract_first()

        #提交item到管道

        yield item

scrapy 请求传参的更多相关文章

scrapy请求传参-BOSS反爬
scrapy请求传参-BOSS反爬思路总结首先boss加了反爬是cookies的爬取的内容为职位和职位描述 # -*- coding: utf-8 -*- import scrapy from ...
Scrapy请求传参
scrapy.Request(url=url, callback=self.parse_item, meta={'item': item}, headers=headers) url: 要请求的地址 ...
爬虫scrapy组件请求传参,post请求,中间件
post请求在scrapy组件使用post请求需要调用 def start_requests(self): 进行传参再回到 yield scrapy.FormRequest(url=url,form ...
scrapy (三) : 请求传参
scrapy 请求传参 1.定义数据结构item.py文件 ''' field: item.py ''' # -*- coding: utf-8 -*- # Define here the model ...
13.scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是s ...
scrapy框架的日志等级和请求传参
日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息 ...
scrapy框架之日志等级和请求传参-cookie-代理
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
Scrapy的日志等级和请求传参
日志等级日志信息: 使用命令:scrapy crawl 爬虫文件运行程序时,在终端输出的就是日志信息: 日志信息的种类: ERROR:一般错误: WARNING:警告: INFO:一般的信息: ...
爬虫开发10.scrapy框架之日志等级和请求传参
今日概要日志等级请求传参今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志 ...

随机推荐

Module in powershell
https://docs.microsoft.com/en-us/powershell/module/powershellget/install-module?view=powershell-6 ht ...
inexact rename detection was skipped due to too many files
https://stackoverflow.com/a/28064699 error: add_cacheinfo failed to refresh for path 'LISA.Kentico.U ...
qemu-kvm磁盘读写的缓冲(cache)的五种模式
qemu-kvm磁盘读写的缓冲(cache)模式一共有五种,分别是writethrough, wirteback, none, unsafe, directsync当你对VM读写磁盘的性能有不同的要求 ...
【CJOJ】Contest4 - A+B Series
Position:http://oj.changjun.com.cn/contest.php?cid=4 A经典题目 // <A.cpp> - Sun Oct 9 15:28:01 201 ...
css3 混合模式mix-blend-mode background-blend-mode 以及混合模式的隔断 isolation
css 混合模式 mix-blend-mode: 让元素内容和这个元素以及下面的元素发生混合 background-blend-mode 背景的混合模式可以是背景图片的混合也可以是背景图 ...
asp.net mvc4 新特性
摘自:ASP.MVC Web编程几种模板的解释
Scanner类nextLine()和next()的区别和使用方法
next()一定要读取到有效字符后才可以结束输入,对输入有效字符之前遇到的空格键.Tab键或Enter键等结束符,next()方法会自动将其去掉,只有在输入有效字符之后,next()方法才将其后输入的 ...
Python机器学习算法 — 关联规则（Apriori、FP-growth）
关联规则 -- 简介关联规则挖掘是一种基于规则的机器学习算法,该算法可以在大数据库中发现感兴趣的关系.它的目的是利用一些度量指标来分辨数据库中存在的强规则.也即是说关联规则挖掘是用于知识发现,而非预 ...
python 模块 module 规范
# /usr/bin/python # -*- coding=utf-8 -*- """This is a standard module""&quo ...
spoj 371 Boxes【最小费用最大流】
对于ai==0连接(i,t,1,0),对于ai>1(s,i,ai-1,0),然后对以相邻的两个点(i,j)连接(i,j,inf,1),注意这里是一个环的形式,所以1和n+1相连 #include ...

scrapy 请求传参

scrapy 请求传参的更多相关文章

随机推荐

热门专题