Scrapy 框架 手动发送请求 POST 请求的发送
手动发送请求
import scrapy
from choutiSpider.items import ChoutispiderItem
class ChoutiSpider(scrapy.Spider):
name = 'chouti'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://dig.****.com/r/scoff/hot/1']
# 通用模板 url
url = 'https://dig.****.com/r/scoff/hot/%s'
page_num = 1
def parse(self, response):
div_list = response.xpath('//div[@id="content-list"]/div')
# print(div_list)
print(self.page_num)
for div in div_list:
content = div.xpath('./div[@class="news-content"]/div[1]/a/text()').extract_first().strip()
author = div.xpath('./div[@class="news-content"]/div[2]/a[4]/b/text()').extract_first()
# print(content, author)
item = ChoutispiderItem()
item['author'] = author
item['content'] = content
# 提交数据 到管道中
yield item
# 手动发送请求 分页爬取
if self.page_num < 120:
self.page_num += 1
new_url = self.url % self.page_num
# 发送请求 提交
yield scrapy.Request(url=new_url, callback=self.parse)
post 请求发送
# 在scrapy框架中默认情况下cookie会被自动处理,无需手动!
class PostdemoSpider(scrapy.Spider):
name = 'postdemo'
allowed_domains = ['www.xxx.com']
start_urls = ['https://fanyi.****.com/sug']
# 调用父类的 发送请求的 方法
def start_requests(self):
for url in self.start_urls:
data = {
'kw': 'cat'
}
yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)
def parse(self, response):
print(response.text)
在scrapy框架中默认情况下cookie会被自动处理,无需手动!
settings 配置:
# Disable cookies (enabled by default)
# COOKIES_ENABLED = False
请求传参:
- 二级详情页面 的 item 传递
import scrapy
from boosPro.items import BoosproItem
class BoosSpider(scrapy.Spider):
name = 'boos'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://www.****.com/c101010100/?query=python%E7%88%AC%E8%99%AB&page=1']
url = 'https://www.****.com/c101010100/?query=python%E7%88%AC%E8%99%AB&page=%s'
page_num = 1
def parse(self, response):
li_list = response.xpath('//div[@class="job-list"]/ul/li')
for li in li_list:
item = BoosproItem()
title = li.xpath('.//div[@class="job-title"]/text()').extract_first()
# 薪资 salary
salary = li.xpath('.//div[@class="info-primary"]/h3/a/span/text()').extract_first()
# 公司 company
company = li.xpath('.//div[@class="company-text"]/h3/a/text()').extract_first()
detail_url = 'https://www.zhipin.com' + li.xpath('.//div[@class="info-primary"]/h3/a/@href').extract_first()
item['title'] = title
item['salary'] = salary
item['company'] = company
# 对详情页的url进行手动请求的发送
yield scrapy.Request(url=detail_url, callback=self.parsrDetail, meta={'item': item})
if self.page_num <= 3:
self.page_num += 1
newUrl = self.url % self.page_num
yield scrapy.Request(url=newUrl, callback=self.parse)
# 用来解析详情页的相关的数据
def parsrDetail(self, response):
# 接收meta
item = response.meta['item']
job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()
company_content = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[2]/div/text()').extract_first()
job_desc = ' '.join(job_desc)
item['job_desc'] = job_desc
item['company_content'] = company_content
# print(job_desc, 1111111)
yield item
Scrapy 框架 手动发送请求 POST 请求的发送的更多相关文章
- scrapy框架的日志等级和请求传参, 优化效率
目录 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级 请求传参 如何提高scripy的爬取效率 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级 在使 ...
- scrapy框架之日志等级和请求传参-cookie-代理
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
- Scrapy框架之日志等级和请求传参
一.Scrapy的日志等级 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. 1.日志等级(信息种类) ERROR:错误 WARN ...
- 13.scrapy框架的日志等级和请求传参
今日概要 日志等级 请求传参 如何提高scrapy的爬取效率 今日详情 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是s ...
- scrapy框架的日志等级和请求传参
日志等级 请求传参 如何提高scrapy的爬取效率 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息 ...
- scrapy框架的日志等级和请求参数
一 . Scrapy的日志等级 - 在使用 scrapy crawl xxx 允许程序时,在终端里打印输出的就是scrapy的日志信息 - 日志信息的种类 : ERROR : 错误信息 WARNING ...
- 爬虫开发10.scrapy框架之日志等级和请求传参
今日概要 日志等级 请求传参 今日详情 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志 ...
- 13,scrapy框架的日志等级和请求传参
今日概要 日志等级 请求传参 如何提高scrapy的爬取效率 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy ...
- 12 Scrapy框架的日志等级和请求传参
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
随机推荐
- 【转】消除代码中的 if-else/switch-case
在很多时候,我们代码中会有很多分支,而且分支下面的代码又有一些复杂的逻辑,相信很多人都喜欢用 if-else/switch-case 去实现.做的不好的会直接把实现的代码放在 if-else/swit ...
- 《Redis开发与运维》读书笔记
一.初始Redis 1.Redis特性与优点 速度快.redis所有数据都存放于内存:是用C语言实现,更加贴近硬件:使用了单线程架构,避免了多线程竞争问题 基于键值对的数据结构,支持的数据结构丰富.它 ...
- Object类型转换成自定义类型(向下转型)
Object类型转换成自定义类型 场景: 从数据库或者别的途径接收对象的时候用Object,但是用的时候怎么object点(方法提示 | alt+'/'),都点不出自定义类型的方法. 比如,数据库查询 ...
- 使用Retrofit2+RxJava2+ProtoBuf实现网络请求
引言 Retrofit 是一个用于 Android 和 Java 平台的类型安全的,底层使用OkHttp实现网络请求框架.Retrofit 通过将 API 抽象成 Java 接口而让我们连接到 RES ...
- thinkphp5引入公共部分header、footer等
由于用惯了tp3.2,改用tp5有些还是感觉别扭的 直接上问题:项目中需要用到引入公共导航.头部.底部.右边部分等等 首先要弄清楚thinkphp5的配置项是哪个文件,众所周知:config.php, ...
- 搞清Image加载事件(onload)、加载状态(complete)后,实现图片的本地预览,并自适应于父元素内(完成)
onload与complete介绍 complete只是HTMLImageElement对象的一个属性,可以判断图片加载完成,不管图片是不是有缓存:而onload则是这个Image对象的load事件回 ...
- CSS样式—— 字体、元素的垂直水平居中
1.CSS样式与HTML中标签属性的区别: 标签的属性是采用 属性名=“属性值” 表示的 CSS样式是采用名值对 属性名:属性值: 表示的 2.内联元素(行内元素)与块元素 (1)内联元素及其特点: ...
- Python入门基础之函数、切片
Python之函数 Python不但能非常灵活地定义函数,而且本身内置了很多有用的函数,可以直接调用. Python之调用函数 Python内置了很多有用的函数,我们可以直接调用. 要调用一个函数,需 ...
- OkHttpUtils简单的网络去解析使用
先添加依赖: implementation 'com.google.code.gson:gson:2.2.4' implementation 'com.zhy:okhttputils:2.0.0' 网 ...
- Android dp、dip、dpi、px、sp简介及相关换算,及其应用实例
屏幕分辨率:在x y轴上的像素点数.单位是px,1px=1个像素点.一般以 纵向像素×横向像素 表示,如1920*1080dpi--------------------------每英寸上 ...