scrapy中的get请求及基本使用：

1. 创建scrapy项目

scrapy startproject QiuBaiProject

2. 创建爬虫文件

scrapy genspider QiuBai  www.qiubai.com

3.修改配置文件

"""

setting.py :配置文件

"""

# Crawl responsibly by identifying yourself (and your website) on the user-agent

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {

	#使用哪个管道处理，后面是管道优先级　1-1000,数字越低，优先级越高

   'qiubaiproject.pipelines.QiubaiprojectPipeline': 300,

}

"""

关于日志的说明：默认显示的等级是DEBUG，上面所有的信息全部显示

如果等级配置为ERROR，那么就只显示ERROR，CRITICAL

在配置文件中进行配置

"""

	# 配置显示日志信息等级

	# LOG_LEVEL = 'ERROR'

	# 不将信息显示到屏幕中，将信息显示到文件中

	LOG_FILE = 'log.txt'

4. 编写item.py文件

"""

  items.py : 这里面是定义数据结构的地方

"""

import scrapy

class QiubaiprojectItem(scrapy.Item):

  """

	item对象的用法和字典的用法一模一样,可以快速的转化为字典

  """

    # define the fields for your item here like:

    # name = scrapy.Field()

    # 图片链接

    image_src = scrapy.Field()

    # 用户名

    name = scrapy.Field()

    # 年龄

    age = scrapy.Field()

    # 内容

    content = scrapy.Field()

    # 好笑个数

    haha_count = scrapy.Field()

    # 评论个数

    ping_count = scrapy.Field()

5. 编写爬虫文件

# -*- coding: utf-8 -*-

'''

QiuBai.py 爬虫文件

'''

import scrapy

from qiubaiproject.items import QiubaiprojectItem

class QiubaiSpider(scrapy.Spider):

    name = 'qiubai'

    allowed_domains = ['www.qiushibaike.com']

    #起始页

    start_urls = ['http://www.qiushibaike.com/']

    # 爬取其他页面的内容

    url = 'https://www.qiushibaike.com/8hr/page/{}/'

    page = 1

    def parse(self, response):

        # 先找到所有的div

        div_list = response.xpath('//div[@id="content-left"]/div')

        # 遍历这个div的列表，依次获取里面的每一条信息

        for odiv in div_list:

            # 创建对象

            item = QiubaiprojectItem()

            # 用户头像

            face = 'https:' + odiv.xpath('.//div[1]//img/@src')[0].extract()

            # 用户的名字

            name = odiv.xpath('.//div[1]//h2').extract()[0]

            # 用户的年龄

            age = odiv.xpath('.//div[starts-with(@class,"articleGender")]').extract_first()

            # 获取用户内容

            ospan = odiv.xpath('.//div[@class="content"]/span[1]')[0]

            content = ospan.xpath('string(.)').extract()

            # 用户的好笑个数

            haha_count = odiv.xpath('.//div[@class="stats"]/span[@class="stats-vote"]/i/text()').extract()[0]

            # 获取评论个数

            ping_count = odiv.xpath('.//div[@class="stats"]/span[@class="stats-comments"]//i/text()').extract()[0]

            # 将提取的信息保存起来

            item['image_src'] = face

            item['name'] = name

            item['age'] = age

            item['content'] = content

            item['haha_count'] = haha_count

            item['ping_count'] = ping_count

            yield item

        # 接着爬取其他的页面

        if self.page <= 5:

            self.page += 1

            # 拼接出来指定的url

            url = self.url.format(self.page)

            # 接着发送请求，callback是发送请求之后，用哪一个回调函数处理这个请求

            yield scrapy.Request(url=url, callback=self.parse)

6.编写管道文件

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

class QiubaiprojectPipeline(object):

    # 爬虫启动的时候只会调用一次

    def open_spider(self, spider):

        # 将文件的打开写道这里

        self.fp = open('qiubai.json', 'w', encoding='utf8')

    # 这个函数就是处理item的函数，每一个item过来都会回调这个方法

    def process_item(self, item, spider):

        # 将对象转化为字典

        obj = dict(item)

        # 将字典转化为json格式字符串

        string = json.dumps(obj, ensure_ascii=False)

        self.fp.write(string + '\n')

        return item

    # 爬虫结束的时候回调这个方法

    def close_spider(self, spider):

        self.fp.close()

# scrapy(二）：get请求的更多相关文章

angular分页插件tm.pagination 解决触发二次请求的问题
angular分页插件tm.pagination(解决触发二次请求的问题) DEMO: http://jqvue.com/demo/tm.pagination/index.html#?current ...
API接口设计：防参数篡改+防二次请求
API接口由于需要供第三方服务调用,所以必须暴露到外网,并提供了具体请求地址和请求参数为了防止被第别有用心之人获取到真实请求参数后再次发起请求获取信息,需要采取很多安全机制 1.首先: 需要采用ht ...
[转]ASP.NET MVC学习系列(二)-WebAPI请求传参
[转]ASP.NET MVC学习系列(二)-WebAPI请求传参本文转自:http://www.cnblogs.com/babycool/p/3922738.html ASP.NET MVC学习系 ...
Ocelot（二）- 请求聚合与负载均衡
Ocelot(二)- 请求聚合与负载均衡作者:markjiang7m2 原文地址:https://www.cnblogs.com/markjiang7m2/p/10865511.html 源码地址: ...
scrapy 发post请求
可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求. 如果希望程序执行一开始就发送POST请求,可以重写Spider类的s ...
使用Typescript重构axios(二十)——请求取消功能：实现第一种使用方式
0. 系列文章 1.使用Typescript重构axios(一)--写在最前面 2.使用Typescript重构axios(二)--项目起手,跑通流程 3.使用Typescript重构axios(三) ...
使用Typescript重构axios(二十一)——请求取消功能：添加axios.isCancel接口
0. 系列文章 1.使用Typescript重构axios(一)--写在最前面 2.使用Typescript重构axios(二)--项目起手,跑通流程 3.使用Typescript重构axios(三) ...
Electron-vue实战（二）— 请求Mock数据渲染页面
Electron-vue实战(二)— 请求Mock数据渲染页面作者:狐狸家的鱼本文链接 GitHub:sueRimn 一.环境搭建 1.安装Mock.js 如果仅仅用作脱离后台的模拟数据,就安装在 ...
Ocelot（二）- 请求聚合
原文:Ocelot(二)- 请求聚合 Ocelot(二)- 请求聚合与负载均衡作者:markjiang7m2 原文地址:https://www.cnblogs.com/markjiang7m2/p/ ...
openresty 学习笔记二:获取请求数据
openresty 学习笔记二:获取请求数据 openresty 获取POST或者GET的请求参数.这个是要用openresty 做接口必须要做的事情.这里分几种类型:GET,POST(urlenco ...

随机推荐

CSS里盒子模型中【margin垂直方向边界叠加】问题及解决方案
边界重叠是指两个或多个盒子(可能相邻也可能嵌套)的相邻边界(其间没有任何非空内容.补白.边框)重合在一起而形成一个单一边界. 两个或多个块级盒子的垂直相邻边界会重合. 如果都是正边界,结果的边界宽度是 ...
electron-vue报错：Webpack ReferenceError: process is not defined
electron-vue报错:Webpack ReferenceError: process is not defined 博客说明文章所涉及的资料来自互联网整理和个人总结,意在于个人学习和经验汇总 ...
附022.Kubernetes_v1.18.3高可用部署架构一
kubeadm介绍 kubeadm概述参考附003.Kubeadm部署Kubernetes. kubeadm功能参考附003.Kubeadm部署Kubernetes. 本方案描述本方案采用kub ...
mysql字符串类型（TEXT 类型）
TEXT 类型 TEXT 列保存非二进制字符串,如文章内容.评论等.当保存或查询 TEXT 列的值时,不删除尾部空格. TEXT 类型分为 4 种:TINYTEXT.TEXT.MEDIUMTEXT 和 ...
重学 Java 设计模式：实战责任链模式「模拟618电商大促期间，项目上线流程多级负责人审批场景」
作者:小傅哥博客:https://bugstack.cn - 原创系列专题文章沉淀.分享.成长,让自己和他人都能有所收获! 一.前言场地和场景的重要性射击
Java学习笔记4（多线程）
多线程多个程序块同时运行的现象被称作并发执行.多线程就是指一个应用程序中有多条并发执行的线索,每条线索都被称作一条线程,它们会交替执行,彼此间可以进行通信. 进程:在一个操作系统中,每个独立执行的程 ...
一个非侵入的Go事务管理库——工作原理
在上一篇文章"一个非侵入的Go事务管理库--如何使用"中,我讲述了如何使用事务库.有些读者可能读过"清晰架构(Clean Architecture)的Go微服务: 事物管 ...
VMware Workstation 15密钥
在打开的VMware Workstation 15输入许可证密钥对话框里直接输入25位密钥,然后点击确定,如下图所示. 这里提供一个密钥: CG392-4PX5J-H816Z-HYZNG-PQRG2
计算机网络之ARP协议
ARP ARP(Address Resolution Protocol),即地址解析协议,是根据IP地址解析物理地址的一个TCP/IP协议.主机将包含目标IP地址信息的ARP请求广播到网络中的所有主机 ...
Python实用笔记（2）list和tuple
list 这就是一个列表: classmates = ['Michael', 'Bob', 'Tracy'] //内部数据类型可以不同同样len()函数可以获取长度: len(classmates) ...

# scrapy(二）：get请求

scrapy中的get请求及基本使用：

1. 创建scrapy项目

2. 创建爬虫文件

3.修改配置文件

4. 编写item.py文件

5. 编写爬虫文件

6.编写管道文件

# scrapy(二）：get请求的更多相关文章

随机推荐

热门专题