Scrapy框架(一)--初识

scrapy初识
什么是框架？
　　所谓的框架简单通用解释就是就是一个具有很强通用性并且集成了很多功能的项目模板，该模板可被应用在不同的项目需求中。

也可被视为是一个项目的半成品。

如何学习框架？
　　对于刚接触编程或者初级程序员来讲，对于一个新的框架，只需要掌握该框架的作用及其各个功能的使用和应用即可，对于框架的底层实现和原理，在逐步进阶的过程中在慢慢深入即可。

什么是scrapy？
　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。其内部已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）。

对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

scrapy基本使用

环境安装：

linux和mac操作系统：

pip install scrapy

windows系统：

pip install wheel

下载twisted，下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

安装twisted：pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl

pip install pywin32

pip install scrapy

测试：在终端里录入scrapy指令，没有报错即表示安装成功！

scrapy使用流程：
　　创建工程：
　　　　scrapy startproject ProName
　　进入工程目录：
　　　　cd ProName
　　创建爬虫文件：
　　　　scrapy genspider spiderName www.xxx.com
　　编写相关操作代码
　　执行工程：
　　　　scrapy crawl spiderName

爬虫文件剖析

  # -*- coding: utf-8 -*-

  import scrapy

  class QiubaiSpider(scrapy.Spider):

      name = 'qiubai' #应用名称

      #允许爬取的域名（如果遇到非该域名的url则爬取不到数据）一般注释掉

      # allowed_domains = ['https://www.qiushibaike.com/']

      #起始爬取的url

      start_urls = ['https://www.qiushibaike.com/']

      #访问起始URL并获取结果后的回调函数，该函数的response参数就是向起始的url发送请求后，获取的响应对象.该函数返回值必须为可迭代对象或者NUll

      def parse(self, response):

          print(response.text) #获取字符串类型的响应内容

          print(response.body)#获取字节类型的相应内容

配置文件settings.py修改

  #修改内容及其结果如下：

  #19行：

  USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' #伪装请求载体身份

  22行：ROBOTSTXT_OBEY = False  #可以忽略或者不遵守robots协议

  # 打印日志的错误信息

  LOG_LEVEL='ERROR'

示例：爬取糗事百科的段子数据

# -*- coding: utf-8 -*-

import scrapy

class QiushiSpider(scrapy.Spider):

    name = 'qiushi'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):

        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')

        all_data = []

        for div in div_list:

            # xpath返回的是列表 列表中是Selector对象

            # extract() 可将对象中的data参数存储的字符串取出

            # author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()

            author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()  # extract_first()在确定列表只有一个元素的情况下使用

            # 列表调用extract() 将列表中每一个Selector对象的data字符串取出来

            content = div.xpath('./a[1]/div[1]/span//text()').extract()

            content = ''.join(content) # 将列表中的元素拼接成字符串

Scrapy框架(一)--初识的更多相关文章

爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例
1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架. 1.1 Scrapy介绍 ...
scrapy框架系列 (1) 初识scrapy
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...
Python学习---爬虫学习[scrapy框架初识]
Scrapy Scrapy是一个框架,可以帮助我们进行创建项目,运行项目,可以帮我们下载,解析网页,同时支持cookies和自定义其他功能. Scrapy是一个为了爬取网站数据,提取结构性数据而编写的 ...
scrapy框架初识
一.scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具 ...
爬虫Ⅱ:scrapy框架
爬虫Ⅱ:scrapy框架 step5: Scrapy框架初识 Scrapy框架的使用 pySpider 什么是框架: 就是一个具有很强通用性且集成了很多功能的项目模板(可以被应用在各种需求中) scr ...
Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...
Python爬虫Scrapy框架入门（1）
也许是很少接触python的原因,我觉得是Scrapy框架和以往Java框架很不一样:它真的是个框架. 从表层来看,与Java框架引入jar包.配置xml或.property文件不同,Scrapy的模 ...
Scrapy框架使用—quotesbot 项目（学习记录一）
一.Scrapy框架的安装及相关理论知识的学习可以参考:http://www.yiibai.com/scrapy/scrapy_environment.html 二.重点记录我学习使用scrapy框架 ...
Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解
这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider ...
Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理
这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是 ...

随机推荐

力扣319(java)-灯泡开关（中等）
题目: 初始时有 n 个灯泡处于关闭状态.第一轮,你将会打开所有灯泡.接下来的第二轮,你将会每两个灯泡关闭第二个. 第三轮,你每三个灯泡就切换第三个灯泡的开关(即,打开变关闭,关闭变打开).第 i 轮 ...
Fury：一个基于JIT动态编译的高性能多语言原生序列化框架
简介: Fury是一个基于JIT动态编译的多语言原生序列化框架,支持Java/Python/Golang/C++等语言,提供全自动的对象多语言/跨语言序列化能力,以及相比于别的框架最高20~200倍的 ...
硬之城携手阿里云 Serverless 应用引擎（SAE）打造低代码平台
简介: 简化用云的成本,把复杂留给自己,简单留给用户. 作者 | 陈泽涛(硬之城产品总监)& 洛浩(阿里云云原生高级架构师) 硬之城成立于 2015 年,是一家以电子元器件 BOM 整体供应为 ...
从零开始入门 K8s | 调度器的调度流程和算法介绍
导读:Kubernetes 作为当下最流行的容器自动化运维平台,以声明式实现了灵活的容器编排,本文以 v1.16 版本为基础详细介绍了 K8s 的基本调度框架.流程,以及主要的过滤器.Score 算法 ...
【阿里云采购季】3月采购完，IT运维躺赢一年2
阿里云2020上云采购季正式上线啦!今年的采购季可以逛些啥? 采购季正式期时间: 3月2日-3月31日在这段时间里,想买啥就买吧,别忘了把想买的产品加入购物车噢,特惠产品叠加购物车满减,更划算 ...
贾扬清演讲实录：一个AI开发者的奇幻漂流
简介:2021阿里灵杰AI工程化峰会,贾扬清深度解读阿里灵杰大数据和AI一体化平台. 演讲人:贾扬清演讲主题:一个AI开发者的奇幻漂流活动:2021阿里灵杰AI工程化峰会对于绝大多数人来说,这 ...
“2021ISIG中国产业智能大会低代码峰会”即将开幕，钉钉宜搭叶周全受邀出席
简介:2021年12月8-9日,"2021ISIG中国产业智能大会" 将在上海举行.阿里巴巴资深技术专家,钉钉宜搭创始人叶周全将作为特邀嘉宾出席大会. 2021年12月8-9日, ...
redis系列02---缓存过期、穿透、击穿、雪崩
一.缓存过期问题产生的原由: 内存空间有限,给缓存设置过期时间,但有些键值运气比较好,每次都没有被我的随机算法选中,每次都能幸免于难,这可不行,这些长时间过期的数据一直霸占着不少的内存空间! 解决方 ...
uniapp有意思的api之openSetting
点击查看代码 <details> <summary>解决用户拒绝授权问题</summary> uni.openSetting({ success(res) { co ...
计算机组成原理—中央处理器CPU
文章目录 CPU的功能与架构 CPU的组成运算器控制器指令执行过程指令流程指令执行方案数据通路单总线结构专用通路结构硬布线控制器设计硬布线执行流程硬布线CU内部怎么设计微操作的 ...

Scrapy框架(一)--初识

scrapy基本使用

Scrapy框架(一)--初识的更多相关文章

随机推荐

热门专题