scrapy框架

框架介绍: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。

安装:
  Linux:
pip3 install scrapy
  Windows:
a. pip3 install wheel
b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
c. 进入下载目录,执行 pip3 install Twisted‑17.1.‑cp35‑cp35m‑win_amd64.whl
d. pip3 install pywin32
e. pip3 install scrapy
基础使用
.创建项目: scrapy startproject 项目名称
.       cd proName
.创建爬虫文件 scrapy genspider spidername xxx.com
.执行 scrapy crawl spiderName scrapy crawl spider --nolog #忽略log日志
# -*- coding: utf-8 -*-
import scrapy
class Pa1Spider(scrapy.Spider):
# 爬虫文件的名称
name = 'pa1'
# allowed_domains = ['www.xxx.com'] # 允许域名
start_urls = ['https://www.qiushibaike.com/text/'] # 起始url列表 可写多个 # 解析数据
def parse(self, response): #响应
div_list = response.xpath('//div[@id="content-left"]/div')
names = []
for div in div_list:
# author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()
author = div.xpath('./div[1]/a[2]/h2/text()').extract_first() names.append({'name':author}) #必须封装到字典中 ('json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle')
return names
# 持久化存储
# - 基于终端指令 特性:只能将parse方法的返回值存到磁盘里面
      scrapy crawl first -o qiubai.csv #指定文件类型有要求.json .csv
    # - 基于管道 pipelines 

      - 数据解析        spider.py

      - 封装item类           items.py

      - 实例化item类型的对象  spider.py

      - 将解析倒的数据依次存储封装到item类型的对象中

      - 将item对象提交给管道

     - 在管道中实现IO操作  spider.py

      - 开启管道  settings.py

  # 同一份数据存储到不同的平台:
    管道文件定义多个类,之后settings.py里注册开启,根据优先级数字越小,越早执行,不同类之间传递item,在def process_item():中return item.
# 全站数据的爬取: 不同页面
  1 页面全添加到start_urls中,不建议,在url很多的时候不好
  2 手动请求
    设置url模板,%s %d 字符串格式化
    手动请求发送写在哪里? 在parse方法
    yield scrapy.Request(url=url,parse.callback)
# 5大核心组件
爬虫: 干活的
管道: 接收item,
调度器:
下载器: 去互联网请求   
    下载中间件作用:拦截请求和响应
      -拦截请求:
        1 篡改请求头UA UA池,随机random.choice()
        2 设置相关请求对象的代理IP(process_exception中)
引擎: 数据流处理,处理事务
# POST请求的发送:
  重写def start_requests(self):
      yield scrapy.FormRequest(url,callback,formdata)
  scrapy 默认是自己处理cookie的, settings.py里面COOKIES_ENNABLE=False
# 日志等级
  settings.py 里面 LOG_LEVEL='ERROR'
# 日志路径
  settings.py 里面 LOG_FILE = 'path'
# 请求传参的应用场景:
  爬取和解析的数据不在同一张页面上面
  在请求方法中使用meta(字典)参数,该字典会传递参数给回调函数
    回调函数接收meta:response.meta['key']
# 一般的settings.py 里面这样修改
ROBOTSTXT_OBEY = False
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36'
ITEM_PIPELINES = {
'xiaohua.pipelines.XiaohuaPipeline': 300,
'xiaohua.pipelines.MysqlPipeline': 200,
} # 可定义多个管道类 300优先级 数值越小优先级越高
LOG_LEVEL = "ERROR"
# items.py
# -*- coding: utf-8 -*-
import scrapy
class XiaohuaItem(scrapy.Item):
name = scrapy.Field() #为啥? 不能保证解析到的数据类型统一, 可以存储任何type的数据
img_url = scrapy.Field()
# 手动全站数据抓取
# -*- coding: utf-8 -*-
import scrapy
from xiaohua.items import XiaohuaItem class Xh1Spider(scrapy.Spider):
name = 'xh1'
# allowed_domains = ['www.ccc.com']
start_urls = ['http://www.521609.com/daxuemeinv/']
# 生成一个通用的url模板
url = 'http://www.521609.com/daxuemeinv/list8%d.html'
pageNum = 1 def parse_detail(self,response):
pass def parse(self, response):
li_list = response.xpath('//div[@class="index_img list_center"]/ul/li') #返回列表 selector
for li in li_list:
name = li.xpath('./a[2]/text() | ./a[2]/b/text()').extract_first()
img_url ='http://www.521609.com' + li.xpath('./a[1]/img/@src').extract_first() # 实例化一个item 对象
item = XiaohuaItem()
item['name'] = name
item['img_url'] = img_url
# item 提交给管道
yield item # 对其他页码的url手动请求的发送
if self.pageNum <= 3:
self.pageNum += 1
new_url = format(self.url%self.pageNum)
yield scrapy.Request(url=new_url,callback=self.parse)

手动全站数据抓取

# -*- coding: utf-8 -*-
import scrapy class PostReqSpider(scrapy.Spider):
name = 'post_req'
# allowed_domains = ['www.bb.com'] start_urls = ['https://fanyi.baidu.com/sug'] # 默认这样的get
# def start_requests(self):
# for url in self.start_urls:
# yield scrapy.Request(url=url,callback=self.parse) def start_requests(self):
for url in self.start_urls:
data = {
'kw':'dog'
}
yield scrapy.FormRequest(url=url, callback=self.parse,formdata=data) def parse(self, response):
print(response.text)

scrapy 请求传参

scrapy

scrapy框架 默认处理cookie的

7 scrapy 初识的更多相关文章

  1. Scrapy: 初识Scrapy

    1.初识Scrapy Scrapy是为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘,信息处理或者存储历史数据等一系列的程序中. 2.选择一个网站 当需要从某个网站获取信息时, ...

  2. python爬虫框架scrapy初识(一)

    Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中.所谓网络爬虫,就是一个在网上到处或定向抓取数据的 ...

  3. 爬虫框架Scrapy 之(一) --- scrapy初识

    Scrapy框架简介 scrapy是基于Twisted的一个第三方爬虫框架,许多功能已经被封装好,方便提取结构性的数据.其可以应用在数据挖掘,信息处理等方面.提供了许多的爬虫的基类,帮我们更简便使用爬 ...

  4. scrapy抓取拉勾网职位信息(一)——scrapy初识及lagou爬虫项目建立

    本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visua ...

  5. python自动化开发-[第二十四天]-高性能相关与初识scrapy

    今日内容概要 1.高性能相关 2.scrapy初识 上节回顾: 1. Http协议 Http协议:GET / http1.1/r/n...../r/r/r/na=1 TCP协议:sendall(&qu ...

  6. 22期老男孩Ptython全栈架构师视频教程

    老男孩Ptython全栈架构师视频教程 Python最新整理完整版22期视频教程 超60G课程容量<ignore_js_op> <ignore_js_op> <ignor ...

  7. 初识scrapy,美空网图片爬取实战

          这俩天研究了下scrapy爬虫框架,遂准备写个爬虫练练手.平时做的较多的事情是浏览图片,对,没错,就是那种艺术照,我骄傲的认为,多看美照一定能提高审美,并且成为一个优雅的程序员.O(∩_∩ ...

  8. 初识python爬虫框架Scrapy

    Scrapy,按照其官网(https://scrapy.org/)上的解释:一个开源和协作式的框架,用快速.简单.可扩展的方式从网站提取所需的数据. 我们一开始上手爬虫的时候,接触的是urllib.r ...

  9. scrapy框架系列 (1) 初识scrapy

    Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...

随机推荐

  1. 关于RTP时间戳及多媒体通信同步的问题(转)

    文章转载自:罗索实验室 [http://www.rosoo.net/a/201101/10776.html]

  2. HDU 2586 ( LCA/tarjan算法模板)

    链接:http://acm.hdu.edu.cn/showproblem.php?pid=2586 题意:n个村庄构成一棵无根树,q次询问,求任意两个村庄之间的最短距离 思路:求出两个村庄的LCA,d ...

  3. c数据结构 -- 栈与队列

    栈和队列 ·栈和队列是两种常用的.重要的数据结构 ·栈和队列是限定插入和删除只能在表的“端点”进行的线性表 栈 只能在队尾插入,只能在队尾删除 -- 后进后出 表尾称为栈顶:表头称为栈底 插入元素到栈 ...

  4. PLL

    PLL(Phase Locked Loop): 为锁相回路或锁相环,用来统一整合时脉讯号,使内存能正确的存取资料.PLL用于振荡器中的反馈技术. 许多电子设备要正常工作,通常需要外部的输入信号与内部的 ...

  5. beego orm 多对多插入和查询操作

    // User 用户表 type User struct { ID int UserName string Password string Articles []*Article `orm:" ...

  6. 题解【洛谷P1407】 [国家集训队]稳定婚姻

    题面 题解 很好的\(Tarjan\)练习题. 主要讲一下如何建图. 先用\(STL \ map\)把每个人的名字映射成数字. 输入第\(i\)对夫妻时把女性映射成\(i\),把男性映射成\(i+n\ ...

  7. 测试理论 - Test Double

    概述 简述 test double mock, fake 之类的东西 背景 最近在看 google 软件测试之道 妈的 13 年的老书了 书里有提到 mock, fake, stub 刚好, 我又不太 ...

  8. 安装java jdk环境jdk1.8

    1) yum 安装java jdk 1.8 * -y 验证java [root@localhost local]# java -version openjdk version "1.8.0_ ...

  9. eclipse中引入聚合工程

    一般我们在导入项目的时候都是直接import project, 这对普通java 项目,还是 web 项目,或者是单体的项目都是没有问题的,但是在导入聚合项目的时候这样倒入会使maven的子模块没法被 ...

  10. The entity type XXX is not part of the model for the current context.

    今天遇到了一个奇葩问题,虽然解决了,但还是一脸懵,先附赠一下别人的解决方案:https://www.cnblogs.com/zwjaaron/archive/2012/06/08/2541430.ht ...