scrapy-scrapy如何打开页面？[转]

一、首先我们来看scrapy spider如何打开页面：

要打开页面，我们用的是手，同样scrapy也有一个得力助手：spider；至于spider如何打开页面，且听我娓娓道来，如果一上来就噼里啪啦的给诸位说scrapy spiders需要继承神马类、神马方法、神马常量，我想很多喷油都会觉得莫名其妙，就像一个巴掌突然打来一样，所以这里我试图用知其所以然的方式让你知其然！很多文档写得莫名其妙，就是作者一上来就用这种方式，让本来懂的你却越看越凌乱，究其原因就是很多作者重于形，却轻于意，说得具体点就是注重实现，而不注重为什么要这样实现，就像spiders的内部结构一来就告诉你要继承这个、这个……，却没告诉你为什么要继承，如果能稍加解释，那小白们就更容易接受了！

那我们先说说人如何scrapy如何打开页面，我们一般是用爪爪，首先搜索、然后点击、然后又点击，就这样不断搜索、不断点击然后就到了，比如搜淘宝2月13号套套销量，是不是首先百度搜索：淘宝，然后点击进去，然后搜索：套套，然后就到了。毕竟蜘蛛不会用键盘、鼠标，因此不能用这样的方式，何况这样的方式太慢。那蜘蛛到底如何打开页面呢？很简单，蜘蛛从互联网的本质出发，我们浏览页面都是一个：发送请求、返回请求的过程，比如点击淘宝，然后淘宝就打开，其实就是这么一个过程（这是网络的基础原理，不熟悉的诸位度娘一下）；那蜘蛛要发送请求，那总得要有请求链接，如果木有，蜘蛛肯定得不到返回，那页面也就打不开了，因此引出了scrapy spiders的第一个必须的常量：

start_urls

上面的文档《scrapy start_url》已经详细介绍过，URL有两种写法，一种作为类的常量、一种作为start_requests(self)方法的常量，无论哪一种写法，URL都是必须的！有了URL那就可以发送请求了，也就类似我们的点击页面、然后打开页面的过程，那这一个过程肯定要有个方法或来完成；如果URL是定义在start_request(self)这个方法里面，那我们就要使用： yield scrapy.Request 方法发送请求：如下：

import scrapy

class simpleUrl(scrapy.Spider):

    name = "simpleUrl"

    # 另外一种初始链接写法

    def start_requests(self):

         urls = [ #爬取的链接由此方法通过下面链接爬取页面

             'http://lab.scrapyd.cn/page/1/',

             'http://lab.scrapyd.cn/page/2/',

         ]

         for url in urls:

            #发送请求

             yield scrapy.Request(url=url, callback=self.parse)

这样写的一个麻烦之处就是我们需要处理我们的返回，也就是我们还需要写一个callback方法来处理response；因此大多数我们都是把URL作为类的常量，然后再加上另外一个方法：

parse(response)

使用这个方法来发送请求，可以看到里面有个参数已经是：response（返回），也就是说这个方自动化的完成了：request（请求页面）-response（返回页面）的过程，我们就不必要再写函数接受返回，所以这样就比较方便了！

import scrapy

class simpleUrl(scrapy.Spider):

    name = "simpleUrl"

    start_urls = [  #另外一种写法，无需定义start_requests方法

        'http://lab.scrapyd.cn/page/1/',

        'http://lab.scrapyd.cn/page/2/',

    ]

    def parse(self, response):

        page = response.url.split("/")[-2]

        filename = 'mingyan-%s.html' % page

        with open(filename, 'wb') as f:

            f.write(response.body)

        self.log('保存文件: %s' % filename)

好了，这就是scrapy打开页面的方法；页面打开后是不是我们就该提取数据了？那scrapy如何提取？

申明：本文《scrapy如何打开页面？》属于【Scrapy 中文网】原创文章，商业转载请联系作者获得授权，非商业转载请注明出处。

scrapy-scrapy如何打开页面？[转]的更多相关文章

【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...
scrapy之盗墓笔记三级页面爬取
#今日目标 **scrapy之盗墓笔记三级页面爬取** 今天要爬取的是盗墓笔记小说,由分析该小说的主要内容在三级页面里,故需要我们一一解析 *代码实现* daomu.py ``` import sc ...
【转】iframe和父页，window.open打开页面之间的引用
[转]iframe和父页,window.open打开页面之间的引用 iframe和父页,window.open打开页面和被打开页面之间的关系可以通过下面的对象获取到 1)通过iframe加载的,在if ...
HTML：模拟链接被按下，在新标签页打开页面，不使用window.open(可能被拦截)
当按下一个按钮时,想打开一个新的标签页,可以使用window.open去实现但是因为使用window.open在新窗口或者新标签页中打开页面,有可能被浏览器给拦截.为了解决这个问题,可以模拟链接被按下 ...
C# winform调用浏览器打开页面方法分享，希望对大家有帮助
在很多客户端程序中我们都需要调用浏览器打开网页,这里分享一个可以在我winform程序调用浏览器的方法,测试通过了. 声明:这个方法是上万个用户测试通过的,不是我没有测试通过就拿出来分享,那个是自己搬 ...
如何在Flash中新窗口打开页面而不被拦截
Flash的wmode必须是opaque或者transparent,允许Flash访问页面脚本.另外跳转必须是点击直接触发. 代码:ExternalInterface.call("windo ...
（转载）HTML：模拟链接被按下，在新标签页打开页面，不使用window.open(可能被拦截)
原文: http://www.cppblog.com/biao/archive/2010/08/21/124196.html 当按下一个按钮时,想打开一个新的标签页,可以使用window.open去实 ...
Easyui datebox控件打开页面就验证解决方法
问题描述: datebox时间控件有些场景下默认值需要为空,但是为空的情况下打开页面会自动验证,十分影响美观. 实现原理: <input class="easyui-databox&q ...

随机推荐

会话控制（session和cookie）、跨页面传值
1.session 登录上一个页面以后,长时间没有操作,刷新页面以后需要重新登录. 特点:(1)session是存储在服务器: (2)session每个人(登陆者)存一份: (3)session ...
centos7 svn搭建
一.安装 : yum install subversion 二.检验是否安装成功: svnserve --version 三.创建要存放资源的路径: mkdir -p /var/svn //该路径也是 ...
1. [文件]- 文件类型，文件open模式
1.文件类型:文本文件和二进制文件硬盘中的文件保存为01010101格式,一般读取文件是把文件从硬盘中读取到内存中. 文本文件需要进行格式转换才能读取出来. 二进制文件一般用于传输二进制文件:视频 ...
VI ORB-SLAM初始化与VINS初始化对比(将vi orb-slam初始化方法移植到vins中)
初始化时需要求出的变量:相机和imu外参r t.重力g.尺度s.陀螺仪和加速度计偏置ba bg. 下面对两种算法初始化的详细步骤进行对比: 求陀螺仪偏置bg 求解公式相同,求解方法不同.公式如下,VI ...
angularJs中缓存数据，免去重复发起请求的几种写法
带缓存处理的两种写法过程:点击button触发load()方法,请求数据成后显示到页面中.如果已经请求过则从缓存中读取. 在线浏览写法1: function demo(){ if (demo.ca ...
自制刻度尺插件-前端简易实现"腾讯信用"界面
依据我现有的知识,在前端上"简易"的实现了腾讯信用的界面,同时自己自制了一个竖直的刻度尺插件,曲线的位置可以根据传入的数值动态的改变,这次主要也想总结一下关于jQuery中exte ...
linux for 循环的小应用
[root@localhost ~]# mkdir -pv /home/data{1..5} # 创建多个目录以下两种方法类似. for i in {1..5};do echo "&l ...
关于springcloud的一些问题总结.txt
@Bean public CorsFilter corsFilter() { final UrlBasedCorsConfigurationSource source = new UrlBasedCo ...
表格 - bootStrap4常用CSS笔记
[表格标签] <table> 定义一个表格 <thead> 表格表头 <tbody> 表格主体内容 <tr> 行 <th> 表头列 &l ...
python基础学习笔记(一)
最好有点c++基础来看,,每天都更新一篇吧这一篇是一些基础东西 1.运算符2.变量3.基本输入输出4.字符串5.列表6.元组7.字典8.集合9.简单的说下循环啥的 1.运算符特别的 a / b:为 ...

scrapy-scrapy如何打开页面？[转]

scrapy-scrapy如何打开页面？[转]的更多相关文章

随机推荐

热门专题