Scarpy+selenium 结合使用

首先要先在spider对象实例化时,同时实例化一个浏览器对象

# -*- coding: utf-8 -*-

import scrapy

from selenium import webdriver

"""

Scrapy 使用 selenium

    1.在spider的构造方法中实例化一个浏览器对象

    2.重写spider下的closed方法,该方法用来关闭浏览器

    3.在下载中间件的process_response方法中使用selenium,通过spider参数获取浏览器对象

    4.在中间件中使用selenium对网站进行信息抓取

    5.实例化一个HtmlResponse对象,且将page_source封装到HtmlResponse对象中

    6.返回该新的相应对象

    7.在parse函数中对新的response对象进行解析.

"""

class NewsSpider(scrapy.Spider):

    name = 'news'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://war.163.com/']

    # 在实例化Spider对象时创建一个新的浏览器对象

    def __init__(self):

        self.bro = webdriver.Chrome(executable_path=r'F:\爬虫\chromedriver.exe')

    def parse(self, response):

        div_list = response.xpath('//div[@class="data_row news_article clearfix "]')

        for div in div_list:

            title = div.xpath('.//div[@class="news_title"]/h3/a/text()').extract_first()

            print(title)

    # 爬虫关闭后的执行的函数

    def closed(self,spider):

        print('关闭浏览器')

        self.bro.quit()

在下载中间中修改process_response方法

    def process_response(self, request, response, spider):

        # Called with the response returned from the downloader.

        # Must either;

        # - return a Response object

        # - return a Request object

        # - or raise IgnoreRequest

        # 在此处使用已经实例化好的浏览器对象.

        bro = spider.bro

        bro.get(url=request.url)

        sleep(3)

        page_text = bro.page_source

        sleep(3)

        # 返回新的response对象

        return HtmlResponse(url=bro.current_url, body=page_text, encoding='utf-8', request=request)

Scarpy+selenium 结合使用的更多相关文章

Python爬虫小白入门（四）PhatomJS+Selenium第一篇
一.前言在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页.所以不能够通过页码获取页面的url来分别发送网络请求.我也尝试了其他方式,比如下拉 ...
Selenium的PO模式（Page Object Model）[python版]
Page Object Model 简称POM 普通的测试用例代码: .... #测试用例 def test_login_mail(self): driver = self.driver driv ...
selenium元素定位篇
Selenium webdriver是完全模拟用户在对浏览器进行操作,所有用户都是在页面进行的单击.双击.输入.滚动等操作,而webdriver也是一样,所以需要我们指定元素让webdriver进行单 ...
selenium自动化基础知识
什么是自动化测试? 自动化测试分为:功能自动化和性能自动化功能自动化即使用计算机通过编码的方式来替代手工测试,完成一些重复性比较高的测试,解放测试人员的测试压力.同时,如果系统有不份模块更改后,只要 ...
幼儿园的 selenium
from selenium import webdriver *固定开头 b=webdriver.Firefox() *打开火狐浏览器 browser. ...
使用selenium编写脚本常见问题（一）
前提:我用selenium IDE录制脚本,我用java写的脚本,如果大家想看的清楚明白推荐java/Junit4/Webdriver 我用的是java/TestNG/remote control 1 ...
关于selenium RC的脚本开发
第一.需要录制脚本,找个我也不说了.就是在firefox下下载一个selenium-IDE并且安装. 第二.在工具里找到selenium-IDE点击运行. 第三.默认是红色按钮点击状态的,接下来随便你 ...
基于python的selenium自动化测试环境安装
1. Python2安装官方网站:https://www.python.org/downloads/ (python3或新版本已经默认集成了pip包和path,安装的时候打勾就行,可以直接跳过下面第 ...
Selenium+python 配置
1. 安装python, www.python.org. 下载最新的python,应该是32位的.注意配置环境变量. 2. 安装PIP(pip是一个以Python计算机程序语言写成的软件包管理系统). ...

随机推荐

uC/OS-II 函数之内存管理相关函数
上文主要介绍了邮箱管理相关的函数,本文介绍内存管理相关的函数:OSMemCreate()内存块创建函数,OSMemGet()函数,OSMemPut()函数,OSMemQuery()函数.以前用过的uC ...
vue数据响应的坑
1.首先遇到的第一个坑是数组 vue初始化时,data是一个数组并且为空的时候,里面有一些对象元素,直接改变这些对象的的属性不会触发视图更新解决办法,copy一个新的数组(vue.assign是浅c ...
Linux rsync 企业级应用
简介 rsync 是 Linux 下的数据同步工具, 其支持本地同步和远程同步, 远程同步分为 daemon 和 ssh 同步方式 rsync 可以代替 cp, scp 等命令, 且具有更高的可 ...
题目1008：最短路径问题（SPFA算法）
问题来源 http://ac.jobdu.com/problem.php?pid=1008 问题描述给定一个G(V,E)有向图,起点s以及终点t,求最短路径. 问题分析典型的单源最短路径问题,可以 ...
spider_keeper定时任务
# Define apscheduler app 下的 __init__.py 文件中, 三个主要函数
大数据-hive安装
1.下载Hive需要的版本我们选用的是hive-3.1.0 将下载下来的hive压缩文件放到/opt/workspace/下 2.解压hive-3.1.0.tar.gz文件 [root@master ...
达人篇:3.1.3）FAI 首件检验
本章目的:了解FAI. 1)定义: FAI: First Article Inspection Report . 汉语译作:首件全尺寸检验报告. 2)目的制作FAI报告是为了检查成型后的产品尺寸是否 ...
51nod 1812 树的双直径题解【树形DP】【贪心】
老了-稍微麻烦一点的树形DP都想不到了. 题目描述给定一棵树,边权是整数 \(c_i\) ,找出两条不相交的链(没有公共点),使得链长的乘积最大(链长定义为这条链上所有边的权值之和,如果这条链只有 ...
Git服务器搭建笔记
前言:最近公司要使用git服务器对Android4.4的源码进行版本控制,所以花了些时间在Ubuntu14.04上搭建了git服务器,正好前段时间也学习了下git的使用哈哈 ------------- ...
Maven 整合 robot framework 进行测试
1. 在maven pom.xml中先配置robot framework的plugin: <plugin> <!-- integration test runner (robot-f ...

Scarpy+selenium 结合使用

Scarpy+selenium 结合使用的更多相关文章

随机推荐

热门专题