python + seleinum +phantomjs 设置headers和proxy代理

 
 

最近因为工作需要使用selenium+phantomjs无头浏览器,其中遇到了一些坑,记录一下,尤其是关于phantomjs设置代理的问题。

基本使用

首先在python中导入使用的包,其中webdriver是要创建无头浏览器对象的模块,DesiredCapabilites这个类是浏览器对象的一些选项设置。

  1.  
    from selenium import webdriver
  2.  
    from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
  3.  
     
  4.  
    # 初始化浏览器对象
  5.  
    desired_cap = DesiredCapabilities.PHANTOMJS.copy()
  6.  
    driver = webdriver.PhantomJS(desired_capabilities=desired_cap)

修改请求头

在使用爬虫的过程中我们需要修改请求投中的user-agent防止被反爬,修改过程如下

  1.  
    desired_cap = DesiredCapabilities.PHANTOMJS.copy()
  2.  
    # 修改请求头中的UA
  3.  
    desired_cap['phantomjs.page.settings.userAgent'] = 'xxxxxx'
  4.  
    # 设置其他请求投信息,其中key为要修改的请求投键名
  5.  
    desired_cap['phantomjs.page.customHeaders.{}'.format(key)] = 'xxxx'
  6.  
    driver = webdriver.PhantomJS(desired_capabilities=desired_cap)

设置代理

在使用爬虫过程中,经常需要使用代理ip,网上关于这方面资料较少,我也是搜集了好久,记录一下

ip代理有静态ip代理和动态ip代理,先说静态ip,静态ip就是134.119.184.92:1080这样的代理,不需要使用验证信息,使用方法如下:

  1.  
    # 配置代理信息
  2.  
    proxy = [
  3.  
    '--proxy=%s' % "218.60.8.83:3129", # 设置的代理ip
  4.  
    '--proxy-type=http', # 代理类型
  5.  
    '--ignore-ssl-errors=true', # 忽略https错误
  6.  
    ]
  7.  
     
  8.  
    # 在初始化浏览器对象的时候可以接收一个service_args的参数,使用这个参数设置代理
  9.  
    drive = webdriver.PhantomJS(service_args=proxy)
  10.  
     
  11.  
    # 设置页面加载和js加载超时时间,超时立即报错,如下设置超时时间为10秒
  12.  
    drive.set_page_load_timeout(10)
  13.  
    drive.set_script_timeout(10)
  14.  
     
  15.  
    # 这样代理就设置成功了,可以向百度发送请求验证ip是否可用
  16.  
    drive.get('http://www.baidu.com')

以上是静态代理设置方法,但是我们时候使用的是动态代理,设置方法有所变化,需要在参数里加上验证使用的用户名和密码,代码如下:

  1.  
    # 代理设置如下:
  2.  
    proxy = [
  3.  
    '--proxy=%s:%s' % (proxyHost, proxyPort), # 代理服务器的域名
  4.  
    '--proxy-type=http', # 代理类型
  5.  
    '--proxy-auth=%s:%s' % (proxyUser, proxyPass), # 代理验证所需的用户名和密码
  6.  
    '--ignore-ssl-errors=true', # 忽略https错误
  7.  
    ]
  8.  
     
  9.  
    # 在初始化浏览器对象的时候可以接收一个service_args的参数,使用这个参数设置代理
  10.  
    drive = webdriver.PhantomJS(service_args=proxy)
  11.  
     
  12.  
    # 设置页面加载和js加载超时时间,超时立即报错,如下设置超时时间为10秒
  13.  
    drive.set_page_load_timeout(10)
  14.  
    drive.set_script_timeout(10)
  15.  
     
  16.  
    # 这样代理就设置成功了,可以向百度发送请求验证ip是否可用
  17.  
    drive.get('http://www.baidu.com')

以上就是使用selenium + phantomjs无头浏览器设置headers和代理的方法。

python + seleinum +phantomjs 设置headers和proxy代理的更多相关文章

  1. Python爬虫连载10-Requests模块、Proxy代理

    一.Request模块 1.HTTP for Humans,更简洁更友好 2.继承了urllib所有的特征 3.底层使用的是urllib3 4.​开源地址:https://github.com/req ...

  2. python爬虫scrapy之downloader_middleware设置proxy代理

    一.背景: 小编在爬虫的时候肯定会遇到被封杀的情况,昨天爬了一个网站,刚开始是可以了,在settings的设置DEFAULT_REQUEST_HEADERS伪装自己是chrome浏览器,刚开始是可以的 ...

  3. selenium phantomjs 设置代理ip方法

    最近遇到phantomjs动态更换ip的功能,在知乎上看到一篇不错的文章,顺手记下来以备后用 phantomjs selenium 如何动态修改代理? 可以这样做(Python代码): # 不使用代理 ...

  4. Python爬虫设置Headers

    Python设置Headers import urllib import urllib2 url = 'http://www.server.com/login' user_agent = 'Mozil ...

  5. C# 使用 Proxy 代理请求资源

    C# 使用 Proxy 请求资源,基于 HttpWebRequest 类 前言 这是上周在开发 C# 中使用 Proxy 代理时开发的一些思考和实践.主要需求是这样的,用户可以配置每次请求是否需要代理 ...

  6. ES6新特性:Proxy代理器

    ES6新特性:Proxy: 要使用的话, 直接在浏览器中执行即可, node和babel目前还没有Proxy的polyfill;,要使用的话,直接在浏览器中运行就好了, 浏览器的兼容性为:chrome ...

  7. Proxy 代理模式

    简介 代理模式是用一个简单的对象来代替一个复杂的或者创建耗时的对象. java.lang.reflect.Proxy RMI 代理模式是对象的结构模式.代理模式给某一个对象提供一个代理对象,并由代理对 ...

  8. 豌豆夹Redis解决方式Codis源代码剖析:Proxy代理

    豌豆夹Redis解决方式Codis源代码剖析:Proxy代理 1.预备知识 1.1 Codis Codis就不详细说了,摘抄一下GitHub上的一些项目描写叙述: Codis is a proxy b ...

  9. 豌豆夹Redis解决方案Codis源码剖析:Proxy代理

    豌豆夹Redis解决方案Codis源码剖析:Proxy代理 1.预备知识 1.1 Codis Codis就不详细说了,摘抄一下GitHub上的一些项目描述: Codis is a proxy base ...

随机推荐

  1. 【转】nvidia-smi 命令解读

    nvidia-smi是linux下用来查看GPU使用情况的命令.具体的参数信息详见 原文:http://blog.csdn.net/sallyxyl1993/article/details/62220 ...

  2. swift 学习- 22 -- 嵌套类型

    // 枚举 常备用于为特定的类 或 结构体实现某些功能, 类似的, 枚举可以方便的定义工具类 或 结构体, 从而为某个复杂的类型所使用, 为了实现这种功能, Swift 允许你定义 嵌套类型, 可以在 ...

  3. Confluence 6 CSS 指南:修改顶部背景

    Confluence 默认页面的顶部是有关站点的菜单连接,在这里定义了 快速连接, 浏览菜单,用户菜单和快速查找输入框.在这个示例中,我们将会尝试修改顶部的菜单部分的背景和一些自定义的图片. 创建一个 ...

  4. 【Linux】安装多个JDK并切换

    一.JDK安装1.将安装包jdk-8u111-linux-x64.tar.gz拷贝到安装目录(如/usr/java)下.2.添加可执行权限chmod +x jdk-8u111-linux-x64.ta ...

  5. leetcode(js)算法之696计数二进制串

    给定一个字符串 s,计算具有相同数量0和1的非空(连续)子字符串的数量,并且这些子字符串中的所有0和所有1都是组合在一起的. 重复出现的子串要计算它们出现的次数. 示例: 输入: "0011 ...

  6. Hive shell 基本命令

    首先连接 hive shell 直接输入 hive启动, 使用--开头的字符串来表示注释 hive>quit; --退出hive hive> exit; --exit会影响之前的使用,所以 ...

  7. sql查询条件为空的另类写法o( ̄▽ ̄)d

    简单描述:今天看老大提交的代码,发现了一个有意思的事情,一条sql中判断条件是空,老大的写法,让我眼前一亮.直接上代码 代码: <select id="getxxxs" re ...

  8. 【python】统一转换日期格式dateutil.parser.parse

    背景: 我有很多很多的日志数据,每个日志里面都有日期字符串,我需要将其转换为datetime格式. 问题是,这些日志里的字符串格式五花八门,有2017-05-25T05:27:30.313292255 ...

  9. Linux基础实操五

    实操一:nginx服务 二进制安装nginx包1) 1)#yum clean all 2)#yum install epel-release -y 3)#yum install nginx -y 1) ...

  10. Pychram 在model中修改class属性值后更新到Navicat Premium中

    一.pycharm数据更新的问题bug问题 1.在更改user_email字端属性后出现数据库信息无法更新到数据库,出现的bug原因是数据库修改了属性之后没有做migrate 和 makemigrat ...