python 代理的使用

这里分享一个测试ip的网址 http://ip.filefab.com/index.php

scrapy 随机请求头和代理ip的使用原理

import random


# 添加一个中间键

class User_AgentMiddleware(object):

    def __init__(self):

        self.user_agent = [

            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

            "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

        ]

　　　# scrapy抓取前修改请求头

    def process_request(self, request, spider):

        # 添加代理

        request.meta['proxy'] = 'http://119.42.70.216:8080'   # 这里不区分 http还是https代理

        # 添加随机请求头

        ua = random.choice(self.user_agent)

        request.headers['User-Agent'] = ua

        # 默认返回None， 继续执行下一步操作

        # Response: 直接返回（没有经过process_response， 和process_exception）

        # Request: 重新进行调用本次process_request的请求

        # IgnoreRequest:


　　# 判断应抓到网页的状态

    def process_response(self, request, response, spider):

        print(response.headers)

        if response.status != 200:

            return request

        else:

            return response

    # 必须有返回值

    # request： 重新进行调用本次process_request的请求

    # response：返回源码

    # IgnoreRequest: 抛出异常， 则Request的errorback()方法被回调。 如异常没被处理， 则会被忽略

request中添加代理

# 首先确认代理的类型 是http还是https的来判断proxie的取值

proxie = {

    "http": "http://113.71.211.184:8197",

}

respons = requests.get('http://ip.filefab.com/index.php', proxies=proxie)

doc = etree.HTML(respons.text)

print(doc.xpath('.//h1[@id="ipd"]/span/text()'))

python 代理的使用的更多相关文章

python代理池的构建5——对mongodb数据库里面代理ip检查
上一篇博客地址:python代理池的构建4--mongdb数据库的增删改查一.对数据库里面代理ip检查(proxy_test.py) #-*-coding:utf-8-*- ''' 目的:检查代理I ...
python代理池的构建4——mongdb数据库的增删改查
上一篇博客地址:python代理池的构建3--爬取代理ip 一.mongdb数据库的增删改查(Mongo_pool.py) #-*-coding:utf-8-*- ''' 实现代理池的数据库模块 ●作 ...
python代理池的构建3——爬取代理ip
上篇博客地址:python代理池的构建2--代理ip是否可用的处理和检查一.基础爬虫模块(Base_spider.py) #-*-coding:utf-8-*- ''' 目标: 实现可以指定不同UR ...
python代理池的构建2——代理ip是否可用的处理和检查
上一篇博客地址:python代理池的构建1--代理IP类的构建,以及配置文件.日志文件.requests请求头一.代理ip是否可用的处理(httpbin_validator.py) #-*-codi ...
python代理池的构建1——代理IP类的构建，以及配置文件、日志文件、requests请求头
一.整体结构二.代理IP类的构建(domain.py文件) ''' 实现_ init_ 方法, 负责初始化,包含如下字段: ip: 代理的IP地址 port:代理IP的端口号 protocol: 代 ...
python 代理
1.参考 http://docs.python-requests.org/en/master/user/advanced/ Using Python’s urllib2 or Requests wit ...
python——代理ip获取
python爬虫要经历爬虫.爬虫被限制.爬虫反限制的过程.当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程. 爬虫的初级阶段,添加headers和ip代理可以解决很多问题. 贴 ...
爬虫的新手使用教程（python代理IP）
前言 Python爬虫要经历爬虫.爬虫被限制.爬虫反限制的过程.当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程.爬虫的初级阶段,添加headers和ip代理可以解决很多问题. ...
python代理爬取存入csv文件
爬取高匿代理 from urllib import request import re import time f = open('西1.csv','w',encoding='GBK') header ...

随机推荐

如何才能在python的路上走得更远
刚开始了新的课程,现在又没有什么心情学习了,不知点解就是提不起兴趣去学习,为什么呢?学习python如何才能提起劲,有什么方法可以提上劲学习?
Flyweight 享元（结构型）
一:描述:(该模式实际应用较少) Flyweight 享元模式是对大量细粒度的元素进行共享和重用.减少对象的创建减轻内存: 注和单例模式不同的是:享元模式的各个对象佣有各自的行为并可实例化,单例模式的 ...
Execute to Parse %: 29.76,数据库硬解析过高，监控告警提示数据库硬解析比例过低
客户反馈,Oracle重启库操作后,监控告警出现pin比例低于25% 根据Oracle体系结构的理解,重启库后,硬解析及buffer命中率肯定有一段时间低. 生成不同时段的AWR报告:不要生成rac ...
Golang中的函数
函数在go语言中,函数的基本组成为:关键字func.函数名.参数列表.返回值.函数体和返回语句函数的定义定义一个最简单的加法函数 func Add(a int,b int)(ret int,er ...
office2013 Word 缺少校对工具，按提示下载、安装了文件还是不成功的解决方案
找到你的office安装源iso镜像加载 ——点开镜像双击setup.exe ——选择添加或删除功能 ——下一步——其他的不要动,展开office共享功能项 ——找到校对工具点出下拉项(点朝下的黑色箭 ...
svg常见形状
SVG是使用XML来描述二维图形和绘图程序的语言.是指可伸缩矢量图形(Scalable Vector Graphics),svg.图像在放大或改变尺寸的情况下图形质量不会有所损失. svg的主要竞争者 ...
锚点的animate使用过程中定位不准确的问题小记
源码: $('html, body, .S').animate({ scrollTop: $('.a1').offset().top - 133}, { duration: 1500, easing: ...
18.python关于mysql的api
一.pymysql模块1.pymysql是Python中操作MySQL的模块2.执行sql语句(1)连接数据库: import pymysql #连接mysql数据库创建conn对象(host连接的机 ...
在Windows下通过压缩包方式安装MySQL
需求:下载MySQL有两种方法,一是下载可执行文件,通过点点点的方式,比较简单没什么技术含量,但是之前通过此方法下载的MySQL与Python进行连接交互的时候总是报1045错误,一直没找到原因,尝试 ...
关于crontab
crontab是一个linux系统自带的定时执行任务的功能,有两种方法可以实现 1: 使用命令 crontab -e 然后直接编辑定时脚本,实际是编辑/var/spool/cron 目录下,一个和用户 ...

python 代理的使用

python 代理的使用的更多相关文章

随机推荐

热门专题