urllib练习

# coding = utf-8

"""

解析https://www.kuaidaili.com/free/网站里的代理地址，

并测试是否可用

"""

import re

import time

import urllib.request

def downHtml(url, retry=3):

    """

    请求网页地址并下载源代码，如果请求失败，重试三次

    :param url: 请求地址

    :param retry: 重试次数

    :return: 网页源码

    """

    try:

        request = urllib.request.Request(url)

        # 获取网页源码

        html = urllib.request.urlopen(request).read().decode()

    except urllib.error.URLError as e:

        print('请求异常：', e.reason)

        if retry > 0:

            time.sleep(2)  # 两秒后重试

            downHtml(url, retry=retry-1)

        else:

            return None

    else:

        return html

def getProxy(html):

    """

    使用正则表达式，从源码中匹配出所有的代理

    :param html: 网页源码

    :return: 列表，包含匹配的代理

    """

    proxies = re.findall(r'<td data-title="IP">(.*?)</td>.*?<td data-title="PORT">(.*?)</td>', html, re.S)

    return proxies

def isAbleToUse(ips):

    """

    利用ip测试网站，判断获取的代理是否可用

    :param ips: 匹配到的代理ip

    :return:

    """

    # 测试网站

    url = "http://httpbin.org/ip"

    # 构造代理

    proxy = {'http': '{}:{}'.format(ips[0], ips[1]), 'https': '{}:{}'.format(ips[0], ips[1])}

    # 创建代理处理器

    proxies = urllib.request.ProxyHandler(proxy)

    # 创建opener处理对象

    opener = urllib.request.build_opener(proxies, urllib.request.HTTPHandler)

    urllib.request.install_opener(opener)

    try:

        data = opener.open(url).read().decode()  # 请求

        print(data)

    except Exception as e:

        print(e)

    else:

        print('{}：{}'.format(ips[0], ips[1]), '可用！')

if __name__ == '__main__':

    url = "https://www.kuaidaili.com/free/"

    # 获取源码

    html = downHtml(url)

    # 从源码中解析代理

    proxies = getProxy(html)

    # 测试代理是否可用

    for proxy in proxies:

        isAbleToUse(proxy)

urllib练习的更多相关文章

python urllib
在伴随学习爬虫的过程中学习了解的一些基础库和方法总结扩展 1. urllib 在urllib.request module中定义下面的一些方法 urllib.request.urlopen(url,d ...
Python3使用urllib访问网页
介绍改教程翻译自python官网的一篇文档. urllib.request是一个用于访问URL(统一资源定位符)的Python模块.它以urlopen函数的形式提供了一个非常简单的接口,可以访问使用 ...
爬虫初探(1)之urllib.request
-----------我是小白------------ urllib.request是python3自带的库(python3.x版本特有),我们用它来请求网页,并获取网页源码. # 导入使用库 imp ...
python 3.x urllib学习
urllib.request import urllib.request as ur url='http://ie.icoa.cn' user_agent = 'Mozilla/4.0 (compat ...
Python爬虫学习（1）： urllib的使用
1.urllib.urlopen 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作 In [1]: import urllibIn [2]: file = urllib.urlo ...
python2 与 python3 urllib的互相对应关系
urllib Python2 name Python3 nameurllib.urlopen() Deprecated. See urllib.request.urlopen() which mirr ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
初学python之urllib
urllib.request urlopen()urllib.urlopen(url, data, proxies) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远 ...
urllib.urlretrieve的用法
urllib.urlretrieve(url, local, cbk) urllib.urlretrieve(p,'photo/%s.jpg'%p.split('/')[-4]) url要下载的网站 ...
关于python3.X 报"import urllib.request ImportError: No module named request"错误,解决办法
#encoding:UTF-8 import urllib.request url = "http://www.baidu.com" data = urllib.request.u ...

随机推荐

Unity调用Android
1.Unity调用Android 根据unity用户手册,unity可以采用native code(c/c++),但是也提供了C#调用方法,本文对此进行简单讲解. 2.Unity获取android类 ...
docker-compose下的java应用启动顺序两部曲之一：问题分析
在docker-compose编排多个容器时,需要按实际情况控制各容器的启动顺序,本文是<docker-compose下的java应用启动顺序两部曲>的第一篇,文中会分析启动顺序的重要性, ...
TCP连接的关闭
原文地址:http://lib.csdn.net/article/computernetworks/17264 TCP连接的关闭有两个方法close和shutdown,这篇文章将尽量精简的说明它们 ...
Windows下NFS服务器SFU设置（可以共享linux系统）
一.安装SFU1.下载软件SFU http://download.microsoft.com/download/a/1/c/a1ca7af1-a6e3-46e7-874a-4c5d8c0fb3b7/S ...
全方面讲解TensorFlow
任何曾经试图在 Python 中只利用 NumPy 编写神经网络代码的人都知道那是多么麻烦.编写一个简单的一层前馈网络的代码尚且需要 40 多行代码,当增加层数时,编写代码将会更加困难,执行时间也会更 ...
Codeforces Round #595 (Div. 3)B2 简单的dfs
原题 https://codeforces.com/contest/1249/problem/B2 这道题一开始给的数组相当于地图的路标,我们只需对每个没走过的点进行dfs即可 #include &l ...
前端技术之：通过plop生成Controller的方法与步骤
# Controller的生成开发者可以通过plop命令生成各种类型的控制器类(Normal.Restful.View), 以下是示例生成步骤. 1. 执行以下命令: plop controller ...
这次一定要教会你搭建Redis集群和MySQL主从同步(非Docker)
前言一直都想自己动手搭建一个Redis集群和MySQL的主从同步,当然不是依靠Docker的一键部署(虽然现在企业开发用的最多的是这种方式),所以本文就算是一个教程类文章吧,但在动手搭建之前,会先聊 ...
JNI技术实现--Java调C/C++
废话不多说,首先我们来看Java调用C/C++步骤: 1.编写Java代码,在代码中使用native关键字标明该方法是调用本地库,不需要实现. 2.使用javah -jni 命令,生成对应的头文件,此 ...
第一个appium测试用例
from time import sleep from appium import webdriver import pytest class TestXueqiu: user_profile_id ...

urllib练习

urllib练习的更多相关文章

随机推荐

热门专题