python 爬取可用

#coding:utf-8

from bs4 import BeautifulSoup

import time

import threading

import random

import telnetlib,requests

#设置全局超时时间为3s，也就是说，如果一个请求3s内还没有响应，就结束访问，并返回timeout（超时）

import socket

socket.setdefaulttimeout(3)

headers = {

"user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36",

}

def get_ip():

    #获取代理IP，返回列表

    httpResult=[]

    httpsResult=[]

    try:

        for page in range(1,10):

            IPurl = 'http://www.xicidaili.com/nn/%s' %page

            rIP=requests.get(IPurl,headers=headers)

            IPContent=rIP.text

            #print (IPContent)

            soupIP = BeautifulSoup(IPContent,'html.parser')#lxml

            trs = soupIP.find_all('tr')

            for tr in trs[1:]:

                tds = tr.find_all('td')

                ip = tds[1].text.strip()

                port = tds[2].text.strip()

                protocol = tds[5].text.strip()

                if protocol == 'HTTP':

                    httpResult.append( 'http://' + ip + ':' + port)

                elif protocol =='HTTPS':

                    httpsResult.append( 'https://' + ip + ':' + port)

    except Exception as inst:

        print (inst)

    return httpResult,httpsResult

#验证ip地址的可用性，使用requests模块，验证地址用相应要爬取的网页 http

def cip(x,y):

    f = open("E:\ip_http.txt","a")

    f.truncate()

    try:

        print (x+y)

        requests.get('http://ip.chinaz.com/getip.aspx',proxies={'http':x+":"+y},timeout=3)

    except:

        print('f')

    else:

        print('---------------------------success')

        f.write(x+':'+y+'\n')

#验证ip地址的可用性，使用requests模块，验证地址用相应要爬取的网页。https

def csip(x,y):

    f = open("E:\ip_https.txt","a")

    f.truncate()

    try:

        print (x+y)

        requests.get('https://www.lagou.com/',proxies={'https':x+":"+y},timeout=3)

    except:

        print('f')

    else:

        print('---------------------------success')

        f.write(x+':'+y+'\n')

def main():

    httpResult,httpsResult = get_ip()

    print(len(httpResult), len(httpsResult))

    threads = []

    open("E:\ip_http.txt","a").truncate()

    for i in httpResult:

        a = str(i.split(":")[-2][2:].strip())

        b = str(i.split(":")[-1].strip())

        t = threading.Thread(target=cip,args=(a,b,))

        threads.append(t)

    for i in range(len(httpResult)):

        threads[i].start()

    for i in range(len(httpResult)):

        threads[i].join()

    threads1 = []

    open("E:\ip_https.txt","a").truncate()

    for i in httpsResult:

        a = str(i.split(":")[-2][2:].strip())

        b = str(i.split(":")[-1].strip())

        t = threading.Thread(target=csip,args=(a,b,))

        threads1.append(t)

    for i in range(len(httpsResult)):

        threads1[i].start()

    for i in range(len(httpsResult)):

        threads1[i].join()

if __name__ == '__main__':

    main()

python 爬取可用的更多相关文章

利用Python爬取可用的代理IP
前言就以最近发现的一个免费代理IP网站为例:http://www.xicidaili.com/nn/.在使用的时候发现很多IP都用不了. 所以用Python写了个脚本,该脚本可以把能用的代理IP检测 ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
用Python爬取网易云音乐热评
用Python爬取网易云音乐热评本文旨在记录Python爬虫实例:网易云热评下载由于是从零开始,本文内容借鉴于各种网络资源,如有侵权请告知作者. 要看懂本文,需要具备一点点网络相关知识.不过没有关 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

随机推荐

深入理解 JavaScript 执行上下文和执行栈
前言如果你是一名 JavaScript 开发者,或者想要成为一名 JavaScript 开发者,那么你必须知道 JavaScript 程序内部的执行机制.执行上下文和执行栈是 JavaScript ...
2019前端面试题汇总（主要为Vue）
摘要: 经典面试题. 原文:2019前端面试题汇总(主要为Vue) 作者:前端小酱 Fundebug经授权转载,版权归原作者所有. 毕业之后就在一直合肥小公司工作,没有老司机.没有技术氛围,在技术的道 ...
Selenium自动化-调用Mysql数据库
上几篇博客发布了几篇Selenium入门知识和进阶, 现在附上如何从数据库中取值能够逐行取值,并且返回二维数组 import java.io.FileInputStream; import jav ...
Jquery 使用和Jquery选择器
jQuery中的顶级对象($) jQuery 中最常用的对象即 $ 对象,要想使用 jQuery 的方法必须通过 $ 对象.只有将普通的 Dom 对象封装成 jQuery 对象,然后才能调用 jQue ...
基础环境系列：MySQL8.0.12
机型与版本:windows10(64-bits) Mysql环境配置:mysql8.0.12 一.MySQL安装 Mysql的安装有两种方法,一种是通过.msi一种是通过压缩包.穷呢,大家就老实下社区 ...
leetcode-48.旋转图像
leetcode-48.旋转图像 point: 数组题意给定一个 n × n 的二维矩阵表示一个图像. 将图像顺时针旋转 90 度. 说明: 你必须在原地旋转图像,这意味着你需要直接修改输入的二维 ...
windows下QT打包
1.找到对应的MinGW命令,打开 2.进入exe目录 3.执行windeployqt XX.exe
测者的性能测试手册：Yourkit 监控JettyYourkit 监控Jetty
Yourkit是收费工具,每一个email可以免费试用15天,觉得好的朋友可以自行选择购买服务器端下载yourkit(java) Windows安装yourkit Java Profiler 201 ...
wc基础功能
第一次作业项目地址 https://gitee.com/xxlznb/WordCount PSP WordCount 预估耗时(分钟) 实际耗时计划 20 30 预估任务需要时间 20 30 开发 ...
AngularJS学习之旅—AngularJS SQL(十二)
一.使用 PHP 从 MySQL 中获取数据 <div ng-app="myApp" ng-controller="customersCtrl"> ...

python 爬取可用

python 爬取可用的更多相关文章

随机推荐

热门专题