Python 爬虫抓取代理IP，并检测联通性

帮朋友抓了一些代理IP，并根据测试联的通性，放在了不通的文件夹下。特将源码分享

注意：

1，环境Python3.5

2，安装BeautifulSoup4 requests

代码如下:

#-*- coding:gb18030 -*-

from bs4 import BeautifulSoup

import requests

import time

import os,sys

all_url_add={

'url2':'http://ip84.com/gn/',

}

def func(url):

r = requests.get(url)

content = r.text

soup = BeautifulSoup(content, "html.parser")

ListTable = soup.find_all("table", class_="list")

for table in ListTable:

ListTr = table.find_all("tr")

for tr in ListTr:

try:

ListTd = tr.find_all("td")

ipaddress = str(ListTd[0].get_text()).strip()

port = str(ListTd[1].get_text()).strip()

city = str(ListTd[2].get_text()).strip().replace("\n", "")

leixing = str(ListTd[3].get_text()).strip()

xieyi = str(ListTd[4].get_text()).strip()

shudu = str(ListTd[5].get_text()).strip()

time1 = str(ListTd[6].get_text()).strip()

f = open("ip" + '.txt', 'a')

f.write(ipaddress+":"+port+'\n')

f.close()

print('地址:'+ipaddress + "端口:" + port + "地区:" + city + "类型:" + leixing + "协议" + xieyi + "速度" + shudu + "时间:" + time1)

except Exception as e:

print (u"-------------------程序异常-----------------------")

return 'success'

print (u'本页抓取结束，正在跳转下一页')

def pin():

f2 = open('ip.txt', 'r')

count = len(open('ip.txt', 'rU').readlines())

for x in range(count):

ip = f2.readline().split(':')[0]

return1 = os.system('ping -n 5 -w 5 %s' % ip)

if return1:

print('测试失败')

else:

print('测试成功，正在写入新文件')

f3 = open('SuccessIp.txt', 'a')

f3.write(f2.readline() + '\n')

f3.close()

f2.close()

print('程序结束，可用IP已放在SuccessIp中')

if __name__=='__main__':

for x in all_url_add:

print (x)

for y in range(1,50):

url=all_url_add[x]+str(y)

print (url)

status=func(url)

if status=='success':

print(y,'页结束')

print (u'****程序抓取运行结束,正在检查所得IP连通性，请勿关闭窗口*****')

pin()

有点乱，有时间将数据存储在数据库，再将这个功能集成在博客当中。

Python 爬虫抓取代理IP，并检测联通性的更多相关文章

python爬虫爬取代理IP
# #author:wuhao # #--*------------*-- #-****#爬取代理IP并保存到Excel----#爬取当日的代理IP并保存到Excel,目标网站xicidaili.co ...
python爬虫成长之路（二）：抓取代理IP并多线程验证
上回说到,突破反爬虫限制的方法之一就是多用几个代理IP,但前提是我们得拥有有效的代理IP,下面我们来介绍抓取代理IP并多线程快速验证其有效性的过程. 一.抓取代理IP 提供免费代理IP的网站还挺多的, ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
python 爬虫抓取 MOOC 中国课程的讨论区内容
一:selenium 库 selenium 每次模拟浏览器打开页面,xpath 匹配需要抓取的内容.可以,但是特别慢,相当慢.作为一个对技术有追求的爬虫菜鸡,狂补了一些爬虫知识.甚至看了 scrapy ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...

随机推荐

SICP-1.7-递归函数
递归函数函数内部直接或间接的调用函数自身将复杂问题简单化例子程序 def sum_digits(n): """Return the sum of the digit ...
docker--数据卷与数据卷容器
docker--数据卷与数据卷容器 1.数据卷: 创建一个volumes的文件夹: [root@docker01 /]# mkdir volumes [root@docker01 /]# ls bin ...
jquery滚动条事件
<!DOCTYPE HTML> <html lang="en-US"> <head> <meta charset="UTF-8& ...
【Android Developers Training】 0. 序言：构建你的第一个应用
注:本文翻译自Google官方的Android Developers Training文档,译者技术一般,由于喜爱安卓而产生了翻译的念头,纯属个人兴趣爱好. 原文链接:http://developer ...
Idea调试显示切换数据源的设置
使用IDEA调试时,如果遇到相同方法会在编辑器上提示切换到哪个项目,因为手滑点了Disable,所以导致后来就不提示了,记录下设置方法.
极致精简的webservice例子
看了网上好多关于webservice的例子,基本上对初学者来说都是模棱两可云里雾里,现在,我将网上关于webservice的讲解提炼出来,通过一个最简单使用并且方便的例子,告诉大家什么是webserv ...
ExtJs的Ext.Ajax.request实现waitMsg等待提示效果
一. fp.form.submit 有waitMsg 属性来设置等待效果,如下.但是对于Ext.Ajax.request来说 waitMsg 并不起作用. f ...
spring整合axis2（最小配置化）的示例
参考文档: http://blog.csdn.net/xinhaoluan/article/details/3605234 环境配置: spring-framework-3.2.7 axis2-1.6 ...
MinGW（GCC）编译DLL文件
这两天用CB(Code::Blocks)写个小程序,要编译出DLL供VB(6)使用.CB使用mingw-gcc作为编译器,在库文件的产出上跟VC.VS之类的IDE略有不同. 由于C语言的基础知识不是太 ...
Win环境下Oracle小数据量数据库的物理备份
Win环境下Oracle小数据量数据库的物理备份环境:Windows + Oracle 单实例数据量:小于20G 重点:需要规划好备份的路径,建议备份文件和数据库文件分别存在不同的存储上. 1.开 ...

Python 爬虫抓取代理IP，并检测联通性

Python 爬虫抓取代理IP，并检测联通性的更多相关文章

随机推荐

热门专题