验证代理ip是否可用

改编自:http://www.jianshu.com/p/588241a313e7 # _*_ coding:utf-8 _*_ import urllib2 import re class TestProxy(object): def __init__(self, timeout): self.url = 'http://www.baidu.com' self.timeout = timeout self.regex = re.compile(r'baidu.com') def TestIt(…

python检验代理ip是否可用、代理ip检验

python检验代理ip是否可用.代理ip检验安装相关模块: pip install requests 验证代理IP是否可用脚本: import random import telnetlib import requests def test_ip(ip,port): try: telnetlib.Telnet(ip,port,timeout=2) print("ip "+ip+":"+port+" yes") except: print(&q…

【原创】验证代理IP是否有用

/// <summary> /// 验证代理IP是否有用 /// </summary> /// <param name="ip">IP地址</param> /// <param name="port">端口号</param> /// <returns>可用返回true</returns> static bool IsEnabled(string ip, int port)…

python代理池的构建2——代理ip是否可用的处理和检查

上一篇博客地址:python代理池的构建1--代理IP类的构建,以及配置文件.日志文件.requests请求头一.代理ip是否可用的处理(httpbin_validator.py) #-*-coding:utf-8-*- #check ip ''' 目标:检查代理IP速度,匿名程度以及支持的协议类型. 步骤: 检查代理IP速度和匿名程度; 代理IP速度:就是从发送请求到获取响应的时间间隔匿名程度检查: 对http://httpbin.org/get 或https://httpbin.org/…

Android中验证输入是否为汉字及手机号，邮箱验证，IP地址可用port号验证

1,验证是否为汉字 // 验证昵称 private boolean verifyNickname() { String nickname = edt_username.getText().toString(); if (nickname == null || nickname.length() == 0) { edt_username.setError("不能为空"); return false; } int len = 0; char[] nickchar = nickname.to…

Python 快速验证代理IP是否有效

有时候,我们需要用到代理IP,比如在爬虫的时候,但是得到了IP之后,可能不知道怎么验证这些IP是不是有效的,这时候我们可以使用Python携带该IP来模拟访问某一个网站,如果多次未成功访问,则说明这个代理是无效的.代码如下: 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!QQ群:1016…

验证代理IP

##author:wuhao#import urllib.requestfrom http import cookiejar import xlrd import threading #有效的代理,可添加一个全局变量用于存储,然后保存到文件#这里由于可行的代理IP太少,就未保存至本地 def Validate_proxy(url,proxy): opener.add_handler(urllib.request.ProxyHandler(proxy),lock) try: opener.open…

Java 验证代理ip

原文地址:http://www.cnblogs.com/junrong624/p/5416503.html 1 import java.io.IOException; import java.io.InputStream; import java.net.InetSocketAddress; import java.net.Proxy; import java.net.URL; import java.net.URLConnection; import java.nio.charset.Char…

c# 快速验证代理IP是否有用

public void yanzhen(string str, int port) { WebProxy proxyObject = new WebProxy(str, port);//str为IP地址 port为端口号 HttpWebRequest Req = (HttpWebRequest)WebRequest.Create("http://www.whatismyip.com.tw/"); Req.Proxy = proxyObject; //设置代理 HttpWebRespon…

如何验证代理ip的正确性

python requests 使用代理的话: proxy_list = ["aabbcc.aabbcc.169.aabbcc:8080", ] ip_p = random.choice(proxy_list) proxy_dict = { "http": f"http://{ip_p}", "https": f"https://{ip_p}", } 然后requests 请求 www.ip.cn 然后…

python验证代理IP

接上一篇保存的IP地址,进行验证 # -*- coding: utf-8 -*- import requests from threading import Thread import threading get_ip = open('get_ip.txt','r') headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0'} lock = th…

Python 爬虫练习(一) 爬取国内代理ip

简单的正则表达式练习,爬取代理 ip. 仅爬取前三页,用正则匹配过滤出 ip 地址和端口,分别作为key.value 存入 validip 字典. 如果要确定代理 ip 是否真的可用,还需要再对代理 ip 再进行筛查过滤,最终仅仅保存真实可用代理 ip. 可能需要修改的内容: xpath 替代正则进行抓取 ip 和端口: 验证代理 ip 是否可用: 再存入mogodb 数据库替代字典. import re import requests from collections import defa…

Python3.x：免费代理ip的批量获取并入库

Python3.x:免费代理ip的批量获取并入库一.简介网络爬虫的世界,向来都是一场精彩的攻防战.现在许多网站的反爬虫机制在不断的完善,其中最令人头疼的,莫过于直接封锁你的ip.但是道高一尺魔高一丈,在爬取网页的时候,使用上代理ip,便可以有效的避免自己的ip被封锁. 想要使用代理ip,目前你可以去相应的代理网站购买代理ip(如果是大型的项目还是推荐去购买),也可以去使用一些代理网站提供的免费的代理ip,不过这些ip还是存在很多问题的,有些不可用,有些不稳定,有些时效短.不过如果量大的话,还…

golang爬取免费代理IP

golang爬取免费的代理IP,并验证代理IP是否可用这里选择爬取西刺的免费代理Ip,并且只爬取了一页,爬取的时候不设置useAgent西刺不会给你数据,西刺也做反爬虫处理了,所以小心你的IP被封掉代码: package main import ( "fmt" "github.com/PuerkitoBio/goquery" "net/http" "net/url" "strings" ) , var…

自动爬取代理IP例子

import time import json import datetime import threading import requests from lxml import etree from queue import Queue # 爬取免费代理IP 来源xicidaili.com # 多线程验证代理ip是否可用 class ProxyTest: def __init__(self): self.test_url = "http://pv.sohu.com/cityjson?ie=ut…

python爬虫成长之路（二）：抓取代理IP并多线程验证

上回说到,突破反爬虫限制的方法之一就是多用几个代理IP,但前提是我们得拥有有效的代理IP,下面我们来介绍抓取代理IP并多线程快速验证其有效性的过程. 一.抓取代理IP 提供免费代理IP的网站还挺多的,我在'西刺代理'上一阵猛抓后自己的IP就被其屏蔽了.只好换'IP巴士'并乖乖的减缓抓取速度了.贴上抓取代码 import urllib.request import urllib import re import time import random #抓取代理IP ip_totle=[] #所有页…

爬虫爬取代理IP池及代理IP的验证

最近项目内容需要引入代理IP去爬取内容. 为了项目持续运行,需要不断构造.维护.验证代理IP. 为了绕过服务端对IP 和频率的限制,为了阻止服务端获取真正的主机IP. 一.服务器如何获取客户端IP 1.js获取本地IP后提交这种方案可以通过抓包查看交互,伪造包达到目的.本机就可以完成. 2.服务端通过 http字段获取真实IP地址可以通过伪造字段来获取(可以自己伪造,也可以通过高匿代理服务器伪造) 3.服务端通过tcp连接来确定真实IP地址这个不可能伪造,不然无法建立TCP连接. 综合情…

requests 使用免费的代理ip爬取网站

import requests import queue import threading from lxml import etree #要爬取的URL url = "http://xxxxx" #代理ip网站 proxy_url = "https://www.kuaidaili.com/free/inha/{page}/" class MyThreadPool: def __init__(self, maxsize): self.maxsize = maxsiz…

爬取代理IP

现在爬虫好难做啊,有些网站直接封IP,本人小白一个,还没钱,只能找免费的代理IP,于是去爬了西刺免费代理,结果技术值太低,程序还没调试好, IP又被封了... IP又被封了... IP又被封了... 于是又开始找其他的免费代理,找到了89免费代理,这个网站提供了API接口.在我调试过程中发现,这个API接口好像对爬虫没啥限制,哈哈哈!!! 下面附上代码: 1.这次找了好多User-Agent,以防万一. def __init__(self): self.get_ip_url = "http://…

python——代理ip获取

python爬虫要经历爬虫.爬虫被限制.爬虫反限制的过程.当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程. 爬虫的初级阶段,添加headers和ip代理可以解决很多问题. 贴代码:说下思路 1.到http://www.xicidaili.com/nn/抓取相应的代理ip地址,地址比较多,但是不保证能用.先保存到列表 2.多线程验证代理ip的可行性,然后写入到对应的txt文件 3.当需要代理ip的时候,倒入模块,执行main()函数,可得到可用的代理ip进行后续功能. 验…

100行代码打造属于自己的代理ip池

经常使用爬虫的朋友对代理ip应该比较熟悉,代理ip就是可以模拟一个ip地址去访问某个网站.我们有时候需要爬取某个网站的大量信息时,可能由于我们爬的次数太多导致我们的ip被对方的服务器暂时屏蔽(也就是所谓的防爬虫防洪水的一种措施),这个时候就需要我们的代理ip出场了思路分析(写爬虫前大家都必须要分析一下) https://www.xicidaili.com/ 上图就是我们的西刺代理网站,今天我们就是来拿它的数据,老司机一看这个界面就会自动右击鼠标->查看源代码, 我们会发现数据都在<tr>…

简单爬虫-爬取免费代理ip

环境:python3.6 主要用到模块:requests,PyQuery 代码比较简单,不做过多解释了 #!usr/bin/python # -*- coding: utf-8 -*- import requests from pyquery import PyQuery as pq class GetProxy(object): def __init__(self): # 代理ip网站 self.url = 'http://www.xicidaili.com/nn/' self.header…

免费代理ip爬虫分享

分享一个某代理网站的免费代理ip的爬虫,直接复制到pycharm运行就可以了. 注意:爬取的代理ip有点坑,因为是免费的所以过期时间很快,可能1分钟后就会失效.并且在scrapy使用这些代理ip还会给你打印一堆广告.且用且珍惜. import requests from lxml import etree import json class XiciProxiesSpider(object): def __init__(self): self.start_url = 'http://www.xi…

使用Python爬取代理ip

本文主要代码用于有代理网站http://www.kuaidaili.com/free/intr中的代理ip爬取,爬虫使用过程中需要输入含有代理ip的网页链接. 测试ip是否可以用 import telnetlib import requests from bs4 import BeautifulSoup, element import json def filter_ip(ip_info): ''' 判断给定代理ip是否可用 :param ip_info: :return: ''' ip, po…