蚂蚁代理免费代理ip爬取(端口图片显示+token检查)
分析
蚂蚁代理的列表页大致是这样的:
端口字段使用了图片显示,并且在图片上还有各种干扰线,保存一个图片到本地用画图打开观察一下:
仔细观察蓝色的线其实是在黑色的数字下面的,其它的干扰线也是,所以这幅图是先绘制的干扰线又绘制的端口数字,于是就悲剧了,干扰线形同虚设,所以还是有办法识别的。
然后就是ip字段,看了下ip字段很老实没啥猫腻。
注意到这个列表有一个按端口号筛选的功能,很兴奋的试了一下以为可以绕过去,然后:
端口号是不用图片显示了,但是ip地址的最后一部分用图片显示,还是老老实实识别端口号吧。
另外就是对于端口号图片的url也是先存储在元素属性上然后又设置的,它默认返回的src是空的:
还有就是对于图片的访问需要有一个proxy_token的cookie,否则的话访问不了这张图片,这个算是做的比较好的了,其它的站点一般都是对图片访问没有限制。
这个proxy_token是在页面返回的时候设置的,同时设置了图片的src,可以在页面底部找到这段js:
$(function() {
document.cookie = "proxy_token=mcmoveng;path=/";
$("img.js-proxy-img").each(function(index, item) {
$(this).attr("src", $(this).attr("data-uri")).removeAttr("data-uri");;
});
});
在页面返回的时候提取出对应的proxy_token即可。
代码实现
识别端口号的话使用这个库:https://github.com/CC11001100/commons-simple-character-ocr
首先需要收集一些图片来生成标注图片,这里选了它的随机选择5位数端口的列表,这样得到的数字更多可以少下几张。
另外需要注意的是对图片去噪音使用的是SingleColorClean,这种过滤器会将图片上除了指定颜色(未指定的话默认是黑色)之外的颜色统统过滤掉,正好适合这里除了字体的黑色其它干扰线统统过滤掉,当然是有一定几率干扰线是黑色的过滤不掉的,几率大概是1/0XFFFFFF吧…haha
下载一些图片生成标注图片:
package org.cc11001100.t1; import cc11001100.ocr.OcrUtil;
import cc11001100.ocr.clean.SingleColorFilterClean;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document; import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.IOException;
import java.nio.charset.StandardCharsets;
import java.util.regex.Matcher;
import java.util.regex.Pattern; /**
* @author CC11001100
*/
public class AntProxyGrab { private static OcrUtil ocrUtil; static {
ocrUtil = new OcrUtil().setImageClean(new SingleColorFilterClean());
} private static void grabImage(String saveBasePath) {
String url = "http://www.mayidaili.com/free/fiveport/";
for (int i = 0; i < 10; i++) {
String responseContent = getResponseContent(url + i);
String proxyToken = parseProxyToken(responseContent);
Document doc = Jsoup.parse(responseContent);
doc.select(".js-proxy-img").forEach(elt -> {
String imgLink = elt.attr("data-uri");
byte[] imgBytes = download(imgLink, proxyToken);
try {
BufferedImage img = ImageIO.read(new ByteArrayInputStream(imgBytes));
String savePath = saveBasePath + "/" + System.currentTimeMillis() + ".png";
ImageIO.write(img, "png", new File(savePath));
System.out.println("save img " + imgLink);
} catch (IOException e) {
e.printStackTrace();
}
});
}
} private static String parseProxyToken(String responseContent) {
Matcher matcher = Pattern.compile("proxy_token=(.+);path=/").matcher(responseContent);
if (matcher.find()) {
return matcher.group(1);
}
return "";
} private static String getResponseContent(String url) {
byte[] responseBytes = download(url);
return new String(responseBytes, StandardCharsets.UTF_8);
} private static byte[] download(String url) {
return download(url, "");
} private static byte[] download(String url, String proxyToken) {
for (int i = 0; i < 3; i++) {
try {
return Jsoup.connect(url).cookie("proxy_token", proxyToken).execute().bodyAsBytes();
} catch (IOException e) {
e.printStackTrace();
}
}
return new byte[0];
} public static void main(String[] args) {
String rawImageSaveDir = "E:/test/proxy/ant/raw/";
String distinctCharImgSaveDir = "E:/test/proxy/ant/char/";
grabImage(rawImageSaveDir);
ocrUtil.init(rawImageSaveDir, distinctCharImgSaveDir);
} }
现在去E:/test/proxy/ant/char/将图片名称改为其代表的意思:
上面的标注数据生成完grabImage方法就没用了,在此基础上修改一下爬取前十页的内容并返回:
package org.cc11001100.t1; import cc11001100.ocr.OcrUtil;
import cc11001100.ocr.clean.SingleColorClean;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document; import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.List;
import java.util.Objects;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.stream.Collectors; /**
* @author CC11001100
*/
public class AntProxyGrab { private static OcrUtil ocrUtil; static {
ocrUtil = new OcrUtil().setImageClean(new SingleColorClean());
ocrUtil.loadDictionaryMap("E:/test/proxy/ant/char/");
} private static List<String> grabProxyIp() {
String url = "http://www.mayidaili.com/free/fiveport/";
List<String> resultList = new ArrayList<>();
for (int i = 0; i < 10; i++) {
String responseContent = getResponseContent(url + i);
String proxyToken = parseProxyToken(responseContent);
Document doc = Jsoup.parse(responseContent);
List<String> ipList = doc.select("tbody tr").stream().map(elt -> {
String ip = elt.select("td:eq(0)").text();
String imgLink = elt.select(".js-proxy-img").attr("data-uri");
byte[] imgBytes = download(imgLink, proxyToken);
try {
BufferedImage img = ImageIO.read(new ByteArrayInputStream(imgBytes));
String port = ocrUtil.ocr(img);
return ip + ":" + port;
} catch (IOException e) {
e.printStackTrace();
}
return null;
}).filter(Objects::nonNull).collect(Collectors.toList());
resultList.addAll(ipList);
}
return resultList;
} private static String parseProxyToken(String responseContent) {
Matcher matcher = Pattern.compile("proxy_token=(.+);path=/").matcher(responseContent);
if (matcher.find()) {
return matcher.group(1);
}
return "";
} private static String getResponseContent(String url) {
byte[] responseBytes = download(url);
return new String(responseBytes, StandardCharsets.UTF_8);
} private static byte[] download(String url) {
return download(url, "");
} private static byte[] download(String url, String proxyToken) {
for (int i = 0; i < 3; i++) {
try {
return Jsoup.connect(url).cookie("proxy_token", proxyToken).execute().bodyAsBytes();
} catch (IOException e) {
e.printStackTrace();
}
}
return new byte[0];
} public static void main(String[] args) {
grabProxyIp().forEach(System.out::println);
} }
蚂蚁代理免费代理ip爬取(端口图片显示+token检查)的更多相关文章
- requests 使用免费的代理ip爬取网站
import requests import queue import threading from lxml import etree #要爬取的URL url = "http://xxx ...
- Scrapy爬取美女图片第三集 代理ip(上) (原创)
首先说一声,让大家久等了.本来打算那天进行更新的,可是一细想,也只有我这样的单身狗还在做科研,大家可能没心思看更新的文章,所以就拖到了今天.不过忙了521,522这一天半,我把数据库也添加进来了,修复 ...
- Scrapy爬取美女图片第四集 突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...
- 百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
- Python爬取谷歌街景图片
最近有个需求是要爬取街景图片,国内厂商百度高德和腾讯地图都没有开放接口,查询资料得知谷歌地图开放街景api 谷歌捷径申请key地址:https://developers.google.com/maps ...
- Python爬虫学习(6): 爬取MM图片
为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站 进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...
- Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
- Scrapy-多层爬取天堂图片网
1.根据图片分类对爬取的图片进行分类 开发者选项 --> 找到分类地址 爬取每个分类的地址通过回调函数传入下一层 name = 'sky'start_urls = ['http: ...
- python3爬取女神图片,破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...
随机推荐
- [Luogu1801] 黑匣子 - Treap
Description Black Box是一种原始的数据库.它可以储存一个整数数组,还有一个特别的变量i.最开始的时候Black Box是空的.而i等于0.这个Black Box要处理一串命令. 命 ...
- 服务器批量管理软件ansible安装以及配置
1.yum安装(管理主机以及被管理主机都需要安装) yum install epel-release yum install ansible 2.配置管理主机 vim /etc/ansible/hos ...
- Python操作SQLAchemy
如果对代码不懂就看这个:http://www.cnblogs.com/jixuege-1/p/6272888.html 本篇对于Python操作MySQL主要使用两种方式: 原生模块 pymsql O ...
- glut 深度测试无不起作用问题解决
OpenGL中使用glEnable(GL_DEPTH_TEST)后深度测试没有起作用,发现深度缓冲没有创建.glut库在兼容模式(GL_COMPATIBILITY_PROFILE)下displaymo ...
- linux-非root用户运行tomcat
# 前言:为什么要使用非root用户运行tomcat root用户启动tomcat有一个严重的问题,那就是tomcat具有root权限. 这意味着你的任何一个页面脚本(html/js)都具有root权 ...
- Goldwell平台官网简介-欢迎咨询经理罗琪
Goldwell平台官网简介-欢迎咨询经理罗琪1: Goldwell官网是一家国际衍生品的经纪公司.它对柬埔寨金融市场和客户绝对的承诺,在SECC的监管和保护下,提供了更加多元化的金融交易工具. Go ...
- javascript实现双向数据绑定
双向数据绑定已经是面试中经常被问到的点,需要对原理和实现都要有一定了解. 下面是实现双向绑定的两种方法: 属性劫持 脏数据检查 一.属性劫持 主要是通过Object对象的defineProperty方 ...
- java小白设计模式之观察者模式
观察者模式: 对象之间多对一依赖的一种设计方案,被依赖对象为Subject(一),依赖对象为Observer(多),Subject通知Observer变化直接代码: package com.wz.tw ...
- 分析 ajax 请求并抓取今日头条街拍美图
首先分析街拍图集的网页请求头部: 在 preview 选项卡我们可以找到 json 文件,分析 data 选项,找到我们要找到的图集地址 article_url: 选中其中一张图片,分析 json 请 ...
- codeforces 842D Vitya and Strange Lesson
题目大意: 定义mex数为数组中第一个没有出现的非负整数.有m个操作,每个操作有一个x,将数组中所有的元素都异或x,然后询问当前的mex Input First line contains two i ...