用c#编写爬虫在marinetraffic下载船仅仅图片
近期在做船仅仅识别方面的事情,须要大量的正样本来训练adaboost分类器。
于是到marinetraffic这个站点上下载船仅仅图片。写个爬虫来自己主动下载显然非常方便。
站点特点
在介绍爬虫之前首先了解一下marinetraffic这个站点的一些特点:
1. 会定期检測爬虫行为。假设觉得有爬虫大量下载图片。
会把该连接增加黑名单,后几天都没办法下载。
2. 船仅仅图片资源差异大。有的船仅仅有1000多张图,有的船仅仅没有一张图,我们须要的是非常多船仅仅的非常多张图。所以须要对下载的船仅仅按优先级排序。
3. 用来训练分类器的正样本要求检測对象的分辨率一样。而marinetraffic站点下载的图片能够设置下在的图片的宽度,站点依据长宽比,生成对应的高度。所以。不同图片高度不一样。须要自己后期处理。
解决方式
- 针对爬虫检測。设置一个随机等待时间,10s左右。能够绕过站点爬虫行为检測。
- 对船仅仅依照图片熟练排序,先下载图片数量多的,而且每一个船仅仅不用下载太多。保证图片的差异性。比如
- 在下载的时候使用统一的宽度。
后期处理从图片中抠出分辨率一样的船仅仅
爬虫源代码
using System;
using System.Collections.Generic;
using System.Globalization;
using System.IO;
using System.Linq;
using System.Net;
using System.Runtime.Serialization.Formatters.Binary;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading;
using System.Threading.Tasks;
namespace 船仅仅图像爬虫
{
class Program
{
static void download_all_shipid(List<string> shipid_list)
{
try
{
WebClient MyWebClient = new WebClient();
MyWebClient.Headers["User-Agent"] = "blah";
MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据;
//Console.WriteLine("here1");
//http://www.marinetraffic.com/en/photos/of/ships/shipid:281519/
//http://www.marinetraffic.com/en/ais/index/ships/all
//http://www.marinetraffic.com/ais/index/ships/all/page:2/sort:COUNT_PHOTOS/direction:desc;
for (int pageNum = 1; pageNum < 100; pageNum++)
{
Console.WriteLine("開始分析第" + pageNum + "张网页");
MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据;
MyWebClient.Headers["User-Agent"] = "blah";
try
{
//Console.WriteLine("here0");
Byte[] pageData = MyWebClient.DownloadData(@"http://www.marinetraffic.com/en/ais/index/ships/all/page:" + pageNum + "/sort:COUNT_PHOTOS/direction:desc/per_page:50"); //从指定站点下载数据
//pageHtml = Encoding.Default.GetString(pageData); //假设获取站点页面採用的是GB2312,则使用这句;
string pageHtml = Encoding.UTF8.GetString(pageData); //假设获取站点页面採用的是UTF-8。则使用这句;
//Console.WriteLine(pageHtml);//在控制台输入获取的内容;
//Console.WriteLine("here1");
int urlindex = -1;
string org_label = "shipid:";
urlindex = pageHtml.IndexOf(org_label, urlindex + 1);
while (urlindex != -1)
{
int endOfUrl = pageHtml.IndexOf("/", urlindex + org_label.Length);
//Console.WriteLine("here2");
string shipid = pageHtml.Substring(urlindex + org_label.Length, endOfUrl - urlindex - org_label.Length);
if (!shipid_list.Contains(shipid))
{
Console.WriteLine("新增id:" + shipid);
shipid_list.Add(shipid);
}
//Console.WriteLine("已有id:" + shipid);
urlindex = pageHtml.IndexOf(org_label, urlindex + 1);
}
///保存网页
//using (StreamWriter sw = new StreamWriter("ouput.html"))//将获取的内容写入文本
//{
// sw.Write(pageHtml);
//}
Console.WriteLine("完毕第" + pageNum + "页分析");
}
catch (WebException webEx)
{
Console.WriteLine(webEx.Message.ToString());
}
//以下是一个随机数的方法保证10秒后再下载。以绕过违规检測。
Console.Write("绕开站点爬虫行为检測中......");
Random rd = new Random();
int time_sleep = rd.Next() % 10 + 10;
Thread.Sleep(time_sleep * 1000);
Console.WriteLine();
}
Console.WriteLine("分析结束");
//以下把list内容保存进文件,使用序列化的方法;
string file = @"C:\Users\dragonfive\Desktop\爬虫获得船仅仅图片\第三批\0_100page_shipid.txt";
using (FileStream fsWriter = new FileStream(file, FileMode.OpenOrCreate, FileAccess.Write))
{
//以下对stu进行序列化。
BinaryFormatter bf = new BinaryFormatter();
bf.Serialize(fsWriter, shipid_list);
}
}
catch (WebException webEx)
{
Console.WriteLine(webEx.Message.ToString());
}
}
/// <summary>
/// 依据得到的ship_id获得该ship_id的全部图片;
/// </summary>
/// <param name="ship_id"></param>
static void download_jpg(string ship_id)
{
try
{
Console.WriteLine("開始下载shipid为:"+ship_id+"的图片");
WebClient MyWebClient = new WebClient();
MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据
MyWebClient.Headers["User-Agent"] = "blah";
//http://www.marinetraffic.com/en/photos/of/ships/shipid:281519/
//http://www.marinetraffic.com/en/photos/of/ships/shipid:371668/per_page:1000/page:1
Byte[] pageData = MyWebClient.DownloadData(@"http://www.marinetraffic.com/en/photos/of/ships/shipid:" + ship_id + @"/per_page:100/page:1"); //从指定站点下载数据
//string pageHtml = Encoding.Default.GetString(pageData); //假设获取站点页面採用的是GB2312。则使用这句
string pageHtml = Encoding.UTF8.GetString(pageData); //假设获取站点页面採用的是UTF-8,则使用这句
//Console.WriteLine(pageHtml);//在控制台输入获取的内容
Console.WriteLine("元网页已下载");
//using (StreamWriter sw = new StreamWriter("ouput.html"))//将获取的内容写入文本
//{
// sw.Write(pageHtml);
//}
int urlindex = -1;
string org_label = "data-original='";
urlindex = pageHtml.IndexOf(org_label, urlindex + 1);
int i = 0;
//Directory.CreateDirectory(@"./" );
while (urlindex != -1)
{
int endOfUrl = pageHtml.IndexOf("'", urlindex + org_label.Length);
string url = pageHtml.Substring(urlindex + org_label.Length, endOfUrl - urlindex - org_label.Length);
////以下是unicode编码转换为string的方式;
//MatchCollection mc = Regex.Matches(strName, @"\\u([\w]{2})([\w]{2})", RegexOptions.Compiled | RegexOptions.IgnoreCase);
//byte[] bts = new byte[2];
//foreach (Match m in mc)
//{
// bts[0] = (byte)int.Parse(m.Groups[2].Value, NumberStyles.HexNumber);
// bts[1] = (byte)int.Parse(m.Groups[1].Value, NumberStyles.HexNumber);
// musicName += Encoding.Unicode.GetString(bts);
//}
//Console.WriteLine("接下来下载的是:" + musicName);
//以下是一个随机数的方法保证10秒后再下载。以绕过违规检測。
Console.Write("绕过站点爬虫行为检測中......");
Random rd = new Random();
int time_sleep = rd.Next() % 10 + 10;
Thread.Sleep(time_sleep * 1000);
Console.WriteLine();
try
{
//这是下载的命令;
Console.WriteLine(url);
MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据
MyWebClient.Headers["User-Agent"] = "blah";
Byte[] jpgdata = MyWebClient.DownloadData(url); //从指定网页下载数据;
//把下载的内容保存在一个地方;
using (FileStream fs = new FileStream(@"C:\Users\dragonfive\Desktop\爬虫获得船仅仅图片\第三批\" + ship_id + "_" + i + ".jpg", FileMode.OpenOrCreate, FileAccess.Write))
{
fs.Write(jpgdata, 0, jpgdata.Length);
}
}
catch (WebException webEx)
{
Console.WriteLine("被捕获了吗?");
Console.WriteLine(webEx.Message.ToString());
}
Console.WriteLine("成功下载第" + (i ++) + "张图片");
urlindex = pageHtml.IndexOf(org_label, urlindex + 1);
}
///保存网页
//using (StreamWriter sw = new StreamWriter("ouput.html"))//将获取的内容写入文本
//{
// sw.Write(pageHtml);
//}
Console.WriteLine("*****************************************");
Console.WriteLine("下载"+i+"张ship_id为"+ship_id+"的图片");
Console.WriteLine("*****************************************");
//Console.ReadLine(); //让控制台暂停,否则一闪而过了
}
catch (WebException webEx)
{
Console.WriteLine(webEx.Message.ToString());
}
}
static void Main(string[] args)
{
List<string> shipid_list = new List<string>();
//shipid_list.Add("371681");//临时高速产生图片用这个;
download_all_shipid(shipid_list);
//string file = @"C:\Users\dragonfive\Desktop\爬虫获得船仅仅图片\第三批\0_100page_shipid.txt";
//using (FileStream fsReader = new FileStream(file, FileMode.Open, FileAccess.Read))
//{
// //以下进行反序列话;
// BinaryFormatter bf = new BinaryFormatter();
// shipid_list = (List<string>)bf.Deserialize(fsReader);
// Console.WriteLine("成功加载" + shipid_list.Count + "个shipid");
//}
////371652 371668 371681 1252401
//shipid_list.Remove("371652");
//shipid_list.Remove("371668");
//shipid_list.Remove("371681");
//shipid_list.Remove("1252401");
////132264
//shipid_list.Remove("371077");
//shipid_list.Remove("132264");
//shipid_list.Remove("224871");
//shipid_list.Remove("279923");
//shipid_list.Remove("369163");
//shipid_list.Remove("266342");
//shipid_list.Remove("371216");
//shipid_list.Remove("368174");
//shipid_list.Remove("369163");
foreach (var ship_id in shipid_list)
{
download_jpg(ship_id);
}
Console.ReadLine(); //让控制台暂停,否则一闪而过了
}
}
}
用c#编写爬虫在marinetraffic下载船仅仅图片的更多相关文章
- 【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器 之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
- 关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结 总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...
- python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器 制作爬虫的基本步骤 顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要, ...
- Python3 网络爬虫:漫画下载,动态加载、反爬虫这都不叫事
一.前言 作者:Jack Cui 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那 ...
- 编写爬虫程序的神器 - Groovy + Jsoup + Sublime
写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作.由于.NET BCL只提供了"底层"的HttpWebRequest和"中层& ...
- 编写爬虫程序的神器 - Groovy + Jsoup + Sublime(转)
写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作.由于.NET FCL只提供了"底层"的HttpWebRequest和"中层& ...
- 【Python3爬虫】使用异步协程编写爬虫
一.基本概念 进程:进程是一个具有独立功能的程序关于某个数据集合的一次运行活动.进程是操作系统动态执行的基本单元. 线程:一个进程中包含若干线程,当然至少有一个线程,线程可以利用进程所拥有的资源.线程 ...
- Python爬虫之足球小将动漫(图片)下载
尽管俄罗斯世界杯的热度已经褪去,但这届世界杯还是给全世界人民留下了无数难忘的回忆,不知你的回忆里有没有日本队的身影?本次世界杯中,日本队的表现让人眼前一亮,很难想象,就是这样一只队伍,二十几年还是 ...
- Python爬虫之多线程下载程序类电子书
近段时间,笔者发现一个神奇的网站:http://www.allitebooks.com/ ,该网站提供了大量免费的编程方面的电子书,是技术爱好者们的福音.其页面如下: 那么我们是否可以通过Py ...
随机推荐
- JQ加载进度条动画
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- Maven(一)之Maven入门
一.Maven简介 Maven可以翻译为“知识的积累”.“专家”.“内行”.作为Apache组织中的一个颇为成功的开源项目,Maven主要服务于基于Java平台的项目构建.依赖管理.和项目信息管理.M ...
- c# 静态成员和实例成员的区别
静态成员也称为共享成员,例如静态属性 静态字段 静态方法:静态成员可以在类的实例之间共享. 静态类中只能有静态成员,不能有实例成员,因为静态类不能进行实例化: 在非静态类中 即可以有静态成员 也可以有 ...
- vue单页面前端做非空校验
form表单 确定按钮 js部分 确定按钮的方法
- yii2.0中使用jquery
我们都知道 yii 框架是组件式开发的,使用 jquery 也是非常简单的.只需要注册一下就可以使用非常简单的 jquery 代码了! <?php $this->beginBlock('s ...
- ES6学习4 变量的解构赋值
变量的解构赋值 一.数组结构赋值 1.数组结构赋值 let [a, b, c] = [1, 2, 3]; ES6 可以从数组中提取值,按照对应位置,对变量赋值. 1) 本质上,这种写法属于“模式匹配 ...
- 测试cnblog文章内部JS
添加几个按钮 行内js 写法: <button onclick="javascript:alert('行内js')">行内js</button> 注意:al ...
- bzoj1935 [Shoi2007]园丁的烦恼
bzoj1935 [Shoi2007]园丁的烦恼 有N个点坐标为(xi,yi),M次询问,询问(a,b)-(c,d)的矩形内有多少点. 0≤n≤500000,1≤m≤500000,0≤xi,yi≤10 ...
- oracle创建静态监听
[oracle@localhost admin]$ pwd /u01/app/oracle/product/11.2.0/dbhome_1/network/admin [oracle@localhos ...
- Unity C# 设计模式(五)建造者模式
定义: 将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示. 组成部分: 1.Builder:给出一个抽象接口,以规范产品对象的各个组成成分的建造.这个接口规定要实现复杂对象的哪 ...