站点特点

在介绍爬虫之前首先了解一下marinetraffic这个站点的一些特点：

1. 会定期检測爬虫行为。假设觉得有爬虫大量下载图片。

会把该连接增加黑名单，后几天都没办法下载。

2. 船仅仅图片资源差异大。有的船仅仅有1000多张图，有的船仅仅没有一张图，我们须要的是非常多船仅仅的非常多张图。所以须要对下载的船仅仅按优先级排序。

3. 用来训练分类器的正样本要求检測对象的分辨率一样。而marinetraffic站点下载的图片能够设置下在的图片的宽度，站点依据长宽比，生成对应的高度。所以。不同图片高度不一样。须要自己后期处理。

解决方式

针对爬虫检測。设置一个随机等待时间，10s左右。能够绕过站点爬虫行为检測。
对船仅仅依照图片熟练排序，先下载图片数量多的，而且每一个船仅仅不用下载太多。保证图片的差异性。比如
在下载的时候使用统一的宽度。

后期处理从图片中抠出分辨率一样的船仅仅

爬虫源代码

using System;

using System.Collections.Generic;

using System.Globalization;

using System.IO;

using System.Linq;

using System.Net;

using System.Runtime.Serialization.Formatters.Binary;

using System.Text;

using System.Text.RegularExpressions;

using System.Threading;

using System.Threading.Tasks;

namespace 船仅仅图像爬虫

{

    class Program

    {

        static void download_all_shipid(List<string> shipid_list)

        {

            try

            {

                WebClient MyWebClient = new WebClient();

                MyWebClient.Headers["User-Agent"] = "blah";

                MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据;

                //Console.WriteLine("here1");

                //http://www.marinetraffic.com/en/photos/of/ships/shipid:281519/

                //http://www.marinetraffic.com/en/ais/index/ships/all

                //http://www.marinetraffic.com/ais/index/ships/all/page:2/sort:COUNT_PHOTOS/direction:desc;

                for (int pageNum = 1; pageNum < 100; pageNum++)

                {

                    Console.WriteLine("開始分析第" + pageNum + "张网页");

                    MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据;

                    MyWebClient.Headers["User-Agent"] = "blah";

                    try

                    {

                        //Console.WriteLine("here0");

                        Byte[] pageData = MyWebClient.DownloadData(@"http://www.marinetraffic.com/en/ais/index/ships/all/page:" + pageNum + "/sort:COUNT_PHOTOS/direction:desc/per_page:50"); //从指定站点下载数据

                        //pageHtml = Encoding.Default.GetString(pageData);  //假设获取站点页面採用的是GB2312，则使用这句;            

                        string pageHtml = Encoding.UTF8.GetString(pageData); //假设获取站点页面採用的是UTF-8。则使用这句;

                        //Console.WriteLine(pageHtml);//在控制台输入获取的内容;

                        //Console.WriteLine("here1");

                        int urlindex = -1;

                        string org_label = "shipid:";

                        urlindex = pageHtml.IndexOf(org_label, urlindex + 1);

                        while (urlindex != -1)

                        {

                            int endOfUrl = pageHtml.IndexOf("/", urlindex + org_label.Length);

                            //Console.WriteLine("here2");

                            string shipid = pageHtml.Substring(urlindex + org_label.Length, endOfUrl - urlindex - org_label.Length);

                            if (!shipid_list.Contains(shipid))

                            {

                                Console.WriteLine("新增id:" + shipid);

                                shipid_list.Add(shipid);

                            }

                            //Console.WriteLine("已有id:" + shipid);

                            urlindex = pageHtml.IndexOf(org_label, urlindex + 1);

                        }

                        ///保存网页

                        //using (StreamWriter sw = new StreamWriter("ouput.html"))//将获取的内容写入文本

                        //{

                        //    sw.Write(pageHtml);

                        //}

                        Console.WriteLine("完毕第" + pageNum + "页分析");

                    }

                    catch (WebException webEx)

                    {

                        Console.WriteLine(webEx.Message.ToString());

                    }

                    //以下是一个随机数的方法保证10秒后再下载。以绕过违规检測。

                    Console.Write("绕开站点爬虫行为检測中......");

                    Random rd = new Random();

                    int time_sleep = rd.Next() % 10 + 10;

                    Thread.Sleep(time_sleep * 1000);

                    Console.WriteLine();

                }

                Console.WriteLine("分析结束");

                //以下把list内容保存进文件,使用序列化的方法;

                string file = @"C:\Users\dragonfive\Desktop\爬虫获得船仅仅图片\第三批\0_100page_shipid.txt";

                using (FileStream fsWriter = new FileStream(file, FileMode.OpenOrCreate, FileAccess.Write))

                {

                    //以下对stu进行序列化。

                    BinaryFormatter bf = new BinaryFormatter();

                    bf.Serialize(fsWriter, shipid_list);

                }

            }

            catch (WebException webEx)

            {

                Console.WriteLine(webEx.Message.ToString());

            }

        }

        /// <summary>

        /// 依据得到的ship_id获得该ship_id的全部图片;

        /// </summary>

        /// <param name="ship_id"></param>

        static void download_jpg(string ship_id)

        {

            try

            {

                Console.WriteLine("開始下载shipid为："+ship_id+"的图片");

                WebClient MyWebClient = new WebClient();

                MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据

                MyWebClient.Headers["User-Agent"] = "blah";

                //http://www.marinetraffic.com/en/photos/of/ships/shipid:281519/

                //http://www.marinetraffic.com/en/photos/of/ships/shipid:371668/per_page:1000/page:1

                Byte[] pageData = MyWebClient.DownloadData(@"http://www.marinetraffic.com/en/photos/of/ships/shipid:" + ship_id + @"/per_page:100/page:1"); //从指定站点下载数据

                //string pageHtml = Encoding.Default.GetString(pageData);  //假设获取站点页面採用的是GB2312。则使用这句            

                string pageHtml = Encoding.UTF8.GetString(pageData); //假设获取站点页面採用的是UTF-8，则使用这句

                //Console.WriteLine(pageHtml);//在控制台输入获取的内容

                Console.WriteLine("元网页已下载");

                //using (StreamWriter sw = new StreamWriter("ouput.html"))//将获取的内容写入文本

                //{

                //    sw.Write(pageHtml);

                //}

                int urlindex = -1;

                string org_label = "data-original='";

                urlindex = pageHtml.IndexOf(org_label, urlindex + 1);

                int i = 0;

                //Directory.CreateDirectory(@"./" );

                while (urlindex != -1)

                {

                    int endOfUrl = pageHtml.IndexOf("'", urlindex + org_label.Length);

                    string url = pageHtml.Substring(urlindex + org_label.Length, endOfUrl - urlindex - org_label.Length);

                    ////以下是unicode编码转换为string的方式;

                    //MatchCollection mc = Regex.Matches(strName, @"\\u([\w]{2})([\w]{2})", RegexOptions.Compiled | RegexOptions.IgnoreCase);

                    //byte[] bts = new byte[2];

                    //foreach (Match m in mc)

                    //{

                    //    bts[0] = (byte)int.Parse(m.Groups[2].Value, NumberStyles.HexNumber);

                    //    bts[1] = (byte)int.Parse(m.Groups[1].Value, NumberStyles.HexNumber);

                    //    musicName += Encoding.Unicode.GetString(bts);

                    //}

                    //Console.WriteLine("接下来下载的是:" + musicName);

                    //以下是一个随机数的方法保证10秒后再下载。以绕过违规检測。

                    Console.Write("绕过站点爬虫行为检測中......");

                    Random rd = new Random();

                    int time_sleep = rd.Next() % 10 + 10;

                    Thread.Sleep(time_sleep * 1000);

                    Console.WriteLine();

                    try

                    {

                        //这是下载的命令；

                        Console.WriteLine(url);

                        MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据

                        MyWebClient.Headers["User-Agent"] = "blah";

                        Byte[] jpgdata = MyWebClient.DownloadData(url); //从指定网页下载数据;

                        //把下载的内容保存在一个地方;

                        using (FileStream fs = new FileStream(@"C:\Users\dragonfive\Desktop\爬虫获得船仅仅图片\第三批\" + ship_id + "_" + i + ".jpg", FileMode.OpenOrCreate, FileAccess.Write))

                        {

                            fs.Write(jpgdata, 0, jpgdata.Length);

                        }

                    }

                    catch (WebException webEx)

                    {

                        Console.WriteLine("被捕获了吗?");

                        Console.WriteLine(webEx.Message.ToString());

                    }

                    Console.WriteLine("成功下载第" + (i ++) + "张图片");

                    urlindex = pageHtml.IndexOf(org_label, urlindex + 1);

                }

                ///保存网页

                //using (StreamWriter sw = new StreamWriter("ouput.html"))//将获取的内容写入文本

                //{

                //    sw.Write(pageHtml);

                //}

                Console.WriteLine("*****************************************");

                Console.WriteLine("下载"+i+"张ship_id为"+ship_id+"的图片");

                Console.WriteLine("*****************************************");

                //Console.ReadLine(); //让控制台暂停,否则一闪而过了 

            }

            catch (WebException webEx)

            {

                Console.WriteLine(webEx.Message.ToString());

            }

        }

        static void Main(string[] args)

        {

            List<string> shipid_list = new List<string>();

            //shipid_list.Add("371681");//临时高速产生图片用这个;

            download_all_shipid(shipid_list);

            //string file = @"C:\Users\dragonfive\Desktop\爬虫获得船仅仅图片\第三批\0_100page_shipid.txt";

            //using (FileStream fsReader = new FileStream(file, FileMode.Open, FileAccess.Read))

            //{

            //    //以下进行反序列话;

            //    BinaryFormatter bf = new BinaryFormatter();

            //    shipid_list = (List<string>)bf.Deserialize(fsReader);

            //    Console.WriteLine("成功加载" + shipid_list.Count + "个shipid");

            //}

            ////371652 371668  371681 1252401

            //shipid_list.Remove("371652");

            //shipid_list.Remove("371668");

            //shipid_list.Remove("371681");

            //shipid_list.Remove("1252401");

            ////132264

            //shipid_list.Remove("371077");

            //shipid_list.Remove("132264");

            //shipid_list.Remove("224871");

            //shipid_list.Remove("279923");

            //shipid_list.Remove("369163");

            //shipid_list.Remove("266342");

            //shipid_list.Remove("371216");

            //shipid_list.Remove("368174");

            //shipid_list.Remove("369163");

            foreach (var ship_id in shipid_list)

            {

                download_jpg(ship_id);

            }

            Console.ReadLine(); //让控制台暂停,否则一闪而过了 

        }

    }

}

用c#编写爬虫在marinetraffic下载船仅仅图片的更多相关文章

【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...
python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要, ...
Python3 网络爬虫：漫画下载，动态加载、反爬虫这都不叫事
一.前言作者:Jack Cui 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那 ...
编写爬虫程序的神器 - Groovy + Jsoup + Sublime
写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作.由于.NET BCL只提供了"底层"的HttpWebRequest和"中层& ...
编写爬虫程序的神器 - Groovy + Jsoup + Sublime（转）
写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作.由于.NET FCL只提供了"底层"的HttpWebRequest和"中层& ...
【Python3爬虫】使用异步协程编写爬虫
一.基本概念进程:进程是一个具有独立功能的程序关于某个数据集合的一次运行活动.进程是操作系统动态执行的基本单元. 线程:一个进程中包含若干线程,当然至少有一个线程,线程可以利用进程所拥有的资源.线程 ...
Python爬虫之足球小将动漫（图片）下载
尽管俄罗斯世界杯的热度已经褪去,但这届世界杯还是给全世界人民留下了无数难忘的回忆,不知你的回忆里有没有日本队的身影?本次世界杯中,日本队的表现让人眼前一亮,很难想象,就是这样一只队伍,二十几年还是 ...
Python爬虫之多线程下载程序类电子书
近段时间,笔者发现一个神奇的网站:http://www.allitebooks.com/ ,该网站提供了大量免费的编程方面的电子书,是技术爱好者们的福音.其页面如下: 那么我们是否可以通过Py ...

随机推荐

Git-如何将已存在的项目提交到git
1.首先在码云或者github上创建一个不带README.md的项目,然后复制远程库的地址(下面以码云为例): 2.进入本地已存在的项目目录:house touch README.md //新建说明 ...
[Atcoder Grand 006 C] Rabbit Exercise 解题报告 (期望)
题目链接:https://www.luogu.org/problemnew/show/AT2164 https://agc006.contest.atcoder.jp/tasks/agc006_c 题 ...
BZOJ 2115 DFS+高斯消元
思路: 先搞出来所有的环的抑或值随便求一条1~n的路径异或和 gauss消元找异或和最大贪心取max即可 //By SiriusRen #include <cstdio> #inclu ...
ByteArray的操作总结(复制、打印、位运算)
1. 字节数组的复制 Method A:Array.Clone() Clone返回的是Object对象,需要强类型转换:Clone会创建一个新的对象,并将value赋给dec ]; ]; dst = ...
bzoj 2287: 【POJ Challenge】消失之物动态规划
Code: #include<cstdio> #include<algorithm> #include<queue> #include<cstring> ...
redis 扩展 windows
下载地址:http://windows.php.net/downloads/pecl/releases/redis/
iOS开发——根据数组中的字典中的某一元素排序
数组中的元素是字典,字典中的某一个元素,比如说姓名,现在需要按照姓名的首字母来排序,怎么搞? 做法很简单,在字典中加一个元素,保存姓名的首字母,然后用下面的方法排序. - (void)sortWifi ...
[POI2008]PLA-Postering（单调栈）
题意 N个矩形,排成一排. 现在希望用尽量少的矩形海报Cover住它们. (n<=250000,wi,di<=109) 题解这种一堆矩形,又不像数据结构的题,一般都是单调栈. 考虑一个贪 ...
解决HMC在IE浏览器无法登录的问题（Java Applet的使用问题）
管理IBM的小型机必须要用到HMC(Hardware Management Console),有时候在使用测试环境使用的时候我们会把HMC装到自己电脑上的虚拟机里面,然后管理小型机,但是在虚拟机里面使 ...
Spring-boot非Mock测试MVC，调试启动tomcat容器
平常我们在使用spring-boot去debug一个web应用时,通常会使用MockMvc. 如下配置: @RunWith(value = SpringRunner.class) @SpringBoo ...

用c#编写爬虫在marinetraffic下载船仅仅图片

站点特点

解决方式

爬虫源代码

用c#编写爬虫在marinetraffic下载船仅仅图片的更多相关文章

随机推荐

热门专题