基于C#.NET的高端智能化网络爬虫（二）（攻破携程网）

本篇故事的起因是携程旅游网的一位技术经理，豪言壮举的扬言要通过他的超高智商，完美碾压爬虫开发人员，作为一个业余的爬虫开发爱好者，这样的言论我当然不能置之不理。因此就诞生了以及这一篇高级爬虫的开发教程。

有人评论我上一篇的简单爬虫：代码太过简单以至于弱爆了，真是被这群有文化的孩子给雷到了！不得不猜测你是不是携程网的托儿，我还没写完你咋就知道弱爆了？看来不下点猛料你是得不到满足啊！

今天我们就来学习高级爬虫的开发，同时我们还要利用之前的简单爬虫程序，来实现分布式爬虫的Links Master部分，以提高分布式抓取的效率。

下边的我们要讲的内容，涉及了众多开源软件。先别太紧张，越是高级的东西通常都封装的越好，只要放开心态综合运用就行了，我先假设你对下边这些工具都有过了解：

RabbitMQ：用于分布式消息传递。
Shadowsocks：用于代理加密。
PhantomJS：用于Web页面渲染。
Selenium：用于Web自动化控制。

一、什么是高级爬虫？

我们长谈到的高级爬虫，通常是说它具有浏览器的运行特征，需要第三方的类库或工具的支持，比如说以下这些常见的东东：

Webkit
WebBrowser
PhantomJS + Selenium

很多人都觉得，分布式爬虫才能算是高级的爬虫。这绝对是一种错误的理解，分布式只是我们实现爬虫架构的一种手段，而并非是用来定义它高级的因素。

我们之所以称它们为高级爬虫组件，主要是因为他们不但可以直接抓取网页源代码，同时还能能渲染网站页面的HTML、CSS、Javascript等内容。

这样的功能，对于开发爬虫到底有什么好处呢？说起这好处那是有点谦虚了，丝毫不夸张的说：这玩意简直可以称为“爬无敌”！！！

我猜你还是这个表情，因为它的强大机制，让我们可以直接在网站页面：执行Javascript代码、触发各类鼠标键盘事件、操纵页面Dom结构、利用XPath语法抓取数据，几乎可以做一切在浏览器上能做的事情。

很多网站都用Ajax动态加载、翻页，比如携程网的评论数据。如果是用之前那个简单的爬虫，是很难直接抓取到所有评论数据的，我们需要去分析那漫天的Javascript代码寻找API数据接口，还要时刻提防对方增加数据陷阱或修改API接口地。

如果通过高级爬虫，就可以完全无视这些问题，无论他们如何加密Javascript代码来隐藏API接口，最终的数据都必要呈现在网站页面上的Dom结构中，不然普通用户也就没法看到了。所以我们可以完全不分析API数据接口，直接从Dom中提取数据，甚至都不需要写那复杂的正则表达式。

二、如何开发一款高级爬虫？

现在我们就来一步一步实现这个高级爬虫，接下来就用目前潮到爆的两个组件，来完成一个有基本功能的高级爬虫，首先我们去下载开源组件：

PhantomJS：算是一个没有UI界面的浏览器，主要用来实现页面自动化测试，我们则利用它的页面解析功能，执行网站内容的抓取。下载解压后将Bin文件夹中的phantomjs.exe文件复制到你爬虫项目下的任意文件夹，我们只需要这个。

下载地址：http://phantomjs.org/download.html

Selenium：是一个自动化测试工具，封装了很多WebDriver用于跟浏览器内核通讯，我用开发语言来调用它实现PhantomJS的自动化操作。它的下载页面里有很多东西，我们只需要Selenium Client，它支持了很多语言（C#、JAVA、Ruby、Python、NodeJS），按自己所学语言下载即可。

下载地址：http://docs.seleniumhq.org/download/

这里我我下载C#语言客户端，将这4个DLL文件都添加到项目引用中，其他语言开发者请自行寻找方法，然后开始我们的编码之旅。

老规矩，打开Visual Studio 2015 新建一个控制台应用程序，增加一个简单的StrongCrawler类，由于这两个爬虫类具有公共部分，本着DRY的原则，需要对部分代码重构，我们先提取一个ICrawler接口：

然后我们用StrongCrawler类来实现这个接口：

接着我们来编写它的异步爬虫方法：

好了，这个高级爬虫的基本功能就定义完成了，还是用携程的酒店数据作为抓取的例子，我们测试一下抓取（酒店名称、地址、评分、价格、评论数量、评论当前页码、评论下一页码、评论总页数、每页评论数量）等详细数据试试。我们现在用控制台程序来调用一下：

由上图可知，等待酒店页面加载完成后，我们通过XPath语法查找页面元素，首先点击了页面上的“酒店评论”按钮，再等待页面的Dom结构发生变化，也就是说等待Ajax加载成功，然后对需要的数据进行抓取。看看代码的执行结果：

我们很轻松的抓取到了酒店的信息，以及酒店的第一页全部评论数据。因为携程网的评论数据是通过Ajax翻页的，因此要想抓取所有评论，还抓取了评论的页码等数据。再看看执行性能：

还算不错，484毫秒，可以说在所有高级爬虫组件中，PhantomJS的效率应该是最高的了，几乎没有其他组件可以直接与之抗衡。有了页码数据，我们就可以对评论进行执行翻页抓取操作，以这个速度，抓取几百页的评论数据根本不需要搞分布式。

三、如何实现分布式？

分布式爬虫通常使用消息队列来实现，目前互联网上的开源消息队列非常多，今天我们就来介绍一款非常拉风的分布式消息队列开源组件：

RabbitMQ是一个开源的AMQP实现，服务器端用Erlang语言编写，支持多种客户端，如：.NET、Python、Ruby、Java、JMS、C、PHP、ActionScript、XMPP、STOMP等，支持AJAX。用于在分布式系统中存储转发消息，在易用性、扩展性、高可用性等方面表现都非常好。

下载地址：http://www.rabbitmq.com/download.html

分布式爬虫通常需要两个端：

控制端
爬虫端

控制端主要负责控制爬虫运行、监控爬虫状态、配置爬虫抓取方式等。爬虫端主的功能就是抓取数据并将数据提交给数据清洗服务。

爬虫端还需要分出Master爬虫及Worker爬虫，Master爬虫主要利用简单爬虫的运行方式实现高性能的超连接（Links）的抓取。Worker爬虫则利用高级爬虫特性来采集精细化的数据，例如Ajax加载的内容。把最擅长的事情交给最合适的爬虫来做。

聪明的你应该想到了，他们之间的沟通方式就是消息队列。Master爬虫只需要将抓取的Links扔进数据抓取队列。Worker爬虫通过定时拉去队列中的Links来实现数据抓取，抓取完成后将数据再提交至数据清洗队列。

原理应该都讲清楚了吧？那就自己实现代码吧，RabbitMQ官网上都有示例代码，我就不再这里啰嗦了。

四、如何实现稳定的加密代理？

在这个互联网时代，免费的东西基本上快消失殆尽了，就算有也肯定很垃圾。所以今天我要讲的Shadowsocks，也是一个需要付少量费用的东西，这个东西的强大之处，就在于其流量特征不明显，可以非常稳定的提供上网代理。

下载地址：https://github.com/shadowsocks

Shadowsocks客户端会在本地开启一个socks5代理，通过此代理的网络访问请求由客户端发送至服务端，服务端发出请求，收到响应数据后再发回客户端。中间通过了AES-256来加密传输数据，因此要必普通的代理服务器安全得多，我们来看看它的运行方式：

由图得知，它需要先在本地运行客户端程序，连接远程代理服务器的服务端程序实现加密通讯。再在本地模拟代理端口，让本机流量先经过本地客户端加密，然后再传输至远程服务端，完成代理的转发服务。

因此我们只需要买一台基于Linux的VPS服务器，成本大约在15元人民币每月，安装好服务端后，就可以实现一个非常稳定的加密代理服务。相关教材网上一大堆，我也就不再这里啰嗦。

五、结束语

迫于一些压力，我就不在这里公布详细的爬虫源代码了，看上面的例子肯定能自己完成一个更强大的高级爬虫。

基于C#.NET的高端智能化网络爬虫（二）（攻破携程网）的更多相关文章

基于C#.NET的高端智能化网络爬虫（一）（反爬虫哥必看）
前两天朋友发给我了一篇文章,是携程网反爬虫组的技术经理写的,大概讲的是如何用他的超高智商通过(挑衅.怜悯.嘲讽.猥琐)的方式来完美碾压爬虫开发者.今天我就先带大家开发一个最简单低端的爬虫,突破携程网超 ...
【转】基于C#.NET的高端智能化网络爬虫 2
[转] 基于C#.NET的高端智能化网络爬虫2 本篇故事的起因是携程旅游网的一位技术经理,豪言壮举的扬言要通过他的超高智商,完美碾压爬虫开发人员,作为一个业余的爬虫开发爱好者,这样的言论我当然不能置之 ...
【转】基于C#.NET的高端智能化网络爬虫
[转] 基于C#.NET的高端智能化网络爬虫前两天朋友发给我了一篇文章,是携程网反爬虫组的技术经理写的,大概讲的是如何用他的超高智商通过(挑衅.怜悯.嘲讽.猥琐)的方式来完美碾压爬虫开发者.今天我就 ...
手把手教你写基于C++ Winsock的图片下载的网络爬虫
手把手教你写基于C++ Winsock的图片下载的网络爬虫先来说一下主要的技术点: 1. 输入起始网址,使用ssacnf函数解析出主机号和路径(仅处理http协议网址) 2. 使用socket套接字 ...
NodeJs 入门到放弃 — 常用模块及网络爬虫(二)
码文不易啊,转载请带上本文链接呀,感谢感谢 https://www.cnblogs.com/echoyya/p/14473101.html 目录码文不易啊,转载请带上本文链接呀,感谢感谢 https ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
【Python网络爬虫二】使用urllib2抓去网页内容
在Python中通过导入urllib2组件,来完成网页的抓取工作.在python3.x中被改为urllib.request. 爬取具体的过程类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求 ...
Python网络爬虫(二)
Urllib库之解析链接 Urllib库里有一个parse这个模块,定义了处理URL的标准接口,实现 URL 各部分的抽取,合并以及链接转换.它支持如下协议的 URL 处理:file.ftp.goph ...
C# Note30：网络爬虫
用C#实现网络爬虫(一) 用C#实现网络爬虫(二) 基于C#.NET的高端智能化网络爬虫(一)(反爬虫哥必看) 基于C#.NET的高端智能化网络爬虫(二)(攻破携程网) C#获取网页内容的三种方式

随机推荐

在centos7上修改docker加速镜像为阿里云
使用docker pull,命令下载镜像太慢了,默认是从国外的,本文记录下如何配置国内阿里云竞相加速方式. 登录https://cr.console.aliyun.com,如下, 阿里云会为每个用户提 ...
zabbix学习-如何部署一个agent客户端
1. 部署一个agent客户端很简单,比如监控服务器本身 yum install zabbix-agent -y 2.配置文件位置: vim /etc/zabbix/zabbix-agendt.con ...
node-inspector调试工具
1. npm或者cnpm 安装node-inspector 命令: cnpm install -g node-inspector (说明: 全局安装) 2. 使用node-inspect ...
Omi框架学习之旅 - 获取DOM节点及原理说明
虽然绝大部分情况下,开发者不需要去查找获取DOM,但是还是有需要获取DOM的场景,所以Omi提供了方便获取DOM节点的方式. 这是官网的话,但是我一直都需要获取dom,对dom操作,所以omi提供的获 ...
P4111 [HEOI2015]小Z的房间
你的房子可以看做是一个包含n*m个格子的格状矩形,每个格子是一个房间或者是一个柱子.在一开始的时候,相邻的格子之间都有墙隔着.你想要打通一些相邻房间的墙,使得所有房间能够互相到达.在此过程中,你不能把 ...
ASP.NET的生命周期
我主要参考了这些文章 ASP.NET应用程序与页面生命周期, IIS处理Asp.net请求和 Asp.net页面生命周期 asp.net页面的生命周期页面生命周期开始 (一)页面生命周期的主要阶段包 ...
python 知识
def action_cancel_sale_order(self,cr,uid,ids,context=None): self.message_post(cr, uid, ids, body=u&q ...
ASP.NET Web API上实现 Web Socket - 转
1. 什么是Web Socket Web Socket是Html5中引入的通信机制,它为浏览器与后台服务器之间提供了基于TCP的全双工的通信通道.用以替代以往的LongPooling等comet st ...
.NET小笔记-NPOI读取excel内容到DataTable
下载比较新的NPOI组件支持excel2007以上的,把.dll添加引用引入命名空间 using NPOI.HSSF.UserModel;using NPOI.SS.UserModel;using ...
sql字符串累加
函数 stuff(param1, startIndex, length, param2) 函数说明将param1中自startIndex(SQL中都是从1开始,而非0)起,删除length个字符,然后 ...

基于C#.NET的高端智能化网络爬虫（二）（攻破携程网）

基于C#.NET的高端智能化网络爬虫（二）（攻破携程网）的更多相关文章

随机推荐

热门专题