一、前言

　　最近因为有爬一些招聘网站的招聘信息的需要，而我之前也只是知道有“网络爬虫”这个神奇的名词，具体是什么、用什么实现、什么原理、如何实现比较好都不清楚，因此最近大致研究了一下，当然，研究的并不是很深入，毕竟一个高大上的知识即使站在巨人的肩膀上，也不能两三天就融会贯通。在这里先做一个技术储备吧，具体的疑难知识点、细节等以后一点一点的完善，如果现在不趁热打铁，以后再想起来恐怕就没印象了，那么以我的懒惰的性格估计就要抛弃对它的爱情了。废话不多说，让我们开始在知识的海洋里遨游吧。哎，等等，说到这我突然想到昨天新记的一首诗感觉挺好，给大家分享一下，缓解一下气氛，再给大家讲爬虫吧：

　　　　　　君生我未生，我生君已老君恨我生迟，我恨君生早
                   君生我未生，我生君已老恨不生同时，日日与君好
                   我生君未生，君生我已老我离君天涯，君隔我海角
                   我生君未生，君生我已老化蝶去寻花，夜夜栖芳草

二、什么是网络爬虫

　　是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

三、优点

　　简单易理解，管理方便。

四、WebMagic总体架构

五、如何用WwbMagic

　　1.5.1 WebMagic的四个组件　　　

1.Downloader

Downloader负责从互联网上下载页面，以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。

2.PageProcessor

PageProcessor负责解析页面，抽取有用信息，以及发现新的链接。WebMagic使用Jsoup作为HTML解析工具，并基于其开发了解析XPath的工具Xsoup。

在这四个组件中，PageProcessor对于每个站点每个页面都不一样，是需要使用者定制的部分。

3.Scheduler

Scheduler负责管理待抓取的URL，以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL，并用集合来进行去重。也支持使用Redis进行分布式管理。

除非项目有一些特殊的分布式需求，否则无需自己定制Scheduler。

4.Pipeline

Pipeline负责抽取结果的处理，包括计算、持久化到文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存到文件”两种结果处理方案。

Pipeline定义了结果保存的方式，如果你要保存到指定数据库，则需要编写对应的Pipeline。对于一类需求一般只需编写一个Pipeline。

1.5.2 爬虫项目简单例子　

依赖：

 <dependency>
     <groupId>us.codecraft</groupId>
     <artifactId>webmagic-core</artifactId>
     <version>0.6.1</version>
 </dependency>
 <dependency>
     <groupId>us.codecraft</groupId>
     <artifactId>webmagic-extension</artifactId>
     <version>0.6.1</version>
 </dependency>

简单代码：　　

 import us.codecraft.webmagic.Page;
 import us.codecraft.webmagic.Site;
 import us.codecraft.webmagic.Spider;
 import us.codecraft.webmagic.processor.PageProcessor;
 
 public class GithubRepoPageProcessor implements PageProcessor {
 
     private Site site = Site.me().setRetryTimes(3).setSleepTime(100);
 
     @Override
     public void process(Page page) {
         page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/\\w+/\\w+)").all());
         page.putField("author", page.getUrl().regex("https://github\\.com/(\\w+)/.*").toString());
         page.putField("name", page.getHtml().xpath("//h1[@class='entry-title public']/strong/a/text()").toString());
         if (page.getResultItems().get("name")==null){
             //skip this page
             page.setSkip(true);
         }
         page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()"));
     }
 
     @Override
     public Site getSite() {
         return site;
     }
 
     public static void main(String[] args) {
         Spider.create(new GithubRepoPageProcessor()).addUrl("https://github.com/code4craft").thread(5).run();
     }

如果仔细分析这段代码的逻辑，将其弄明白了，那么对于一个简单的爬虫项目，你就可以自己写了。

addUrl是定义从哪一个页面开始爬取；

addTargetRequests(page.getHtml().links().regex("(https://github\\.com/\\w+/\\w+)").all());是指定抓取html页面的符合此正则表达式的所有链接url；

page.getHtml().xpath("//h1[@class='entry-title public']/strong/a/text()").toString是指定抓取h1标签下的class属性值为entry-title public的子标

签strong下的a标签下的文本内容；

   tidyText()所有的直接和间接文本子节点，并将一些标签替换为换行，使纯文本显示更整洁。当然这也就要求大家也要对正则表达式熟悉了。本文用的是xsoup，Xsoup是
基于Jsoup开发的一款XPath 解析器，之前WebMagic使用的解析器是HtmlCleaner，使用过程存在一些问题。主要问题是XPath出错定位不准确，并且其不太合理的代码结构
，也难以进行定制。而Xsoup更加符　 合爬虫开发的需 要。令人欣喜的是，经过测试，Xsoup的性能比HtmlCleaner要快一倍以上。

　　通过注解将值赋给model属性的实体类：

 @TargetUrl("https://github.com/\\w+/\\w+")
 @HelpUrl("https://github.com/\\w+")
 public class GithubRepo {
 
     @ExtractBy(value = "//h1[@class='entry-title public']/strong/a/text()", notNull = true)
     private String name;
 
     @ExtractByUrl("https://github\\.com/(\\w+)/.*")
     private String author;
 
     @ExtractBy("//div[@id='readme']/tidyText()")
     private String readme;
 }

 
提示：
HelpUrl/TargetUrl是一个非常有效的爬虫开发模式，TargetUrl是我们最终要抓取的URL，最终想要的数据都来自这里；而HelpUrl则是为了发现这个最终URL，我们需要访问的页面。几乎所有垂直爬虫的需求，都可以归结为对这两类URL的处理：

对于博客页，HelpUrl是列表页，TargetUrl是文章页。
对于论坛，HelpUrl是帖子列表，TargetUrl是帖子详情。
对于电商网站，HelpUrl是分类列表，TargetUrl是商品详情。


模拟浏览器请求：

     public VideoSpider(String url, String proxyStr) {
         this.client_url = url;
         String[] tmp = proxyStr.split(":");
         HttpHost proxy = new HttpHost(tmp[1].substring(2), Integer.parseInt(tmp[2]), tmp[0]);
         Site site = Site.me().setRetryTimes(3).setHttpProxy(proxy).setSleepTime(100).setTimeOut(10 * 1000).setCharset("UTF-8")
                 .setUserAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36");
 
         GPHttpClientDownloader downloader = new GPHttpClientDownloader();
         Request request = new Request(this.client_url);
 
         this.setCookie(request, site, downloader);
         this.setParameters(request, site, downloader);
     }

　　中setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.57 Safari/537.36"),jobInfoDaoPipeline, LieTouJobInfo.class)

  是模拟火狐、苹果、谷歌等浏览器进行请求将通过实体类LieTouJobInfo来抓取指定的内容并通过数据库访问层jobInfoDaoPipeline将相关属性存入数据库。

六、思考

　　简单的爬虫用以上代码基本就可以实现，但是我们要知道，要想真正爬取自己想要的内容，还有一段很长的落要走。因为我们在抓取数据的时候要考虑到去重、动态页面的产生、快速的更新频率、巨大的数据量等等的问题。针对这些问题我们该怎么做才能有效简单的去解决，这是
一个特别值得探讨的问题。就先写到这吧，如果我研究的有进展了，足以在公司项目中稳定投入使用了，再来完善吧。

下载：

最新版：WebMagic-0.6.1

Maven依赖：

<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-core</artifactId>
    <version>0.6.1</version>
</dependency>
<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-extension</artifactId>
    <version>0.6.1</version>
</dependency>

文档：

中文: http://webmagic.io/docs/zh/
English: http://webmagic.io/docs/en

源码：

WebMagic写的网络爬虫的更多相关文章

WebLogic写的网络爬虫
一.前言最近因为有爬一些招聘网站的招聘信息的需要,而我之前也只是知道有"网络爬虫"这个神奇的名词,具体是什么.用什么实现.什么原理.如何实现比较好都不清楚,因此最近大致研究了一下 ...
【Python开发】【神经网络与深度学习】如何利用Python写简单网络爬虫
平时没事喜欢看看freebuf的文章,今天在看文章的时候,无线网总是时断时续,于是自己心血来潮就动手写了这个网络爬虫,将页面保存下来方便查看先分析网站内容,红色部分即是网站文章内容div,可以看 ...
使用Pycharm写一个网络爬虫
在初步了解网络爬虫之后,我们接下来就要动手运用Python来爬取网页了. 我们知道,网络爬虫应用一般分为两个步骤: 1.通过网页链接获取内容: 2.对获得的网页内容进行处理这两个步骤需要分别使用不同 ...
Java 基于WebMagic 开发的网络爬虫
第一次接触爬虫,之所以选择WebMagic,是因为文档齐全.用法简单.而且框架一直在维护. WebMagic是一个简单灵活的Java爬虫框架.基于WebMagic,我们可以快速开发出一个高效.易维护的 ...
使用Python写的第一个网络爬虫程序
今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中. 此代码中主要使用到了python的以下几个功能,因为对python不 ...
基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)
原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平 ...
学习推荐《精通Python网络爬虫：核心技术、框架与项目实战》中文PDF+源代码
随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来.对特定的数据进 ...
《精通Python网络爬虫》|百度网盘免费下载|Python爬虫实战
<精通Python网络爬虫>|百度网盘免费下载|Python爬虫实战提取码:7wr5 内容简介为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引 ...
读书笔记汇总 --- 用Python写网络爬虫
本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫作者: [澳]理查德劳森(Richard Lawson) 原版名称: web scra ...

随机推荐

java单机操作redis3.2.10和集群操作增删改查
先直接附上单机版的连接和增删改查,7000-7005是端口号 package com.yilian.util; import java.util.HashMap; import java.util.I ...
Tornado 框架的使用
Tornado tornado是一个轻量级python的web框架,他是非阻塞式的,而且速度非常快.得利于其非阻塞的方式和对 epoll 的运用,Tornado 每秒可以处理数以千计的连接,这意味着 ...
运行inetmgr提示“找不到文件”无法打开IIS管理器的解决办法
运行inetmgr提示“找不到文件”无法打开IIS管理器的解决办法不知道什么时候开始运行inetmgr就提示找不到文件了,本以为是IIS坏了,这两天发现IIS服务还是可以运行的,只是运行inetmg ...
blktrace未公开选项网络保存截取数据
本文链接地址: blktrace未公开选项网络保存截取数据我们透过blktrace来观察io行为的时候,第一件事情需要选择目标设备,以便分析该设备的io行为.具体使用可以参考我之前写的几篇:这里这 ...
Solr学习之二-Solr基础知识
一基本说明简单来说Solr是基于Lucene的高性能的,开源的Java企业搜索服务器.Solr可以看作一个Web app,运行在tomcat或Jetty这类HTTP服务器上, 底层是一个基于Luc ...
SignalR (二）
在上节中,我们已经初步对 SignalR 进行了了解,这一节我们将做一个SignalR Demon,具体的步骤如下: 1. 创建一个 mvc 4 web 应用程序,并选择 Basic 2. 创建一个 ...
centos7配置yum源
https://www.cnblogs.com/renpingsheng/p/7845096.html
Python简单实现基于VSM的余弦相似度计算
在知识图谱构建阶段的实体对齐和属性值决策.判断一篇文章是否是你喜欢的文章.比较两篇文章的相似性等实例中,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知 ...
mybatis 常用jdbcType数据类型
来自 : http://blog.csdn.net/paincupid/article/details/50922981
Mysql 主键常用修改
修改表的定增长初始值: ALTER TABLE 表名 AUTO_INCREMENT=值;

WebMagic写的网络爬虫

一、前言

二、什么是网络爬虫

三、优点

四、WebMagic总体架构

五、如何用WwbMagic

1.5.1 WebMagic的四个组件

1.Downloader

2.PageProcessor

3.Scheduler

4.Pipeline

1.5.2 爬虫项目简单例子

六、思考

下载：

文档：

源码：

WebMagic写的网络爬虫的更多相关文章

随机推荐

热门专题

　　1.5.1 WebMagic的四个组件　　　

1.5.2 爬虫项目简单例子