1. 概述

java爬虫系列包含哪些内容？

java爬虫框架webmgic入门
使用webmgic爬取 http://ady01.com 中的电影资源（动作电影列表页、电影下载地址等信息）
使用webmgic爬取 极客时间 的课程资源（文章系列课程和视频系列的课程）

本篇文章主要内容：

介绍java中好用的爬虫框架
java爬虫框架webmagic介绍
使用webgic爬取动作电影列表信息

2. java中好用的爬虫框架

如何判断框架是否优秀？

容易学习和使用，网上对应的学习资料比较多，并且比较完善
使用的人比较多，存在的坑别人已经帮你填的差不多了，用起来会更顺心一些
框架更新比较快，社区活跃，可以快速体验一些更好的功能，并与作者进行交流
框架稳定、方便扩展

按照以上几点的，推荐一款非常好用的java爬虫框架webmgic

3. webmgic介绍

WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic，你可以快速开发出一个高效、易维护的爬虫。
webmagic官网：http://webmagic.io/
webmgic中文学习文档：http://webmagic.io/docs/zh/

4.使用webgic爬取动作电影列表

使用webgic爬取爱电影电影列表资源信息

示例源码地址

1. 新建springboot项目java-pachong

2. 导入maven配置

<dependencies>

    <dependency>

        <groupId>org.springframework.boot</groupId>

        <artifactId>spring-boot-starter</artifactId>

    </dependency>

    <dependency>

        <groupId>org.projectlombok</groupId>

        <artifactId>lombok</artifactId>

        <optional>true</optional>

    </dependency>

    <dependency>

        <groupId>org.springframework.boot</groupId>

        <artifactId>spring-boot-starter-test</artifactId>

        <scope>test</scope>

    </dependency>

    <!-- webmagic start -->

    <dependency>

        <groupId>us.codecraft</groupId>

        <artifactId>webmagic-core</artifactId>

        <version>0.7.3</version>

        <exclusions>

            <exclusion>

                <artifactId>fastjson</artifactId>

                <groupId>com.alibaba</groupId>

            </exclusion>

            <exclusion>

                <artifactId>commons-io</artifactId>

                <groupId>commons-io</groupId>

            </exclusion>

            <exclusion>

                <artifactId>commons-io</artifactId>

                <groupId>commons-io</groupId>

            </exclusion>

            <exclusion>

                <artifactId>fastjson</artifactId>

                <groupId>com.alibaba</groupId>

            </exclusion>

            <exclusion>

                <artifactId>fastjson</artifactId>

                <groupId>com.alibaba</groupId>

            </exclusion>

            <exclusion>

                <artifactId>log4j</artifactId>

                <groupId>log4j</groupId>

            </exclusion>

            <exclusion>

                <artifactId>slf4j-log4j12</artifactId>

                <groupId>org.slf4j</groupId>

            </exclusion>

        </exclusions>

    </dependency>

    <dependency>

        <groupId>us.codecraft</groupId>

        <artifactId>webmagic-extension</artifactId>

        <version>0.7.3</version>

    </dependency>

    <dependency>

        <groupId>us.codecraft</groupId>

        <artifactId>webmagic-selenium</artifactId>

        <version>0.7.3</version>

    </dependency>

    <dependency>

        <groupId>net.minidev</groupId>

        <artifactId>json-smart</artifactId>

        <version>2.2.1</version>

    </dependency>

    <!-- webmagic end -->

    <dependency>

        <groupId>com.alibaba</groupId>

        <artifactId>fastjson</artifactId>

        <version>1.2.49</version>

    </dependency>

    <dependency>

        <groupId>commons-lang</groupId>

        <artifactId>commons-lang</artifactId>

        <version>2.6</version>

    </dependency>

    <dependency>

        <groupId>commons-io</groupId>

        <artifactId>commons-io</artifactId>

        <version>2.6</version>

    </dependency>

    <dependency>

        <groupId>commons-codec</groupId>

        <artifactId>commons-codec</artifactId>

        <version>1.11</version>

    </dependency>

    <dependency>

        <groupId>commons-collections</groupId>

        <artifactId>commons-collections</artifactId>

        <version>3.2.2</version>

    </dependency>

</dependencies>

3. 编写抓取电影数据的代码

在谷歌浏览器中访问爱电影动作片列表
F12发现列表页中数据是通过一个ajax请求获取的，我们获取请求地址

http://m.ady01.com/rs/film/listJson/1/2?_=1555726508180
编写抓取代码

package com.ady01.demo1;

import lombok.extern.slf4j.Slf4j;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

/**

 * <b>description</b>：第一个爬虫示例，爬去动作片列表信息 <br>

 * <b>time</b>：2019/4/20 10:58 <br>

 * <b>author</b>：ready likun_557@163.com

 */

@Slf4j

public class Ady01comPageProcessor implements PageProcessor {

    @Override

    public void process(Page page) {

        log.info("爬取成功!");

        log.info("爬取的内容：" + page.getRawText());

    }

    @Override

    public Site getSite() {

        return Site.me().setSleepTime(1000).setRetryTimes(3);

    }

    public static void main(String[] args) {

        String url = "http://m.ady01.com/rs/film/listJson/1/2?_=1555726508180";

        Spider.create(new Ady01comPageProcessor()).addUrl(url).thread(1).run();

    }

}

4. 运行爬虫代码

运行Ady01comPageProcessor中的main方法，执行结果如下：

5.总结

本文中主要用了一个示例说明webgic是如此简单就可以完成数据的抓取工作，从代码中可以看出复杂的代码webmagic都帮我们屏蔽了，只需要我们去关注业务代码的编写。
文章中没有详细介webmagic如何使用，至于我为何没有在文档中去做说明，主要是webigc已经提供了非常完善的学习文档，可以移步到webgic中文文档，需要更深入了解的可以研究一下webgic的源码，对你编写爬虫是非常有用的。
明日我们将爬取每个动作电影详情页信息，采集详情页中电影的下载地址
示例代码，导入到idea中运行，idea中需要安装maven和lombok的支持
更多技术文章请关注公众号：javacode2018

java爬虫系列第一讲-爬虫入门的更多相关文章

java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址
1. 目标使用webmagic爬取动作电影列表信息爬取电影<海王>详细信息[电影名称.电影迅雷下载地址列表] 2. 爬取最新动作片列表获取电影列表页面数据来源地址访问http:// ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
Python 爬虫3——第一个爬虫脚本的创建
在进行真正的爬虫工程创建之前,我们先要明确我们所要操作的对象是什么?完成所有操作之后要获取到的数据或信息是什么? 首先是第一个问题:操作对象,爬虫全称是网络爬虫,顾名思义,它所操作的对象当然就是网页, ...
python爬虫__第一个爬虫程序
前言机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文 ...
Java多线程系列——从菜鸟到入门
持续更新系列. 参考自Java多线程系列目录(共43篇).<Java并发编程实战>.<实战Java高并发程序设计>.<Java并发编程的艺术>. 基础 Java多线 ...
Scrapy爬虫框架第一讲(Linux环境)
1.What is Scrapy? 答:Scrapy是一个使用python语言(基于Twistec框架)编写的开源网络爬虫框架,其结构清晰.模块之间的耦合程度低,具有较强的扩张性,能满足各种需求.(前 ...
python爬虫系列之初识爬虫
前言我们这里主要是利用requests模块和bs4模块进行简单的爬虫的讲解,让大家可以对爬虫有了初步的认识,我们通过爬几个简单网站,让大家循序渐进的掌握爬虫的基础知识,做网络爬虫还是需要基本的前端的 ...
java selenium webdriver第一讲 seleniumIDE
Selenium是ThoughtWorks公司,一个名为Jason Huggins的测试为了减少手工测试的工作量,自己实现的一套基于Javascript语言的代码库使用这套库可以进行页面的交互操作, ...
JAVA通信系列三：Netty入门总结
一.Netty学习资料书籍<Netty In Action中文版> 对于Netty的十一个疑问http://news.cnblogs.com/n/205413/ 深入浅出Nettyhtt ...

随机推荐

sudo apt-get update: 0% [正在等待报头]
问题描述:使用apt-get下载一个文件,由于下载的太慢,使用Ctrl+C强制结束.然后输入sudo apt-get update,想继续下载其他文件.结果出现如标题所示的错误,截图如下:按照网上说的 ...
RabbitMQ和Kafka到底怎么选？
前言开源社区有好多优秀的队列中间件,比如RabbitMQ和Kafka,每个队列都貌似有其特性,在进行工程选择时,往往眼花缭乱,不知所措.对于RabbitMQ和Kafka,到底应该选哪个? Rabbi ...
通过 React Hooks 声明式地使用 setInterval
本文由云+社区发表作者:Dan Abramov 接触 React Hooks 一定时间的你,也许会碰到一个神奇的问题: setInterval 用起来没你想的简单. Ryan Florence 在他 ...
引用provinces.js的三级联动
第一次写随笔应该写的不是太好请多多见谅我这次是在网上发现了一个三级联动也是给新人一个福利这个是你需要新建个 JavaScript 文件并复制到你新建的文件里面 var pr ...
Spring Boot入门(三)：使用Scheduled注解实现定时任务
在程序开发的过程中,经常会使用定时任务来实现一些功能,比如: 系统依赖于外部系统的非核心数据,可以定时同步系统内部一些非核心数据的统计计算,可以定时计算系统内部的一些接口,需要间隔几分钟或者几秒执 ...
redis增删查改数据Util
目录 (1)需要导入的包 (2)redis配置文件 (3)RedisUtil类 (1)需要导入的包 <dependency> <groupId>org.springframew ...
css 四周边框角加粗效果
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Android为TV端助力之解决setOnItemSelectedListener一进来就自动执行一次的问题
我们经常会遇到listview或者其他view设置setOnItemSelectedListener监听时,一加载界面,setOnItemSelectedListener监听就会自动执行一遍,导致你第 ...
一个能快速写出实体类的Api文档管理工具
今天各种MVC框架满天飞,大大降低了编码的难度,写实体类就没有办法回避的一件事了,花大把的时间去做一些重复而且繁琐的工作,实在不是一个优秀程序员的作风,所以多次查找和尝试后,找到一个工具类网站——Ap ...
如何利用MongoDB实现高性能，高可用的双活应用架构？
投资界有一句至理名言——“不要把鸡蛋放在同一个篮子里”.说的是投资需要分解风险,以免孤注一掷失败之后造成巨大的损失. 转发来自如何利用MongoDB实现高性能,高可用的双活应用架构?http://d ...

java爬虫系列第一讲-爬虫入门

1. 概述

java爬虫系列包含哪些内容？

本篇文章主要内容：

2. java中好用的爬虫框架

如何判断框架是否优秀？

3. webmgic介绍

4.使用webgic爬取动作电影列表

1. 新建springboot项目java-pachong

2. 导入maven配置

3. 编写抓取电影数据的代码

4. 运行爬虫代码

5.总结

java爬虫系列第一讲-爬虫入门的更多相关文章

随机推荐

热门专题