JAVA爬虫代码

工程目录：

所需要的jar包为： jsoup-1.10.2.jar

/**

 * Created by wangzheng on 2017/2/19.

 */

public class Article {

    /**

     * 文章链接的相对地址

     */

    private String address;

    /**

     * 文章标题

     */

    private String title;

    /**

     * 文章简介

     */

    private String desption;

    /**

     * 文章发表时间

     */

    private String time;

    public String getAddress() {

        return address;

    }

    public void setAddress(String address) {

        this.address = address;

    }

    public String getTitle() {

        return title;

    }

    public void setTitle(String title) {

        this.title = title;

    }

    public String getDesption() {

        return desption;

    }

    public void setDesption(String desption) {

        this.desption = desption;

    }

    public String getTime() {

        return time;

    }

    public void setTime(String time) {

        this.time = time;

    }

}

/**

 * Created by wangzheng on 2017/2/19.

 */

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import org.jsoup.Connection;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class First {

    // 需要进行爬取得博客首页

    // private static final String URL = "http://blog.csdn.net/guolin_blog";

    private static final String URL = "http://blog.csdn.net/qq_33599520/article/list/1";

    public static void main(String[] args) throws IOException {

        // 获取url地址的http链接Connection

        Connection conn = Jsoup.connect(URL)    // 博客首页的url地址

                .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:47.0) Gecko/20100101 Firefox/47.0") // http请求的浏览器设置

                .timeout(5000)   // http连接时长

                .method(Connection.Method.GET);  // 请求类型是get请求，http请求还是post,delete等方式

        //获取页面的html文档

        Document doc = conn.get();

        Element body = doc.body();

        // 将爬取出来的文章封装到Artcle中，并放到ArrayList里面去

        List<Article> resultList = new ArrayList<Article>();

        Element articleListDiv = body.getElementById("article_list");

        Elements articleList = articleListDiv.getElementsByClass("list_item");

        for(Element article : articleList){

            Article articleEntity = new Article();

            Element linkNode = (article.select("div h1 a")).get(0);

            Element desptionNode = (article.getElementsByClass("article_description")).get(0);

            Element articleManageNode = (article.getElementsByClass("article_manage")).get(0);

            articleEntity.setAddress(linkNode.attr("href"));

            articleEntity.setTitle(linkNode.text());

            articleEntity.setDesption(desptionNode.text());

            articleEntity.setTime(articleManageNode.select("span:eq(0").text());

            resultList.add(articleEntity);

        }

        // 遍历输出ArrayList里面的爬取到的文章

        System.out.println("文章总数:" + resultList.size());

        for(Article article : resultList) {

            System.out.println("文章绝对路劲地址:http://blog.csdn.net" + article.getAddress());

        }

    }

}

/**

 * Created by wangzheng on 2017/2/19.

 */

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import org.jsoup.*;

import org.jsoup.nodes.*;

import org.jsoup.select.*;

public class Main {

    private static final String URL = "http://blog.csdn.net/qq_33599520";

    public static void main(String[] args) throws IOException {

        Connection conn = Jsoup.connect(URL)

                .userAgent("Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:50.0) Gecko/20100101 Firefox/50.0")

                .timeout(5000)

                .method(Connection.Method.GET);

        Document doc = conn.get();

        Element body = doc.body();

        // 获取总页数

        String totalPageStr = body.getElementById("papelist").select("span:eq(0)").text();

        String regex = ".+共(\\d+)页";

        totalPageStr = totalPageStr.replaceAll(regex, "$1");

        int totalPage = Integer.parseInt(totalPageStr);

        int pageNow = 1;

        List<Article> articleList = new ArrayList<Article>();

        for(pageNow = 1; pageNow <= totalPage; pageNow++){

            articleList.addAll(getArtitcleByPage(pageNow));

        }

        // 遍历输出博主所有的文章

        for(Article article : articleList) {

            System.out.println("文章标题:" + article.getTitle());

            System.out.println("文章绝对路劲地址:http://blog.csdn.net" + article.getAddress());

            System.out.println("文章简介:" + article.getDesption());

            System.out.println("发表时间:" + article.getTime());

        }

    }

    public static List<Article> getArtitcleByPage(int pageNow) throws IOException{

        Connection conn = Jsoup.connect(URL + "/article/list/" + pageNow)

                .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:47.0) Gecko/20100101 Firefox/47.")

                .timeout(5000)

                .method(Connection.Method.GET);

        Document doc = conn.get();

        Element body = doc.body();

        List<Article> resultList = new ArrayList<Article>();

        Element articleListDiv = body.getElementById("article_list");

        Elements articleList = articleListDiv.getElementsByClass("list_item");

        for(Element article : articleList){

            Article articleEntity = new Article();

            Element linkNode = (article.select("div h1 a")).get(0);

            Element desptionNode = (article.getElementsByClass("article_description")).get(0);

            Element articleManageNode = (article.getElementsByClass("article_manage")).get(0);

            articleEntity.setAddress(linkNode.attr("href"));

            articleEntity.setTitle(linkNode.text());

            articleEntity.setDesption(desptionNode.text());

            articleEntity.setTime(articleManageNode.select("span:eq(0").text());

            resultList.add(articleEntity);

        }

        return resultList;

    }

}

JAVA爬虫代码的更多相关文章

c#代码天气接口一分钟搞懂你的博客为什么没人看看完python这段爬虫代码，java流泪了c#沉默了图片二进制转换与存入数据库相关 C#7.0--引用返回值和引用局部变量 JS直接调用C#后台方法（ajax调用） Linq To Json SqlServer 递归查询
天气预报的程序.程序并不难. 看到这个需求第一个想法就是只要找到合适天气预报接口一切都是小意思,说干就干,立马跟学生沟通价格. 不过谈报价的过程中,差点没让我一口老血喷键盘上,话说我们程序猿的人 ...
福利贴——爬取美女图片的Java爬虫小程序代码
自己做的一个Java爬虫小程序废话不多说.先上图. 目录命名是用标签缩写,假设大家看得不顺眼能够等完成下载后手动改一下,比方像有强迫症的我一样... 这是挂了一个晚上下载的总大小,只是还有非常多由于 ...
初识Java爬虫之Jsoup，提供参考代码
本文主要分享的是关于Java爬虫技术其中一个方式 ==> Jsoup 1.Jsoup简介推开技术大门,爬虫技术琳琅满目,而今天要分享的Jsoup是一款Java的HTML解析神器,,可直接 ...
webmagic的设计机制及原理-如何开发一个Java爬虫
之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫.最近终于集中精力,花了三天时间,终于写完了这篇文章.之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方 ...
JAVA爬虫挖取CSDN博客文章
开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他 ...
Java爬虫搜索原理实现
permike 原文 Java爬虫搜索原理实现没事做,又研究了一下爬虫搜索,两三天时间总算是把原理闹的差不多了,基本实现了爬虫搜索的原理,本次实现还是俩程序,分别是按广度优先和深度优先完成的,广度优 ...
JAVA爬虫 WebCollector
JAVA爬虫 WebCollector 爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. 爬虫 ...
爬虫入门手写一个Java爬虫
本文内容涞源于罗刚老师的书籍 << 自己动手写网络爬虫一书 >> ; 本文将介绍 1: 网络爬虫的是做什么的? 2: 手动写一个简单的网络爬虫; 1: 网络爬虫是做 ...
JAVA爬虫实践（实践三：爬虫框架webMagic和csdnBlog爬虫）
WebMagic WebMagic是一个简单灵活的Java爬虫框架.基于WebMagic,你可以快速开发出一个高效.易维护的爬虫. 采用HttpClient可以实现定向的爬虫,也可以自己编写算法逻辑来 ...

随机推荐

HIVE---基于Hadoop的数据仓库工具讲解
Hadoop: Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用来开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Dist ...
jQuery实现web页面固定列表搜索
1.需求分析:现在有一个数据展示列表页面,列表内容固定,使用jQuery在固定的列表中实现搜索功能. 2.核心代码:  <script type= ...
JS - Function 之 Arguments
Arguments 函数的参数构成的数组描述只定义在函数体内,函数体内arugments指代Arguments对象,该对象是类数组对象,有数组属性可以当做数组使用,含有传入该函数的所有参数,aru ...
HDU2036 改革春风吹满地
第一次看到这题果断放弃,毕竟几何白痴,第二次刷没做的题的时候突然想到这个三角形面积的向量法:S=|x1*y2-x2*y1| 但是此题可能是凹多边形,所以不能加绝对值,可以画个凹四边形看看. HDU2 ...
JavaWeb基础之JdbcUtils工具类final
JdbcUtils工具类3.0最终版,添加了事务相关功能和释放链接.最终版本可以直接打成jar包,在后面的基本项目都会使用该工具类 1. JdbcUtils代码 /** * 最终版 * @author ...
【疑问】用python写登录验证遇到的问题
最近开始断断续续学习python,今天加入博客园,作为新人,和各位老师们讨教了,以后多多照顾!为了大家能看清楚所以就截图了,文末尾附源码,说不定会有那位老师给我指教一番.############### ...
DevOps之服务手册
唠叨话关于德语噢屁事的知识点,仅提供精华汇总,具体知识点细节,参考教程网址,如需帮助,请留言. <DevOps服务手册(Manual)> <IT资源目标化>1.设施和设备(I ...
组件 layui 常用控件下拉框的应用
下拉框的显示样式: 针对下拉框的绑定等操作时,在最后务必调用一次 form.render(); 1.基本定义: <div class="layui-form-item"> ...
iOS开发工程师必备技能（持续更新）
Objective-C Objective-C语言基础 library,framework的制作 Runtime 编程 LLVM 原理和调优操作系统 iOS内存管理和调优 iOS的文件系统和沙盒机制 ...
linux 计划任务(crontab)
每天写一点,总有一天我这条咸鱼能变得更咸 cron服务是一个linux下的定时执行工具,可以在无需人工干预的情况下运行作业.频率可以划分为分钟小时天月周,格式如下: 1.crontab 服 ...

JAVA爬虫代码

JAVA爬虫代码的更多相关文章

随机推荐

热门专题