Java爬虫框架 | 爬小说

Jsoup，Java爬虫解决方案，中文文档：jsoup

不得不说Java的生态真的好，原来我以为爬虫是只能用Pyhton来写的，结果发现Java的爬虫框架不要太多……

不过个人觉得Jsoup最好用，最直接也很简单

　写了一个Demo,爬取笔趣网的小说，格式已过滤。

public class CrawlText {

    /***

     * 获取文本

     *

     * @param autoDownloadFile

     *            自动下载文件

     * @param Multithreading

     *            多线程 默认false

     * @param Url

     *            网站链接

     * @throws IOException

     */

    public static void getText(boolean autoDownloadFile, boolean Multithreading, String Url) throws IOException {

        String rule = "abs:href";

        List<String> urlList = new ArrayList<String>();

        Document document = Jsoup.connect(Url)

                .timeout(4000)

                .ignoreContentType(true)

                .userAgent("Mozilla\" to \"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0)")

                .get();

        System.out.println(document.toString());

        Elements urlNode = document.select("a[href$=.html]");

        for (Element element : urlNode) {

            urlList.add(element.attr(rule));

        }

        CrawTextThread crawTextThread = new CrawTextThread(urlList);

        crawTextThread.start();

    }

}

package xyz.yangchaojie.JSOUP.service;

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.RandomAccessFile;

import java.util.List;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

public class CrawTextThread extends Thread {

    List<String> UrlList;

    public CrawTextThread(List<String> urlList) {

        this.UrlList = urlList;

    }

    String rule = "";

    String rule_title = "h1";

    String rule_content = "content";

    public static String PATH = "D:\\JSOUP\\";

    /**

     * 创建文件

     *

     * @param fileName

     * @return

     */

    public static void createFile(File fileName) throws Exception {

        try {

            if (!fileName.exists()) {

                fileName.createNewFile();

            }

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

    public static void writeTxtFile(String content, File fileName) throws Exception {

        RandomAccessFile mm = null;

        FileOutputStream o = null;

        try {

            o = new FileOutputStream(fileName);

            o.write(content.getBytes("UTF-8"));

            o.close();

        } catch (Exception e) {

            e.printStackTrace();

        } finally {

            if (mm != null) {

                mm.close();

            }

        }

    }

    @Override

    public void run() {

        currentThread().setName("一个都别跑:");

        String title;

        String content;

        for (String url : UrlList) {

                try {

                    Document document = Jsoup.connect(url).timeout(6000).get();

                    title = document.select("h1").toString();

                    content = document.select("#content").html();

                    System.out.println("线程:"+currentThread().getName()+"爬取URL—>"+url);

                    File file = new File(PATH+title.replaceAll("<h1>", "").replaceAll("</h1>", "")+".txt");

                    createFile(file);

                    System.out.println("创建文件:"+file.getPath());

                    writeTxtFile(FileterHtml(content), file);

                } catch (IOException e) {

                    e.printStackTrace();

                } catch (Exception e) {

                    e.printStackTrace();

                }

        }

    }

    public static String FileterHtml(String str) {

        return str.replaceAll(" ", "").replaceAll("<br>", "\r\n");

    }

}

public static void main( String[] args )

    {

        try {

            CrawlText.getText(true, true, "http://www.biquge.com.tw/0_66/");

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

RUN：

创建文件:D:\JSOUP\ 关于新书的种种，在此一并交代.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83312.html

创建文件:D:\JSOUP\ 第一章 失意相公.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83313.html

创建文件:D:\JSOUP\ 第二章 吊颈秀才.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83314.html

创建文件:D:\JSOUP\ 第三章 秦氏族叔.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83315.html

创建文件:D:\JSOUP\ 第四章 无妄之灾.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83316.html

创建文件:D:\JSOUP\ 第五章 游衙惊梦.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83317.html

创建文件:D:\JSOUP\ 第六章 运蹇时乖.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83318.html

创建文件:D:\JSOUP\ 第七章 白手起家（上）.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83319.html

创建文件:D:\JSOUP\ 第八章 白手起家（下）.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83320.html

创建文件:D:\JSOUP\ 第九章 江南才子.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83321.html

创建文件:D:\JSOUP\ 第十章 才子招财.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83322.html

创建文件:D:\JSOUP\ 第十一章 风靡江南.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83323.html

创建文件:D:\JSOUP\ 第十二章 原形毕露.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83324.html

创建文件:D:\JSOUP\ 第十三章 杜家危局.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83325.html

创建文件:D:\JSOUP\ 第十四章 流年不利.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83326.html

创建文件:D:\JSOUP\ 第十五章 化解危局（上）.txt

线程:一个都别跑:爬取URL—>http://www.biquge.com.tw/0_66/83327.html

创建文件:D:\JSOUP\ 第十六章 化解危局（中）.txt

Java爬虫框架 | 爬小说的更多相关文章

Java爬虫框架之WebMagic
一.介绍 WebMagic是一个简单灵活的Java爬虫框架.基于WebMagic,你可以快速开发出一个高效.易维护的爬虫. 二.如何学习 1.查看官网官网地址为:http://webmagic.io ...
java爬虫框架jsoup
1.java爬虫框架的api jsoup:https://www.open-open.com/jsoup/
Java爬虫一键爬取结果并保存为Excel
Java爬虫一键爬取结果并保存为Excel 将爬取结果保存为一个Excel表格官方没有给出导出Excel 的教程这里我就发一个导出为Excel的教程导包因为个人爱好我喜欢用Gradle所以这 ...
JAVA 爬虫框架webmagic 初步使用Demo
一想到做爬虫大家第一个想到的语言一定是python,毕竟python比方便,而且最近也非常的火爆,但是python有一个全局锁的概念新能有瓶颈,所以用java还是比较牛逼的, webmagic 官网 ...
Java爬虫框架WebMagic——入门（爬取列表类网站文章）
初学爬虫,WebMagic作为一个Java开发的爬虫框架很容易上手,下面就通过一个简单的小例子来看一下. WebMagic框架简介 WebMagic框架包含四个组件,PageProcessor.Sch ...
Java爬虫框架WebMagic入门——爬取列表类网站文章
初学爬虫,WebMagic作为一个Java开发的爬虫框架很容易上手,下面就通过一个简单的小例子来看一下. WebMagic框架简介 WebMagic框架包含四个组件,PageProcessor.Sch ...
Java爬虫框架调研
Python中大的爬虫框架有scrapy(风格类似django),pyspider(国产python爬虫框架). 除了Python,Java中也有许多爬虫框架. nutch apache下的开源爬虫程 ...
学习scrapy框架爬小说
一.背景:近期学习python爬虫技术,感觉挺有趣.由于手动自制爬虫感觉效率低,了解到爬虫界有先进的工具可用,尝试学学scrapy爬虫框架的使用. 二.环境:centos7,python3.7,scr ...
Java爬虫框架Jsoup学习记录
Jsoup的作用当你想获得某网页的内容,可以使用此框架做个爬虫程序,爬某图片网站的图片(先获得图片地址,之后再借助其他工具下载图片)或者是小说网站的小说内容我使用Jsoup写出的一款小说下载器,小 ...

随机推荐

java与WebService对接案例--生成代码方法
前端时间出差做项目,因为我们给对三方工厂做Mes项目,其中有一个报工环节,需要我们的Mes中将产品提交到他们的U9(Erp)上,但是由于u9是用友的产品,用c#写的,而我是用java写的,那么WebS ...
（数据科学学习手札65）利用Python实现Shp格式向GeoJSON的转换
一.简介 Shp格式是GIS中非常重要的数据格式,主要在Arcgis中使用,但在进行很多基于网页的空间数据可视化时,通常只接受GeoJSON格式的数据,众所周知JSON(JavaScript Obje ...
Codeforces Gym100502G：Outing（缩点+有依赖的树形背包）
http://codeforces.com/gym/100502/attachments 题意:有n个点,容量为tol,接下来n个关系,表示选了第i个点,那么第xi个点就必须被选.问最多可以选多少个点 ...
S7-1200与S7-200 通信西门子链接
只要这两从站的通讯格式时一样的,而且都为modbus rtu格式的话,是可以走modbus通讯.你在用主站在编程时直接调用modbus rtu通讯库.同时200做为从站,在程序里面将从站的程序写好. ...
（ps2019）Photoshop 2019 最新破解版下载
Photoshop CC 2019新增功能: 下载地址点我新功能介绍:https://helpx.adobe.com/cn/photoshop/using/whats-new.html 经过改良设 ...
javascript高级笔记——内含事件，DOM，BOM等
JavaScript高级笔记 1,DOM的简单学习 1.1,功能:用于控制HTML文档的内容: 1.2,获取页面标签对象:Element *document.getElementById(" ...
TCP/IP协议-网络编程
本文转载自公众号“呆呆熊一点通”,作者:呆呆开篇语前两年, 就买了<TCP/IP网络编程>这本书, 由于自身基础薄弱, 只是走马观花翻阅了几张. 后来工作了这些年, 越来越感到瓶颈期已 ...
关于css样式加载的问题
今天我在学习jQuery的addClass操作时遇到了一个小问题,想来跟大家分享一下,避免初学者踩坑. 我的需求是制作一个表格,并让它隔行换色,在此基础上再加上鼠标悬浮变色的效果.(主要训练jQuer ...
从后端到前端之Vue（二）写个tab试试水
上一篇写了一下table,然后要写什么呢?当然是tab了.动态创建一个tab,里面放一个table,这样一个后台管理的基本功能(之一)就出来了. 好吧,这里其实只是试试水,感受一下vue的数据驱动可以 ...
小白之入口即化——十分钟看懂while循环，字符串格式化，运算符
while循环 while循环-死循环 while空格+条件+冒号缩进+循环体 3.打断死循环 break--终止当前循环 while True: print(123) print(234) bre ...

Java爬虫框架 | 爬小说

Jsoup，Java爬虫解决方案，中文文档：jsoup

Java爬虫框架 | 爬小说的更多相关文章

随机推荐

热门专题