Java Socket 爬虫

# 地址

https://github.com/mofadeyunduo/crawler

# 前言

1、代码不断优化更新。

2、有建议请留言。

# 介绍

1、多线程，基于 ExcutorServcie。

2、使用 Socket 进行 HTTP 请求。

# 优化想法

1、线程复用，不为每一个网页单独创建一个线程，每个 Crawler 负责多个网页的爬取。

2、多个网页进行一次读写，减少 IO 时间（待实现）。

3、多代理，防止请求过多，服务器拒绝响应（待实现）。

# 代码

SocketCrawler.java：负责爬取网页。

package per.piers.crawler.service;

import org.apache.logging.log4j.LogManager;

import org.apache.logging.log4j.Logger;

import org.w3c.dom.Document;

import org.w3c.dom.NamedNodeMap;

import org.w3c.dom.NodeList;

import org.xml.sax.SAXException;

import per.piers.crawler.model.HTTPStatus;

import javax.xml.parsers.DocumentBuilder;

import javax.xml.parsers.DocumentBuilderFactory;

import javax.xml.parsers.ParserConfigurationException;

import java.io.*;

import java.net.Socket;

import java.util.*;

import java.util.concurrent.ExecutorService;

import java.util.concurrent.TimeUnit;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/**

 * Created by Piers on 2017/4/15.

 */

public class SocketCrawler implements Runnable {

    private Task task;

    private static Logger logger = LogManager.getLogger(SocketCrawler.class.getName());

    private Map<String, String> headers = new LinkedHashMap<>();

    private LinkedList<String> websites;

    private String charset = "utf-8";

    private ExecutorService executorService;

    private String outputPath;

    public SocketCrawler(LinkedList<String> websites, String outputPath, ExecutorService executorService, Task task) {

        this(websites, outputPath, null, null, executorService, task);

    }

    public SocketCrawler(LinkedList<String> websites, String outputPath, String charset, ExecutorService executorService, Task task) {

        this(websites, outputPath, charset, null, executorService, task);

    }

    public SocketCrawler(LinkedList<String> websites, String outputPath, String charset, Map<String, String> headers, ExecutorService executorService, Task task) {

        if (websites != null) {

            this.websites = websites;

        } else {

            throw new NullPointerException("websites is null");

        }

        if (executorService != null) {

            this.executorService = executorService;

        } else {

            throw new NullPointerException("executorService is null");

        }

        if (outputPath != null) {

            this.outputPath = outputPath;

            new File(outputPath).mkdirs();

        } else {

            throw new NullPointerException("outputPath is null");

        }

        if (task != null) {

            this.task = task;

        } else {

            throw new NullPointerException("task is null");

        }

        if (charset != null) this.charset = charset;

        logger.debug("Charset: {}", this.charset);

        if (headers != null) this.headers.putAll(headers);

        try {

            DocumentBuilderFactory documentBuilderFactory = DocumentBuilderFactory.newInstance();

            DocumentBuilder documentBuilder = documentBuilderFactory.newDocumentBuilder();

            Document document = documentBuilder.parse(new File("target/classes/defaultHeaders.xml"));

            NodeList nodeList = document.getElementsByTagName("header");

            for (int i = 0; i < nodeList.getLength(); i++) {

                NamedNodeMap map = nodeList.item(i).getAttributes();

                this.headers.put(map.getNamedItem("key").getNodeValue(), map.getNamedItem("value").getNodeValue());

            }

        } catch (ParserConfigurationException | IOException | SAXException e) {

            e.printStackTrace();

        }

    }

    public String crawl(String website) throws IOException {

        synchronized (task) {

            task.addCount();

            logger.info("Count: {}", task.getCount());

        }

        logger.traceEntry();

        logger.info("Crawling: {}", website);

        String[] resolves = resolveWebsite(website);

        String host = resolves[0], request = resolves[1];

        Socket socket = new Socket(host, 80);

        setOutputStream(socket.getOutputStream(), host, request);

        try {

            try (BufferedReader reader = new BufferedReader(new InputStreamReader(socket.getInputStream(), charset))) {

                String firstLine = reader.readLine();

                HTTPStatus status = getStatus(firstLine);

                if (status == null) {

                    String error = String.format("Unknown HTTP status: %s", website);

                    logger.error(error);

                    throw new IllegalStateException(error);

                }

                switch (status) {

                    case NOT_FOUND:

                        logger.warn("404: {}", website);

                        return null;

                }

                String line = null;

                while ((line = reader.readLine()) != null && !line.equals("")) ;

                StringBuilder builder = new StringBuilder();

                while ((line = reader.readLine()) != null) {

                    builder.append(line + "\n");

                }

                logger.info("Crawled: {}", website);

                return builder.toString();

            }

        } finally {

            socket.close();

            logger.traceExit();

        }

    }

    private String[] resolveWebsite(String website) {

        Pattern pattern = Pattern.compile("http://(?<domain>[\\w.]+)(?<request>/.*)?", Pattern.CASE_INSENSITIVE);

        Matcher matcher = pattern.matcher(website);

        if (!matcher.find()) {

            String error = String.format("Probably %s is not a valid website", website);

            logger.error(error);

            throw new InputMismatchException(error);

        }

        String host = matcher.group("domain");

        String request = matcher.group("request");

        if (request == null) request = "/";

        logger.debug("Domain is {}", host);

        logger.debug("Request is {}", request);

        return new String[]{host, request};

    }

    private void setOutputStream(OutputStream outputStream, String host, String request) throws IOException {

        BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(outputStream, charset));

        String firstLine = String.format("GET %s HTTP/1.1", request);

        logger.debug("HTTP request: {}", firstLine);

        writer.write(firstLine);

        writer.newLine();

        String hostLine = String.format("Host: %s", host);

        logger.debug("HTTP request: {}", hostLine);

        writer.write(hostLine);

        writer.newLine();

        for (String key : headers.keySet()) {

            String entity = String.format("%s:%s", key, headers.get(key));

            logger.debug("HTTP request: {}", entity);

            writer.write(entity);

            writer.newLine();

        }

        writer.newLine();

        writer.flush();

    }

    private HTTPStatus getStatus(String firstLine) {

        Matcher matcher = Pattern.compile("HTTP/\\d.\\d (?<HTTPStatus>\\d{3}) \\w+").matcher(firstLine);

        if (matcher.find()) {

            switch (Integer.parseInt(matcher.group("HTTPStatus"))) {

                case 200:

                    return HTTPStatus.OK;

                case 404:

                    return HTTPStatus.NOT_FOUND;

            }

        }

        return null;

    }

    @Override

    public void run() {

        // TODO: replace with handler

        for (String website : websites) {

            if (!executorService.isShutdown()) {

                try {

                    String result = crawl(website);

                    if (result != null) {

                        File file = new File(outputPath + "/" + website.replace("http://", "").replaceAll("[/.]", "_"));

                        logger.info("Writing data to {}", file.getAbsolutePath());

                        if (!file.exists()) file.createNewFile();

                        try (BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)))) {

                            writer.write(result);

                            writer.flush();

                        }

                        logger.info("Has write {}", file.getAbsolutePath());

                    }

                    TimeUnit.SECONDS.sleep(new Random().nextInt(task.getTHREAD_SIZE() * 2));

                    synchronized (task) {

                        if (task.getCount() == task.getTASK_SIZE()) {

                            executorService.shutdown();

                        }

                    }

                } catch (IOException e) {

                    logger.error(e.getMessage());

                    e.printStackTrace();

                } catch (InterruptedException e) {

                    // e.printStackTrace();

                }

            }

        }

    }

}

log4j2.xml

<?xml version="1.0" encoding="UTF-8"?>

<!--Configuration后面的status，这个用于设置log4j2自身内部的信息输出，可以不设置，当设置成trace时，你会看到log4j2内部各种详细输出。-->

<!--monitorInterval：Log4j能够自动检测修改配置 文件和重新配置本身，设置间隔秒数。-->

<configuration status="error" monitorInterval="30">

    <!--先定义所有的appender-->

    <appenders>

        <!--这个输出控制台的配置-->

        <Console name="Console" target="SYSTEM_OUT">

            <!--控制台只输出level及以上级别的信息（onMatch），其他的直接拒绝（onMismatch）-->

            <ThresholdFilter level="debug" onMatch="ACCEPT" onMismatch="DENY"/>

            <!--这个都知道是输出日志的格式-->

            <PatternLayout pattern="%d{yyyy-MM-dd HH:mm:ss} [%-5level] %class %t %M - %msg%n"/>

        </Console>

        <!--文件会打印出所有信息，这个log每次运行程序会自动清空，由append属性决定，这个也挺有用的，适合临时测试用-->

        <File name="log" fileName="log/test.log" append="false">

            <PatternLayout pattern="%d{yyyy-MM-dd HH:mm:ss} [%-5level] %class %t %M - %msg%n"/>

        </File>

        <!-- 这个会打印出所有的信息，每次大小超过size，则这size大小的日志会自动存入按年份-月份建立的文件夹下面并进行压缩，作为存档-->

        <RollingFile name="RollingFile" fileName="logs/app.log"

                     filePattern="log/%d{yyyy-MM}/app-%d{MM-dd-yyyy}-%i.log.gz">

            <PatternLayout pattern="%d{yyyy-MM-dd HH:mm:ss} [%-5level] %class %t %M - %msg%n"/>

            <SizeBasedTriggeringPolicy size="50MB"/>

            <!-- DefaultRolloverStrategy属性如不设置，则默认为最多同一文件夹下7个文件，这里设置了20 -->

            <DefaultRolloverStrategy max="20"/>

        </RollingFile>

    </appenders>

    <!--然后定义logger，只有定义了logger并引入的appender，appender才会生效-->

    <loggers>

        <!--建立一个默认的root的logger-->

        <root level="trace">

            <appender-ref ref="RollingFile"/>

            <appender-ref ref="Console"/>

        </root>

    </loggers>

</configuration>

defaultHeaders.xml

<?xml version="1.0" encoding="utf-8"?>

<headers>

    <header key="User-Agent" value="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36"></header>

</headers>

# 遇到的 bug

## 问题

返回的网页乱码，设定 UTF - 8 无用。

## 解决

一开始在 Header 里设置了 Accept-Encoding 属性。

<header key="Accept-Encoding" value="gzip, deflate, sdch, br"></header>

导致返回的是经过编码的网页。删去即可。

## 遇到的问题

HTTP 请求时，服务器不返回数据。

## 解决

在 HTTP 请求的输入流，outputStream 最后输出"\r\n"，标明已经发送完毕。

Java Socket 爬虫的更多相关文章

JAVA通信系列一：Java Socket技术总结
本文是学习java Socket整理的资料,供参考. 1 Socket通信原理 1.1 ISO七层模型 1.2 TCP/IP五层模型应用层相当于OSI中的会话层,表示层, ...
Java 网络爬虫获取网页源代码原理及实现
Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...
JAVA Socket 编程学习笔记（二）
在上一篇中,使用了 java Socket+Tcp/IP 协议来实现应用程序或客户端--服务器间的实时双向通信,本篇中,将使用 UDP 协议来实现 Socket 的通信. 1. 关于UDP UDP协 ...
JAVA Socket 编程学习笔记（一）
1. Socket 通信简介及模型 Java Socket 可实现客户端--服务器间的双向实时通信.java.net包中定义的两个类socket和ServerSocket,分别用来实现双向连接的cli ...
Java Socket Server的演进 (一)
最近在看一些网络服务器的设计, 本文就从起源的角度介绍一下现代网络服务器处理并发连接的思路, 例子就用java提供的API. 1.单线程同步阻塞式服务器及操作系统API 此种是最简单的socket服务 ...
JAVA Socket超时浅析
JAVA Socket超时浅析套接字或插座(socket)是一种软件形式的抽象,用于表达两台机器间一个连接的"终端".针对一个特定的连接,每台机器上都有一个"套接字&q ...
Java Socket编程题库
一. 填空题 ___ IP地址____用来标志网络中的一个通信实体的地址.通信实体可以是计算机,路由器等. 统一资源定位符URL是指向互联网"资源"的指针,由4部分组成:协议 ...
Java Socket编程（转）
Java Socket编程对于Java Socket编程而言,有两个概念,一个是ServerSocket,一个是Socket.服务端和客户端之间通过Socket建立连接,之后它们就可以进行通信了.首 ...
交通银行 Java Socket 服务启动管理 WINDOWS 版
按照交通银行提供的无界面启动方法试验了很多次,都没有成功,所以自己动手用C# 知识写了一个. 小工具可以判断交通银行 JAVA SOCKET 服务是否启动,并可以启动/关闭服务主要代码如下: 判断 ...

随机推荐

System.Xml.XmlException: 引用了未声明的实体“nbsp”
在XML文件中<, >,&等有特殊含义,(前两个字符用于链接签,&用于转义),不能直接使用.使用这些个字符时,应使用它们的转义序列,下面是5个在XML文件中预定义好的实体: ...
SRA解密报错：Data must start with zero
项目背景:要对打印地址进行加密,用公钥加密后会乱码需要base64 decode一下,但是在解密时报错:javax.crypto.BadPaddingException: Data must star ...
浏览器对象模型bom的作用是什么？
浏览器对象模型bom的作用是什么? 零.总结 1.BOM提供了独立于内容而与浏览器窗口进行交互的对象 2.BOM提供了一些访问窗口对象的一些方法,我们可以用它来移动窗口位置,改变窗口大小,打开新窗口和 ...
dbvisualizer 使用笔记
快捷键:CTRL+SHIFT+F 格式化选中的sql语句导入导出数据操作导入: 1.将Exel文件另存为csv文件 2.在dbvisualizer中点击开发数据库,如test_dev,然后在te ...
Nginx与真实IP
配置了Nginx,Tomcat中的Web程序,获得的ip一直是"127.0.0.1",比较纳闷.获得远程ip,已经判断了很多情况,为什么会这样呢? 正解 proxy_set_hea ...
spark rdd持久化的简单对比
未使用rdd持久化使用后通过对比可以发现,未使用RDD持久化时,第一次计算比使用RDD持久化要快,但之后的计算显然要慢的多,差不多10倍的样子代码 public class PersistRDD ...
iOS 使用贝塞尔曲线绘制路径
使用贝塞尔曲线绘制路径大多数时候,我们在开发中使用的控件的边框是矩形,或者做一点圆角,是使得矩形的角看起来更加的圆滑. 但是如果我们想要一个不规则的图形怎么办?有人说,叫UI妹子做,不仅省事,还可以 ...
数据可视化 —— 数据流图（Data Flow Diagram）
数据流图(Data Flow Diagram):简称 DFD,它从数据传递和加工角度,以图形方式来表达系统的逻辑功能.数据在系统内部的逻辑流向和逻辑变换过程,是结构化系统分析方法的主要表达工具及用于表 ...
Android 对.properties文件的读取
/** * * @param filepath .properties文件的位置 */ public void checkFileExists(String filepath){ File file ...
Node.js学习疑惑整理
1.Node.js 在调用某个包时,会首先检查包中 package.json 文件的 main 字段,将其作为包的接口模块,如果 package.json 或 main 字段不存在,会尝试寻找 in ...

Java Socket 爬虫

Java Socket 爬虫的更多相关文章

随机推荐

热门专题