简单的网络爬虫程序（Web Crawlers）

程序比较简单，但是能体现基本原理。

package com.wxisme.webcrawlers;

import java.io.*;

import java.net.*;

/**

 * Web Crawlers * @author wxisme

 *

 */

public class WebCrawlers {

    public static void main(String[] args) {

        URL url = null;

        try {

            url = new URL("http://www.baidu.com");

        } catch (MalformedURLException e) {

            System.out.println("域名不合法！");

            e.printStackTrace();

        }

        InputStream is = null;

        try {

            is = url.openStream();

        } catch (IOException e) {

            e.printStackTrace();

        }

        FileOutputStream fos = null;

        try {

            fos = new FileOutputStream("E:\\baidu.txt");

        } catch (FileNotFoundException e) {

            System.out.println("文件创建失败！");

            e.printStackTrace();

        }

        //使用转换流设置字符集

        BufferedReader br = null;

        try {

            br = new  BufferedReader(new InputStreamReader(

                    is,"utf-8"));

        } catch (UnsupportedEncodingException e) {

            System.out.println("字符集设置失败！");

            e.printStackTrace();

        }

        BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(

                fos));

        String msg = null;

        try {

            while((msg = br.readLine()) != null) {

                bw.write(msg);

                bw.newLine();

            }

        } catch (IOException e) {

            System.out.println("文件操作失败！");

            e.printStackTrace();

        } finally {

            try {

                bw.flush();

            } catch (IOException e) {

                e.printStackTrace();

            }

            closeAll(is, fos, br, bw);

        }

    }

    public static void closeAll(Closeable ... io) {

        for(Closeable temp : io) {

            if(temp != null) {

                try {

                    temp.close();

                } catch (IOException e) {

                    System.out.println("文件关闭失败!");

                    e.printStackTrace();

                }

            }

        }

    }

}

简单的网络爬虫程序（Web Crawlers）的更多相关文章

一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
Android网络爬虫程序（基于Jsoup）
摘要:基于 Jsoup 实现一个 Android 的网络爬虫程序,抓取网页的内容并显示出来.写这个程序的主要目的是抓取海投网的宣讲会信息(公司.时间.地点)并在移动端显示,这样就可以随时随地的浏览在学 ...
网络爬虫与web之间的访问授权协议——Robots
网站的管理者们通常会有这样一种心态:一方面期待百度.Google这样的搜索引擎来抓取网站的内容,另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息.正是因为这样,才有“好爬虫”.“坏爬虫”这样的说法 ...
一个简单的C#爬虫程序
这篇这篇文章主要是展示了一个C#语言如何抓取网站中的图片.实现原理就是基于http请求.C#给我们提供了HttpWebRequest和WebClient两个对象,方便发送请求获取数据,下面看如何实 1 ...
Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
Java实现一个简单的网络爬虫
Java实现一个简单的网络爬虫 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWri ...
hello/hi的简单的网络聊天程序
hello/hi的简单的网络聊天程序 0 Linux Socket API Berkeley套接字接口,一个应用程序接口(API),使用一个Internet套接字的概念,使主机间或者一台计算机上的进程 ...
以您熟悉的编程语言为例完成一个hello/hi的简单的网络聊天程序
Socket通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,可以用来实现不同虚拟机或不同计算机之间的通信,应用程序通常通过"套接字"向网络发出 ...
为编写网络爬虫程序安装Python3.5
1. 下载Python3.5.1安装包1.1 进入python官网,点击menu->downloads,网址:https://www.python.org/downloads/ 1.2 根据系统 ...

随机推荐

maven打包源码<转>
Plugin: http://maven.apache.org/plugins/maven-source-plugin/ The Source Plugin has five goals: sourc ...
Java NIO使用及原理分析 (四)(转)
在上一篇文章中介绍了关于缓冲区的一些细节内容,现在终于可以进入NIO中最有意思的部分非阻塞I/O.通常在进行同步I/O操作时,如果读取数据,代码会阻塞直至有可供读取的数据.同样,写入调用将会阻塞直至 ...
Thinkphp3.2版本Controller和Action的访问方法
一.3.2版本以前controller和action的访问方式在3.2版本以前如果Controller=c.Action=a的话,访问规则如下:http://localhost:81/demo1/in ...
一、drupal 安装汉化
下载 Drupal 7: 下载语言包文件:到 http://localize.drupal.org/translate/languages/zh-hans 页面下载对应版本的语言包(.po文件) 安装 ...
用户数据验证的正确姿势之assert
用户数据验证灰常重要, 不用多说了, 但是实现方法(准确的说是表现形式)有很多人, 如何优雅的完成一个后端验证过滤器是一个值得考量的问题, 我尝试过许多方法, 比如validator.js模块, ex ...
ApplicationEventMulticaster not initialized - call 'refresh' before
https://stackoverflow.com/questions/45318618/applicationeventmulticaster-not-initialized-call-refres ...
Collections 集合工具类
集合工具类包括很多静态方法来操作集合list 而Collections则是集合类的一个工具类/帮助类,其中提供了一系列静态方法,用于对集合中元素进行排序.搜索以及线程安全等各种操作. 1) 排序( ...
Spring 4 官方文档学习（十一）Web MVC 框架之themes
http://docs.spring.io/spring/docs/current/spring-framework-reference/html/mvc.html#mvc-themeresolver ...
R语言绘图布局
在R语言中,par 函数可以设置图形边距,其中oma 参数设置outer margin, mar 参数设置margin, 这些边距有什么不同呢,通过box函数可以直观的看到 box 默认在当前图形绘制 ...
IFrame实现的无刷新(仿ajax效果)...
前台代码: <iframe style="display:none;" name="gg"></iframe> <form act ...

简单的网络爬虫程序（Web Crawlers）

简单的网络爬虫程序（Web Crawlers）的更多相关文章

随机推荐

热门专题