【知识积累】使用Httpclient实现网页的爬取并保存至本地

程序功能实现了爬取网页页面并且将结果保存到本地，通过以爬取页面出发，做一个小的爬虫，分析出有利于自己的信息，做定制化的处理。

其中需要的http*的jar文件，可以在网上自行下载

import java.io.DataOutputStream;

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import org.apache.http.HttpEntity;

import org.apache.http.HttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.DefaultHttpClient;

public class CrawlPage {

    private static String filePath = "F:\\01_Code\\01_Eclipse\\AnalogLogin\\crawData\\";

    private static String url = "http://www.huxiu.com/";

    private static void saveToLocal(InputStream in, String filePath, String filename) throws IOException {

        File file = new File(filePath);

        if(!file.exists())

            file.mkdirs();

        DataOutputStream out = new DataOutputStream(new FileOutputStream(

                new File(filePath + filename)));

        int result;

        while((result=in.read())!=-1){

            out.write(result);

        }

        out.flush();

        out.close();

    }

    public static void crawlPage() throws IOException {

         DefaultHttpClient client = new DefaultHttpClient();

         HttpGet get = new HttpGet(url);

         HttpResponse response = client.execute(get);

         HttpEntity entity = response.getEntity();

         InputStream in = entity.getContent();

         String fileName = "crawlPage.html";

         //保存到本地

         saveToLocal(in, filePath + url.substring(5) + "\\", fileName);

    }

    public static void main(String[] args) throws IOException {

        crawlPage();

    }

}

【知识积累】使用Httpclient实现网页的爬取并保存至本地的更多相关文章

【python爬虫】对喜马拉雅上一个专辑的音频进行爬取并保存到本地
>>>内容基本框架: 1.爬虫目的 2.爬取过程 3.代码实现 4.爬取结果 >>>实验环境: python3.6版本,pycharm,电脑可上网. [一爬虫目 ...
pymysql 使用twisted异步插入数据库：基于crawlspider爬取内容保存到本地mysql数据库
本文的前提是实现了整站内容的抓取,然后把抓取的内容保存到数据库. 可以参考另一篇已经实现整站抓取的文章:Scrapy 使用CrawlSpider整站抓取文章内容实现本文也是基于这篇文章代码基础上实现 ...
【知识积累】爬虫之网页乱码解决方法(gb2312 -> utf-8)
前言今天在测试爬虫项目时,发现了一个很严肃的问题,当爬取的网页编码格式为gb2312时,按照一般的办法转化为utf-8编码时总是乱码,PS:爬取的所有网页无论何种编码格式,都转化为utf-8格式进行 ...
关于js渲染网页时爬取数据的思路和全过程（附源码）
于js渲染网页时爬取数据的思路首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里 ...
使用for或while循环来处理处理不确定页数的网页数据爬取
本文转载自以下网站: Python For 和 While 循环爬取不确定页数的网页 https://www.makcyun.top/web_scraping_withpython16.html 需 ...
Python实训day07pm【Selenium操作网页、爬取数据-下载歌曲】
练习1-爬取歌曲列表任务:通过两个案例,练习使用Selenium操作网页.爬取数据.使用无头模式,爬取网易云的内容. ''' 任务:通过两个案例,练习使用Selenium操作网页.爬取数据. 使用无 ...
Asp .Net Core网页数据爬取笔记
突然要用到地区数据,想到以前用python的Scrapy框架写过一个爬虫,于是打算直接去国家统计局把最新的地区数据抓取回来.本想只需要copy一下以前的代码,就可以得到新鲜出炉的数据,谁知打开以前的项 ...
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
python 爬取世纪佳缘,经过js渲染过的网页的爬取
#!/usr/bin/python #-*- coding:utf-8 -*- #爬取世纪佳缘 #这个网站是真的烦,刚开始的时候用scrapy框架写,但是因为刚接触框架,碰到js渲染的页面之后就没办法 ...

随机推荐

Red Hat5.5 install Generic mysql-5.7.10
1.确认以下依赖包已安装 [ncurses ncurses-devel openssl-devel bison autoconf automake bison gcc m4 libtool make ...
Centos 6.5 部署 redmine 3.3
验证ruby版本如果有就卸载安装最新的 yum install gcc* openssl openssl-devel -y wget https://ruby.taobao.org/mirrors/ ...
canvas ：曲线的面积图加渐变效果
document.body.innerHTML = '<canvas></canvas>' var cvs = document.querySelector("can ...
Java读写文件的几种方法
import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileReader; import java ...
iOS 开发快速导引：TableView 和 CoreData【草】
所有列表式的数据都是用 TableView 显示的预览待补充原料 NSFetchedResultsController 用来操作 NSFetchRequst,有执行查询,监听变化,数据缓存等功能 ...
[.net 面向对象程序设计进阶] (27) 团队开发利器（六）分布式版本控制系统Git——在Visual Studio 2015中使用Git
[.net 面向对象程序设计进阶] (26) 团队开发利器(六)分布式版本控制系统Git——在Visual Studio 2015中使用Git 本篇导读: 接上两篇,继续Git之旅分布式版本控制系统 ...
Tomcat的目录结构
bin:该目录下存放的是二进制可执行文件,如果是安装版,那么这个目录下会有两个exe文件:tomcat6.exe.tomcat6w.exe,前者是在控制台下启动Tomcat,后者是弹出UGI窗口启动T ...
KnockoutJS 3.X API 第八章映射(mapping)插件
Knockout旨在允许您将任意JavaScript对象用作视图模型. 只要一些视图模型的属性是observables,您可以使用KO将它们绑定到您的UI,并且UI将在可观察属性更改时自动更新. 大多 ...
C#实现约瑟夫环问题
using System; using System.Collections.Generic; using System.Linq; using System.Text; namespace orde ...
C++中static数据成员详解
本文和大家分享的主要是c++中static数据成员的相关用法及源码示例,希望能帮助大家更好的学习C++. static(静态存储)数据成员 StaticTest.cpp : 定义控制台应用程序 ...

【知识积累】使用Httpclient实现网页的爬取并保存至本地

【知识积累】使用Httpclient实现网页的爬取并保存至本地的更多相关文章

随机推荐

热门专题