旧瓶新酒-获取网络资源即爬取下载页面内容（图片、html、css、js等）

这个java获取网络资源以前也写过不少

最近用到又重新写了一个，apache.commons.io中的例子就非常好，但是无法对请求进行详细设置

于是大部分照搬，局部替换以设置请求头

如需更加复杂的设置，可以考虑使用同为apche的httpComponents

**
```java
package boot.example;

import org.apache.commons.io.FileUtils;

import org.apache.commons.io.IOUtils;

import java.io.*;

import java.net.HttpURLConnection;

import java.net.URL;

/**

Created by wq on 2017/6/6.

*/

public class Download {

public static void main(String[] args) {

Download download = new Download();

String url = "http://img1.3lian.com/2015/w7/85/d/21.jpg";

String path1 = "E:\1.jpg";

String path2 = "E:\2.jpg";

String path3 = "E:\3.jpg";

String url2="http://www.baidu.com";

try {

download.apacheCommonsIoDownload(url, path1);

} catch (Exception e) {

e.printStackTrace();

}

try {

download.pureJavaNetDownload(url, path2);

} catch (Exception e) {

e.printStackTrace();

}

try {

download.mixedDownload(url, path3);

} catch (Exception e) {

e.printStackTrace();

}

try{

download.getContentAsString(url2);

}catch (Exception e){

e.printStackTrace();

}

}

private void apacheCommonsIoDownload(String urlstr, String path) throws Exception {

apacheCommonsIoDownload(urlstr, new File(path));

}

private void apacheCommonsIoDownload(String urlstr, File file) throws Exception {

FileUtils.copyURLToFile(new URL(urlstr), file);

}

private void pureJavaNetDownload(String urlstr, String path) throws Exception {

pureJavaNetDownload(urlstr, new File(path));

}

//无需依赖

private void pureJavaNetDownload(String urlstr, File file) throws Exception {

URL url = new URL(urlstr);

HttpURLConnection httpURLConnection = (HttpURLConnection) url.openConnection();

httpURLConnection.setRequestMethod("GET");

//有的网站屏蔽程序抓取添加User-Agent头信息以避免403

httpURLConnection.setRequestProperty("User-Agent", "Mozilla/4.0");

httpURLConnection.setConnectTimeout(10000);

httpURLConnection.setReadTimeout(10000);

// httpURLConnection.set...更多请求设置

httpURLConnection.connect();

InputStream is = httpURLConnection.getInputStream();

// 不需要设置可以直接下面也就是org.apache.commons.io.FileUtils中copyURLToFile(URL source, File destination)的写法

// InputStream is=url.openStream();

try {

FileOutputStream fos = new FileOutputStream(file);

try {

// 照搬org.apache.commons.io.IOUtils

// IOUtils.copy(InputStream input, OutputStream output) 开始

byte[] buffer = new byte[1024 * 4];

int n;

while (-1 != (n = is.read(buffer))) {

fos.write(buffer, 0, n);

}

// IOUtils.copy(InputStream input, OutputStream output) 结束

} finally {

try {

if (is != null) {

fos.close();

}

} catch (IOException ioe) {

// ignore

}

}

} finally {

try {

if (is != null) {

is.close();

}

} catch (IOException ioe) {

// ignore

}

}

}

private void mixedDownload(String urlstr, String path) throws Exception {

mixedDownload(urlstr, new File(path));

}

//使用IOUtils减少代码量弃用FileUtils以对请求进行详细设置推荐

private void mixedDownload(String urlstr, File file) throws Exception {

URL url = new URL(urlstr);

HttpURLConnection httpURLConnection = (HttpURLConnection) url.openConnection();

httpURLConnection.setRequestMethod("GET");

httpURLConnection.setRequestProperty("User-Agent", "Mozilla/4.0");

httpURLConnection.setConnectTimeout(10000);

httpURLConnection.setReadTimeout(10000);

httpURLConnection.connect();

InputStream is = httpURLConnection.getInputStream();

try {

FileOutputStream output = FileUtils.openOutputStream(file);

try {

IOUtils.copy(is, output);

} finally {

IOUtils.closeQuietly(output);

}

} finally {

IOUtils.closeQuietly(is);

}

}

private void getContentAsString(String urlstr) throws Exception {

URL url = new URL(urlstr);

InputStream is=url.openStream();

ByteArrayOutputStream bos=new ByteArrayOutputStream();

IOUtils.copy(is, bos);

System.out.println(bos.toString());

}

}

旧瓶新酒-获取网络资源即爬取下载页面内容（图片、html、css、js等）的更多相关文章

java实现多线程使用多个代理ip的方式爬取网页页面内容
项目的目录结构核心源码: package cn.edu.zyt.spider; import java.io.BufferedInputStream; import java.io.FileInpu ...
scrapy(四): 爬取二级页面的内容
scrapy爬取二级页面的内容 1.定义数据结构item.py文件 # -*- coding: utf-8 -*- ''' field: item.py ''' # Define here the m ...
Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...
UI自动化之特殊处理四（获取元素属性\爬取页面源码\常用断言）
获取元素属性\爬取页面源码\常用断言,最终目的都是为了验证我们实际结果是否等于预期结果目录 1.获取元素属性 2.爬取页面源码 3.常用断言 1.获取元素属性获取title:driver.titl ...
scrapy模拟浏览器爬取验证码页面
使用selenium模块爬取验证码页面,selenium模块需要另外安装这里不讲环境的配置,我有一篇博客有专门讲ubuntn下安装和配置模拟浏览器的开发 spider的代码 # -*- coding: ...
[Python_scrapy图片爬取下载]
welcome to myblog Dome地址爬取某个车站的图片 item.py 中 1.申明item 的fields class PhotoItem(scrapy.Item): # define ...
爬取百度页面代码写入到文件+web请求过程解析
一.爬取百度页面代码写入到文件代码示例: from urllib.request import urlopen #导入urlopen包 url="http://www.baidu.com& ...
使用BeautifulSoup自动爬取微信公众号图片
爬取微信分享的图片,根据不同的页面自行修改,使用BeautifulSoup爬取,自行格局HTML修改要爬取图片的位置 import re import time import requests imp ...
Python爬取 | 唯美女生图片
这里只是代码展示,且复制后不能直接运行,需要配置一些设置才行,具体请查看下方链接介绍: Python爬取 | 唯美女生图片 from selenium import webdriver from fa ...

随机推荐

JSON和Map，List，String互相转换
1)Map 和 JSON 互相转换 Map 转成 JSON Map<String, List> map = new HashMap<>(); map.put("xAx ...
在Word指定位置插入富文本域值（html文本）
遇到此问题,首先想到的就是各种百度.结果度娘了一会并没有发现有用的有效的解决方法,哎,看来还得靠自己啊. 首先整理了下手头上的资源,一是HtmlAgilityPack,专门解析Html文本用的:二是我 ...
ssh-agent代理的简单用法
前言在ansible的官方文档中,提到了强烈推荐用ssh-agent来管理密钥究竟ssh-agent是什么,它有什么用法呢,下面来一探究竟. ssh-agent是什么?用处是什么? ssh-age ...
ECMAScript es6新功能讲解视频教程
下载链接:https://www.yinxiangit.com/1.html 目录: 01.课程介绍-ECMAScript 新功能.mp402.块的作用域-let.mp403.恒量-const.mp4 ...
来几道水题 d050: 妳那裡現在幾點了？
减去15即可(注意这个数小于15的情况) 题目:珊珊到了美国犹他州的杨百翰大学之后,文文禁不住对她的思念,常常想打电话给她,却又担心在美国的她是不是在睡觉.好不容易鼓起勇气打通了电话,第一句就先问:「 ...
python+selenium自动化测试——浏览器驱动
selenium控制浏览器需要下载对应版本的驱动,并把下载好的驱动解压然后拷贝到python的安装目录. 1.chrome 驱动对应版本及下载地址;https://npm.taobao.org/mir ...
ios 把数组对象转成json字符串存起来
1第一步是我们获取数据源一般我们都是从接口请求数据 NSArray *subColumnsArray = nil; NSDictionary *dict = [NSJSONSerialization ...
ACM讲课之字符串
本次讲课讲全面介绍字符串以及如何使用字符串解决具体问题. 一.什么是字符串 1.如何存储字符串平时我们使用的变量有很多,int代表整型变量,double代表浮点型变量,char代表字符型变量,那么对 ...
【Jenkins持续集成(一)】SonarQube 入门安装使用教程
一.前言持续集成管理平台不只是CI服务器,是一系列软件开发管理工具的组合. 源码版本管理:svn.git 项目构建工具:Maven.Ant 代码质量管理:Sonar(Checkstyle.PMD.F ...
记一个复杂组件（Filter）的从设计到开发
此文前端框架使用 rax,全篇代码暂未开源(待开源) 原文链接地址:Nealyang/PersonalBlog 前言貌似在面试中,你如果设计一个 react/vue 组件,貌似已经是司空见惯的问题了 ...

旧瓶新酒-获取网络资源即爬取下载页面内容（图片、html、css、js等）

旧瓶新酒-获取网络资源即爬取下载页面内容（图片、html、css、js等）的更多相关文章

随机推荐

热门专题