HttpClient爬取网站及图片

1、什么是HttpClient？

HttpClient 是 Apache Jakarta Common 下的子项目，用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。

通过Java程序模拟浏览器访问网页，获取网页代码及图片的应用程序。

2、上代码：

在pom.xml中加入依赖关系：

<dependency>

	    <groupId>org.apache.httpcomponents</groupId>

	    <artifactId>httpclient</artifactId>

	    <version>4.5.2</version>

</dependency>

项目代码：

public static void main(String[] args) throws Exception {

		CloseableHttpClient httpClient = HttpClients.createDefault(); // 创建HttpClient实例

		HttpGet httpGet = new HttpGet("http://www.tuicool.com"); // 创建Httpget实例

		//设置Http报文头信息

		httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0");

		CloseableHttpResponse response = null;

		response = httpClient.execute(httpGet); // 执行http get请求

		HttpEntity httpEntity = response.getEntity(); // 获取返回实体

		String web = EntityUtils.toString(httpEntity, "utf-8"); // 解析实体

		System.out.println("网页内容是：");

		System.out.println(web);

                //获取返回信息

String ContentType = httpEntity.getContentType().getValue();

System.out.println("Content-Type:"+ContentType);

System.out.println("Status:"+response.getStatusLine().getStatusCode());//获取返回码：200 404 500等

		response.close(); // 关闭response

		httpClient.close(); // 关闭HttpClient实体

	}

3、请求图片：

1）获取图片后，以InputStream的形式返回，可以通过new File 及 new OutputStream 的方法保存图片。

2）同时也可以通过Apache的工具包（本质上是封装第一种方法，底层实现原理相同）

需要在pom.xml中加入如下依赖关系：

<dependency>

	    <groupId>commons-io</groupId>

	    <artifactId>commons-io</artifactId>

	    <version>2.5</version>

</dependency>

项目代码：

public static void main(String[] args) throws Exception {

		CloseableHttpClient httpClient = HttpClients.createDefault(); // 创建HttpClient实例

		HttpGet httpGet = new HttpGet("http://www.java1234.com/uploads/allimg/170610/1-1F610195021142.jpg"); // 创建Httpget实例

		//设置Http报文头信息

		httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0");

		CloseableHttpResponse response = null;

		response = httpClient.execute(httpGet); // 执行http get请求

		HttpEntity entity = response.getEntity(); // 获取返回实体

		if(null != entity){

			System.out.println("ContentType:"+entity.getContentType().getValue());

			InputStream inputStream = entity.getContent();//返回一个输入流

			//输出图片

			FileUtils.copyInputStreamToFile(inputStream, new File("D://a.jpg"));//引用org.apache.commons.io.FileUtils

		}

		response.close(); // 关闭response

		httpClient.close(); // 关闭HttpClient实体

}

HttpClient爬取网站及图片的更多相关文章

Python超简单的爬取网站中图片
1.首先导入相关库 import requests import bs4 import threading #用于多线程爬虫,爬取速度快,可以完成多页爬取 import os 2.使用bs4获取htm ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
item pipeline 实例：爬取360摄像图片
生成项目 scrapy startproject image360 cd Image360 && scrapy genspider images images.so.com 一. 构 ...
python3爬取全站美眉图片
爬取网站:https://www.169tp.com/xingganmeinv 该网站美眉图片有数百页,每页24张,共上万张图片,全部爬取下来 import urllib.request import ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
java小工具：通过URL连接爬取资源（图片）
java语言编写一个简单爬取网站图片工具,实现简单: 通过 java.net.HttpURLConnection 获取一个URL连接 HttpURLConnection 连接成功返回一个java.io ...
scrapy爬虫爬取小姐姐图片（不羞涩）
这个爬虫主要学习scrapy的item Pipeline 是时候搬出这张图了: 当我们要使用item Pipeline的时候,要现在settings里面取消这几行的注释我们可以自定义Item Pip ...
Python脚本爬取网站美女照片
上次无意之中看到一个网站,里面全是美女的照片,我就心想,哪天有时间了得把这网站的所有美女照片都得爬下来.今天有时间,写了点代码,爬去了网站的所有照片.附上战果!图片实在是太多了,爬半个多小时先附上所 ...
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...

随机推荐

sedlauncher.exe 磁盘爆满
打开应用和功能,搜KB4023057,然后卸载. 快捷键WIN+R打开运行,输入services.msc回车打开系统服务,找到Windows Remediation Service (sedsvc)和 ...
git操作：删除仓库中的文件或目录
假定当前分支下,abc/123.txt需要从git仓库中删除: git .txt //删除abc目录下的123.txt文件,如果要删除abc目录,使用命令:git rm -r --cached abc ...
Markdown随笔
Markdown随笔这两天兴致来了,想尝试一下使用 Markdown. 写这篇博客时我用的是: MarkdownPad 2 关于 MarkdownPad 2 的安装破解网上有很多教程了,这里我就不赘 ...
HubSpot company数据在UI上的展示和通过API方式进行获取
在网页查看所有的company: https://app.hubspot.com/contacts/6798828/companies/list/view/all/? 打开第一个名为SAP的compa ...
mysql中的where和having的区别
下面以一个例子来具体的讲解: 1. where和having都可以使用的场景 1)select addtime,name from dw_users where addtime> 1500000 ...
Linux的IP详解
俗话说:黑发不知勤学早,白首方悔读书迟. ...
MySQL索引（九）
一.索引介绍 1.1 什么是索引索引就好比一本书的目录,它会让你更快的找到内容. 让获取的数据更有目的性,从而提高数据库检索数据的性能. 分为以下四种: BTREE:B+树索引(基本上都是使用此索引 ...
微软源码站点-C#编程指南
地址:https://referencesource.microsoft.com/#System.Web/HttpPostedFile.cs 微软的源码可以在这里看. ---------------- ...
使用ftp搭建yum仓库
此次操作在VMware Workstation虚拟机的CentOS7.5下进行这里使用两台Linux主机,下表是它们所使用的操作系统以及IP地址. 两台Linux主机所使用的操作系统以及IP地址操 ...
docker更改默认存储路径
systemctl stop docker mkdir /data/docker cp -r /var/lib/docker/* /data/docker mv /var/lib/docker /va ...

HttpClient爬取网站及图片

HttpClient爬取网站及图片的更多相关文章

随机推荐

热门专题