Java HttpURLConnection 抓取网页内容 解析gzip格式输入流数据并转换为String格式字符串
最近GFW为了刷存在感,搞得大家是头晕眼花,修改hosts 几乎成了每日必备工作。
索性写了一个小程序,给办公室的同事们分享,其中有个内容 就是抓取网络上的hosts,废了一些周折。
我是在一个博客上抓取的。但是这位朋友的博客应该是在做防盗链,但他的方式比较简单就是5位数的一个整形随机数。这里折腾一下就ok了。
要命的是他这个链接的流类型 居然是gzip。这个郁闷好久,一直以为是编码格式导致解析不出来结果,后来发现是gzip搞的。
主要的一段代码做个记录吧。
/**
* 网络工具类 用于抓取http://serve.netsh.org上的hosts数据
*
* @author tone
*/
public class NetUtil { private final static String ENCODING = "UTF-8";
private final static String GZIPCODING = "gzip";
private final static String HOST = "http://serve.netsh.org/pub/hosts.php";
private final static String COOKIE = "hostspasscode=%s; Hm_lvt_e26a7cd6079c926259ded8f19369bf0b=1421846509,1421846927,1421847015,1421849633; Hm_lpvt_e26a7cd6079c926259ded8f19369bf0b=1421849633";
private final static String OFF = "off";
private final static String ON = "on";
private final static int RANDOM = 100000;
private static String hostspasscode = null;
private static NetUtil instance; public static NetUtil getInstance() {
if (instance == null) {
instance = new NetUtil();
}
return instance;
} private NetUtil() {
hostspasscode = createRandomCookies();
} /**
* 获取html内容
*
* @param gs
* @param wk
* @param twttr
* @param fb
* @param flkr
* @param dpbx
* @param odrvB
* @param yt
* @param nohl
* @return
*/
public String getHtmlInfo(boolean gs, boolean wk, boolean twttr, boolean fb,
boolean flkr, boolean dpbx, boolean odrv,
boolean yt, boolean nohl) throws Exception {
HttpURLConnection conn = null; String result = ""; //String cookie = "hostspasscode="+hostspasscode+"; Hm_lvt_e26a7cd6079c926259ded8f19369bf0b=1421846509,1421846927,1421847015,1421849633; Hm_lpvt_e26a7cd6079c926259ded8f19369bf0b=1421849633";
String cookie = String.format(COOKIE, hostspasscode); //URL url = new URL("http://serve.netsh.org/pub/hosts.php?passcode=13008&gs=on&wk=on&twttr=on&fb=on&flkr=on&dpbx=on&odrv=on&yt=on&nolh=on");
URL url = new URL(createUrl(hostspasscode, gs, wk, twttr, fb, flkr, dpbx, odrv, yt, nohl));
//System.out.println(cookie);
// System.out.println(url.toString()); conn = (HttpURLConnection) url.openConnection(); conn.setConnectTimeout(5 * 1000);
conn.setDoOutput(true);
//get方式提交
conn.setRequestMethod("GET");
//凭借请求头文件
conn.setRequestProperty("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
conn.setRequestProperty("Accept-Encoding", "gzip, deflate");
conn.setRequestProperty("Accept-Language", "zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3");
conn.setRequestProperty("Connection", "keep-alive");
conn.setRequestProperty("Cookie", cookie);
conn.setRequestProperty("Host", "serve.netsh.org");
conn.setRequestProperty("User-Agent", "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:35.0) Gecko/20100101 Firefox/35.0"); // conn.setRequestProperty("Referer", "http://serve.netsh.org/pub/gethosts.php");
// conn.setRequestProperty("X-Requested-With", "XMLHttpRequest"); conn.connect(); String encoding = conn.getContentEncoding(); result = readStream(conn.getInputStream(), encoding);
//测试进度条显示
// result = readStream(new FileInputStream(new File("/home/tone/Resident.Evil.Damnation.2012.1080p.BluRay.x264.DTS-WiKi.mkv")), "11"); conn.disconnect();
if (nohl) {
result=getLocalHost()+result;
} return result;
} /**
* 读取将InputStream中的字节读以字符的形式取到字符串中,如果encoding是gzip,那么需要先有GZIPInputStream进行封装
*
* @param inputStream InputStream字节流
* @param encoding 编码格式
* @return String类型的形式
* @throws IOException IO异常
*/
private String readStream(InputStream inputStream, String encoding) throws Exception {
StringBuffer buffer = new StringBuffer();
ProgressMonitorInputStream pmis = null; InputStreamReader inputStreamReader = null;
GZIPInputStream gZIPInputStream = null;
if (GZIPCODING.equals(encoding)) {
gZIPInputStream = new GZIPInputStream(inputStream);
inputStreamReader = new InputStreamReader(ProgressUtil.getMonitorInputStream(gZIPInputStream, "获取网络数据"), ENCODING); } else { inputStreamReader = new InputStreamReader(ProgressUtil.getMonitorInputStream(inputStream, "获取网络数据"), ENCODING);
} char[] c = new char[1024]; int lenI;
while ((lenI = inputStreamReader.read(c)) != -1) { buffer.append(new String(c, 0, lenI)); }
if (inputStream != null) {
inputStream.close();
}
if (gZIPInputStream != null) {
gZIPInputStream.close();
}
if (pmis!=null) {
gZIPInputStream.close();
} return buffer.toString(); } /**
* 生成随机Cookies数组
*
* @return 五位随机数字
*/
private String createRandomCookies() { return String.valueOf(Math.random() * RANDOM).substring(0, 5); } /**
* 生成链接字符串
*
* @param hostspasscode
* @param gs
* @param wk
* @param twttr
* @param fb
* @param flkr
* @param dpbx
* @param odrvB
* @param yt
* @param nohl
* @return
*/
private String createUrl(String hostspasscode, boolean gs, boolean wk, boolean twttr, boolean fb,
boolean flkr, boolean dpbx, boolean odrv,
boolean yt, boolean nohl) {
StringBuffer buffer = new StringBuffer();
buffer.append(HOST);
buffer.append("?passcode=" + hostspasscode);
if (gs) {
buffer.append("&gs=" + ON);
} else {
buffer.append("&gs=" + OFF);
}
if (wk) {
buffer.append("&wk=" + ON);
} else {
buffer.append("&wk=" + OFF);
}
if (twttr) {
buffer.append("&twttr=" + ON);
} else {
buffer.append("&twttr=" + OFF);
}
if (fb) {
buffer.append("&fb=" + ON);
} else {
buffer.append("&fb=" + OFF);
}
if (flkr) {
buffer.append("&flkr=" + ON);
} else {
buffer.append("&flkr=" + OFF);
}
if (dpbx) {
buffer.append("&dpbx=" + ON);
} else {
buffer.append("&dpbx=" + OFF);
}
if (odrv) {
buffer.append("&odrv=" + ON);
} else {
buffer.append("&odrv=" + OFF);
}
if (yt) {
buffer.append("&yt=" + ON);
} else {
buffer.append("&yt=" + OFF);
}
if (nohl) {
buffer.append("&nohl=" + ON);
} else {
buffer.append("&nohl=" + OFF);
}
return buffer.toString();
} private String getLocalHost() throws Exception { StringBuffer buffer=new StringBuffer();
String hostName=OSUtil.getInstance().getLocalhostName();
buffer.append("#LOCALHOST begin"+"\n");
buffer.append("127.0.0.1\tlocalhost"+"\n");
if (hostName!=null&&!"".equals(hostName)) {
buffer.append("127.0.1.1\t"+hostName+"\n");
} buffer.append("#LOCALHOST end"+"\n");
return buffer.toString(); } }
Java HttpURLConnection 抓取网页内容 解析gzip格式输入流数据并转换为String格式字符串的更多相关文章
- 网络爬虫Java实现抓取网页内容
package 抓取网页; import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream; ...
- 【Azure 环境】在Windows环境中抓取网络包(netsh trace)后,如何转换为Wireshark格式以便进行分析
问题描述 如何在Windows环境中,不安装第三方软件的情况下(使用Windows内置指令),如何抓取网络包呢?并且如何转换为Wireshark 格式呢? 操作步骤 1) 以管理员模式打开CMD,使用 ...
- iOS—网络实用技术OC篇&网络爬虫-使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...
- iOS开发——网络实用技术OC篇&网络爬虫-使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...
- paip.抓取网页内容--java php python
paip.抓取网页内容--java php python.txt 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog ...
- 使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
- 使用Python中的urlparse、urllib抓取和解析网页(一)(转)
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
- HTTPCLIENT抓取网页内容
通过httpclient抓取网页信息. public class SnippetHtml{ /** * 通过url获取网站html * @param url 网站url */ public Strin ...
- 爬虫学习一系列:urllib2抓取网页内容
爬虫学习一系列:urllib2抓取网页内容 所谓网页抓取,就是把URL地址中指定的网络资源从网络中读取出来,保存到本地.我们平时在浏览器中通过网址浏览网页,只不过我们看到的是解析过的页面效果,而通过程 ...
随机推荐
- Oracle—用户管理的完全恢复(四)
在用户管理的备份(三)中,最后打开数据库时,用了alter database open resetlogs;的命令,这里为什么用resetlogs命令? 一.resetlogs的作用 1.将当前的日志 ...
- spring jdbctemplate源码跟踪
闲着没事,看看源码也是一种乐趣! java操作数据库的基本步骤都是类似的: 1. 建立数据库连接 2. 创建Connection 3. 创建statement或者preparedStateement ...
- JavaSE——面向对象与面向过程、类与对象、(属性、方法、构造器)等
一:面向对象与面向过程 二者都是一种思想,面向对象是相对于面向过程而言的. 面向过程: 1.面向过程思想强调的是过程(动作). 2.在面向过程的开发中,其实就是面向着具体的每一个步骤和过程,把每一个步 ...
- D3D11 Query查询耗时
确实的来说,这是个Debug/Profile的需求,在运行期这个时间毫无意义,有意义的是两帧之间走过了多少时间,而这个,可以用来查询某一个效果所用耗时,废话不多少,进入正题. 首先要创 ...
- linux-i386(ubuntu)下编译安装gsoap_2.8.17过程记录
过程记录 : 1.下载gsoap_2.8.17.zip 并 解压 : $unzip gsoap_2.8.17.zip 2.进入解压后的目录gsoap-2.8 3.自动配置编译环境: $ ...
- [Javascript] “||”和“&&”的灵活运用
引用URL : http://my249645546.iteye.com/blog/1553202 你是否看到过这样的代码:a=a||""; 可能javascript初学者会对此感 ...
- 在ubuntu 部署svn服务器
(1)安装svn sudo apt-get install subversion (2)新建一个仓库 mkdir /svn/test chmod 777 /svn/test sudo svnadmin ...
- Linux文件系统的barrier:启用还是禁用
大多数当前流行的Linux文件系统,包括EXT3和EXT4,都将文件系统barrier作为一个增强的安全特性.它保护数据不被写入日记.但 是,在许多情况下,我们并不清楚这些barrier是否有用.本文 ...
- 利用css使文本在限制几行之后隐藏
想要在布局中显示一段新闻的标题或是内容,特别是内容,东西超多...下面的方法就是通过css来控制文本显示多少的: 首先在html中写上: <p class="ellipsis" ...
- tornado 信号处理
一般情况下,对于线上的程序,我们是不能采取kill -9 来杀掉进程的 因为程序可能有未处理完的程序,如果贸然采取kill -9可能会导致数据不一致 如果需要关闭程序怎么办呢,一般情况下我们采取信号技 ...