Java 抓取网页内容

前两天想写一段自动提取微博状态的代码。据我所知，实现这个功能即可以用PHP写，也可以用Java写。我认为用Java写调试方便一点，PHP的脚本还要上传到服务器什么的。

代码很简单的，新建一个java.net包的URL类的对象，以这个url做为写入源，内容保存在字符串中。然后新建一个文件，把字符串写出即可。不过要注意，不同网站使用不同的编码字。现在大多数的网站使用utf-8字符编码，基于wordpress搭建的网站都是使用这种编码字符的。但是，很多中文网站，包括网易等门户网站，还是使用gb2312编码。一方面gb2312的历史比utf-8要久一些，早期的中文网站以gb2312搭建，现在再修改工作量太大；另一方面，显示同样长度的文字内容，用gb2312编码比用utf-8编码要节省空间。真是因为有这个区别，所以输入网页html代码的时候要选择正确的读入方式。java的inputstream构造函数可以选utf-8作为一个参数传入，但是没有gb2312这个选项。所以抓取网易的网页时，保存下来的文档就会出现乱码。

另外，这个例子只是抓取静态的网页内容，对于微博的状态还是不行，因为要抓取状态就要先登录账号，这就要参考新浪的API文档。

import java.beans.FeatureDescriptor;

import java.io.*;

import java.net.*;

public class spider {

	/**

	 * @param args

	 */

	public static String fetchWebpage(String urlname){

		URL url;

		String s;

		StringBuffer sbuffer = new StringBuffer();

		try{

			url = new URL(urlname);

			// my website use utf-8, but some other websites, like 163 and baidu, use gb2312.

			InputStreamReader sreader = new InputStreamReader(url.openStream(),"utf-8");

			BufferedReader breader = new BufferedReader(sreader);

			while((s=breader.readLine())!=null){

				sbuffer.append(s);

			}

			breader.close();

		}catch(Exception e){

			e.printStackTrace();

		}

		return sbuffer.toString();

	}

	public static void main(String[] args) throws IOException {

		// TODO Auto-generated method stub

		String address = "http://www.mr-naive.com";

		FileOutputStream fos = new FileOutputStream(new File("myPage.html"));

		OutputStreamWriter oswrite = new OutputStreamWriter(fos, "utf-8");

		BufferedWriter bwriter = new BufferedWriter(oswrite);

		bwriter.write(fetchWebpage(address));

		bwriter.close();

	}

}

Java 抓取网页内容的更多相关文章

使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
paip.抓取网页内容--java php python
paip.抓取网页内容--java php python.txt 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog ...
java 抓取网页图片
import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.io.Out ...
Asp.Net 之抓取网页内容
一.获取网页内容——html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...
ASP.NET抓取网页内容的实现方法
这篇文章主要介绍了ASP.NET抓取网页内容的实现方法,涉及使用HttpWebRequest及WebResponse抓取网页内容的技巧,需要的朋友可以参考下一.ASP.NET 使用HttpWebRe ...
ASP.NET抓取网页内容
原文:ASP.NET抓取网页内容一.ASP.NET 使用HttpWebRequest抓取网页内容这种方式抓取某些页面会失败不过,有时候我们会发现,这个程序在抓取某些页面时,是获不到所需的内容的, ...
c#抓取网页内容乱码的解决方案
写过爬虫的同学都知道,这是个很常见的问题了,一般处理思路是: 使用HttpWebRequest发送请求,HttpWebResponse来接收,判断HttpWebResponse中”Content-Ty ...
C# 抓取网页内容的方法
1.抓取一般内容需要三个类:WebRequest.WebResponse.StreamReader 所需命名空间:System.Net.System.IO 核心代码: view plaincopy ...
java爬取网页内容简单例子（2）——附jsoup的select用法详解
[背景] 在上一篇博文java爬取网页内容简单例子(1)——使用正则表达式里面,介绍了如何使用正则表达式去解析网页的内容,虽然该正则表达式比较通用,但繁琐,代码量多,现实中想要想出一条简单的正则表 ...

随机推荐

UVa 11361 - Investigating Div-Sum Property
http://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem&p ...
Power string（poj 2406）
题目大意,给出一个字符串s,求最大的k,使得s能表示成a^k的形式,如 abab 可以表示成(ab)^2: 方法:首先先求kmp算法求出next数组:如果 len mod (len-next[len ...
类似github的框架
github是程序员经常上的网站,但如果是在一家苦逼不能访问外网的公司,那不能把自己的代码托管在github上绝对是一件非常痛苦的事情.如果想要在公司内网也可以用github托管自己的代码,那就要自己 ...
初识VBS
做了测试快一年了吧,迫于无奈,要学习自动化的只是,首先想到了QTP,但是QTP的脚本是VBS,所以必须要会VBS. VBS其实就是一门计算机编程语言,但是缺少计算机程序语言中的部分要素,对于事件的描述 ...
STM32之延时秒,毫秒,微秒
#include "delay.h" #include "stdint.h" #include "stm32f10x.h" ; //us延时 ...
webview调用外部浏览器而不是在控件中显示
view.loadUrl(url); // 如果页面中链接,如果希望点击链接继续在当前browser中响应, // 而不是新开Android的系统browser ...
《Head First设计模式(中文版)》
<Head First设计模式(中文版)>共有14章,每章都介绍了几个设计模式,完整地涵盖了四人组版本全部23个设计模式.前言先介绍<Head First设计模式(中文版)>的 ...
hdu4597 区间dp
//Accepted 1784 KB 78 ms //区间dp //dp[l1][r1][l2][r2] 表示a数列从l1到r1,b数列从l2到r2能得到的最大分值 // #include <c ...
jsCodeWar 多函数嵌套调用
function compose(f, g) { return function() { return f(g.apply(this, arguments)); }; } --- function c ...
ES6:模块简单解释
modules是ES6引入的最重要的一个特性. 以后写模块的时候就直接按照ES6的modules语法来写 ,然后用babel+browserify 来打包就行了. modules规范分两部分,一部分是 ...

Java 抓取网页内容

Java 抓取网页内容的更多相关文章

随机推荐

热门专题