java获取页面编码

文章出自：http://babyjoycry.javaeye.com/blog/587527 在此感谢原作者...\(^o^)/~

最近研究抓取网页内容，发现要获取页面的编码格式，Java没有现成的实现方法，虽然csdn上有个达人写了一篇文章，附有代码，可惜，我没有找到相关的包，不得已，只好自己动手丰衣足食了。

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.URL;

import java.util.Iterator;

import java.util.List;

import java.util.Map;

import java.util.Set;

import cpdetector.io.CodepageDetectorProxy;

import cpdetector.io.HTMLCodepageDetector;

import cpdetector.io.JChardetFacade;

public class PageEncodeDetector {

    private static CodepageDetectorProxy detector = CodepageDetectorProxy

            .getInstance();

    static {

        detector.add(new HTMLCodepageDetector(false));

        detector.add(JChardetFacade.getInstance());

    }

    /**

     * 测试用例

     *

     * @param args

     */

    public static void main(String[] args) {

        PageEncodeDetector web = new PageEncodeDetector();

        try {

            System.out.println(web.getCharset("http://www.baidu.com/"));

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

    /**

     * @param strurl

     *            页面url地址,需要以 http://开始，例：http://www.pujia.com

     * @return

     * @throws IOException

     */

    public String getCharset(String strurl) throws IOException {

        // 定义URL对象

        URL url = new URL(strurl);

        // 获取http连接对象

        HttpURLConnection urlConnection = (HttpURLConnection) url

                .openConnection();

        ;

        urlConnection.connect();

        // 网页编码

        String strencoding = null;

        /**

         * 首先根据header信息，判断页面编码

         */

        // map存放的是header信息(url页面的头信息)

        Map<String, List<String>> map = urlConnection.getHeaderFields();

        Set<String> keys = map.keySet();

        Iterator<String> iterator = keys.iterator();

        // 遍历,查找字符编码

        String key = null;

        String tmp = null;

        while (iterator.hasNext()) {

            key = iterator.next();

            tmp = map.get(key).toString().toLowerCase();

            // 获取content-type charset

            if (key != null && key.equals("Content-Type")) {

                int m = tmp.indexOf("charset=");

                if (m != -1) {

                    strencoding = tmp.substring(m + 8).replace("]", "");

                    return strencoding;

                }

            }

        }

        /**

         * 通过解析meta得到网页编码

         */

        // 获取网页源码(英文字符和数字不会乱码，所以可以得到正确<meta/>区域)

        StringBuffer sb = new StringBuffer();

        String line;

        try {

            BufferedReader in = new BufferedReader(new InputStreamReader(

                    url.openStream()));

            while ((line = in.readLine()) != null) {

                sb.append(line);

            }

            in.close();

        } catch (Exception e) { // Report any errors that arise

            System.err.println(e);

            System.err

                    .println("Usage:     java     HttpClient     <URL>     [<filename>]");

        }

        String htmlcode = sb.toString();

        // 解析html源码，取出<meta />区域，并取出charset

        String strbegin = "<meta";

        String strend = ">";

        String strtmp;

        int begin = htmlcode.indexOf(strbegin);

        int end = -1;

        int inttmp;

        while (begin > -1) {

            end = htmlcode.substring(begin).indexOf(strend);

            if (begin > -1 && end > -1) {

                strtmp = htmlcode.substring(begin, begin + end).toLowerCase();

                inttmp = strtmp.indexOf("charset");

                if (inttmp > -1) {

                    strencoding = strtmp.substring(inttmp + 7, end)

                            .replace("=", "").replace("/", "")

                            .replace("\"", "").replace("\'", "")

                            .replace(" ", "");

                    return strencoding;

                }

            }

            htmlcode = htmlcode.substring(begin);

            begin = htmlcode.indexOf(strbegin);

        }

        /**

         * 分析字节得到网页编码

         */

        strencoding = getFileEncoding(url);

        // 设置默认网页字符编码

        if (strencoding == null) {

            strencoding = "GBK";

        }

        return strencoding;

    }

    /**

     *

     * <br>

     * 方法说明：通过网页内容识别网页编码

     *

     * <br>

     * 输入参数：strUrl 网页链接; timeout 超时设置

     *

     * <br>

     * 返回类型：网页编码

     */

    public static String getFileEncoding(URL url) {

        java.nio.charset.Charset charset = null;

        try {

            charset = detector.detectCodepage(url);

        } catch (Exception e) {

            System.out.println(e.getClass() + "分析" + "编码失败");

        }

        if (charset != null)

            return charset.name();

        return null;

    }

}

需要下载cpdetector_1.0.5.jar 和 chardet.jar

java获取页面编码的更多相关文章

java 获取页面中的 a 标签的 href 实例
Pattern p = Pattern.compile("<a\\s+href\\s*=\\s*(\"|\')?(.*?)[\"|\'|>]", P ...
java获取字符串编码和转换字符串编码
public class EncodingUtil { // 这里可以提供更多地编码格式,另外由于部分编码格式是一致的所以会返回第一个匹配的编码格式 GBK 和 GB2312 public stat ...
Java获取字符串编码方式
直接下载吧: http://files.cnblogs.com/files/xiluhua/BytesEncodingDetectTool.rar
C# -- WebClient自动获取web页面编码并转换
C# -- WebClient自动获取web页面编码并转换抽个时间,写篇小文章,最近有个朋友,用vb开发一个工具,遇到WebClient获取的内容出现乱码,可惜对vb不是很熟悉,看了几分钟vb的语法 ...
Java 网络爬虫获取页面源代码
原博文:http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971893.html 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网 ...
java获取天气预报的信息
运行效果: 主要功能: 1,jsp页面输入省份和城市根据条件获取当地的天气信息 2,java代码利用第三方的省份和城市的路径地址本工程主要实现java获取天气预报的信息步骤1,创建工程weath ...
java设置字符串编码、转码
Unicode(统一码.万国码.单一码)是计算机科学领域里的一项业界标准,包括字符集.编码方案等.Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一 ...
Java获取URL对应的资源
Java获取URL对应的资源认识IP.认识URL是进行网络编程的第一步.java.net.URL提供了丰富的URL构建方式,并可以通过java.net.URL来获取资源. 一.认识URL ...
js/java 获取、添加、修改、删除cookie（最全）
一.cookie介绍 1.cookie的本来面目 HTTP协议本身是无状态的.什么是无状态呢,即服务器无法判断用户身份.Cookie实际上是一小段的文本信息(key-value格式).客户端向服务 ...

随机推荐

BestCoder Valentine's Day Round
昨晚在开赛前5分钟注册的,然后比赛刚开始就掉线我就不想说了(蹭网的下场……),只好用手机来看题和提交,代码用电脑打好再拉进手机的(是在傻傻地用手机打了一半后才想到的办法). 1001,也就是 hdu ...
每一个可以移动的棋子都要移动——Every-SG 游戏
先看一个问题 HDU 3595 GG and MM (Every_SG博弈) 题目有N个游戏同时进行,每个游戏有两堆石子,每次从个数多的堆中取走数量小的数量的整数倍的石子.取最后一次的获胜.并且N个游 ...
oninput,onpropertychange,onchange的用法和区别【转载】
1.前言由于工作需要,需实现一个类似于微博输入框的功能,在用户动态输入文字的时候,修改提示“您还可以输入XX字”.如下图所示: 因此,稍微研究了一下oninput,onpropertychange, ...
Element can be click when out of view
WebDriver can't action the element when out of view Webdriver can't action the element when the elem ...
python2 urllib 笔记
python2 urllib 笔记 import urllib base='http://httpbin.org/' ip=base+'ip' r=urllib.urlopen(ip) print r ...
javascript正则表达式介绍
正则表达式就是一个用来描述字符模式的对象.它被用来在文本中执行模式匹配(pattern-matching)以及”查找-替换”(search-and-replace)的任务.javascript中正则的 ...
20145218 《Java程序设计》第05次实验报告
北京电子科技学院(BESTI)实验报告课程:Java程序设计班级:1452 指导教师:娄嘉鹏实验名称:Java网络编程及安全一.实验内容 1．掌握Socket程序的编写: 2．掌握密码技术的使 ...
python 练习 5
#!/usr/bin/python # -*- coding: utf-8 -*- from collections import deque def z69(): '''猜牌术(1) 魔术师,最上面 ...
Ubuntu下解决bash 没有那个文件或目录的方法
因为之前电脑硬盘坏掉,维修换了新硬盘,今天重新安装了ubuntu,装好之后就赶紧搭建工作环境,将备份的资料拷贝进来,搭建交叉编译环境,但是发现,修改bashrc中PATH绝对路径指向交叉编译器后,在命 ...
hdu 1829 A Bug's Life（分组并查集（偏移量））
A Bug's Life Time Limit: 15000/5000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Tot ...

java获取页面编码

java获取页面编码的更多相关文章

随机推荐

热门专题