Cpdetector编码识别

概述

浏览器在打开一个网页时，首要任务是判断网页的编码格式，然后采用合适的编码进行解析；我们常用的文本编辑器在打开文档时同样需要判断文档的编码进行相应的解析。这涉及到的技术就是编码甄别，下面我们介绍一款比较好用的Java 库。

在http://sourceforge.net/projects/cpdetector/这个地址可以下载到。

实例

不做过多赘述了，直接贴出实例代码。

package com.coder4j.main.cpdetector;

import info.monitorenter.cpdetector.io.ASCIIDetector;

import info.monitorenter.cpdetector.io.ByteOrderMarkDetector;

import info.monitorenter.cpdetector.io.CodepageDetectorProxy;

import info.monitorenter.cpdetector.io.JChardetFacade;

import info.monitorenter.cpdetector.io.ParsingDetector;

import info.monitorenter.cpdetector.io.UnicodeDetector;

import java.net.MalformedURLException;

import java.net.URL;

/**

 * 导入如下jar<br>

 * cpdetector_1.0.10.jar,antlr-2.7.4.jar,chardet-1.0.jar

*

 * @author Chinaxiang

 * @date 2015-10-11

*

*/

public class UseCpdetector {

/**

 * 获取URL的编码

*

 * @param url

 * @return

*/

 public static String getUrlEncode(URL url) {

/*

 * detector是探测器，它把探测任务交给具体的探测实现类的实例完成。

 * cpDetector内置了一些常用的探测实现类，这些探测实现类的实例可以通过add方法 加进来，如ParsingDetector、

 * JChardetFacade、ASCIIDetector、UnicodeDetector。

 * detector按照“谁最先返回非空的探测结果，就以该结果为准”的原则返回探测到的

 * 字符集编码。使用需要用到三个第三方JAR包：antlr.jar、chardet.jar和cpdetector.jar

 * cpDetector是基于统计学原理的，不保证完全正确。

*/

 CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();

/*

 * ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于

 * 指示是否显示探测过程的详细信息，为false不显示。

*/

 detector.add(new ParsingDetector(false));

 detector.add(new ByteOrderMarkDetector());

/*

 * JChardetFacade封装了由Mozilla组织提供的JChardet，它可以完成大多数文件的编码

 * 测定。所以，一般有了这个探测器就可满足大多数项目的要求，如果你还不放心，可以

 * 再多加几个探测器，比如下面的ASCIIDetector、UnicodeDetector等。

*

 * 用到antlr.jar、chardet.jar

*/

detector.add(JChardetFacade.getInstance());

 // ASCIIDetector用于ASCII编码测定

detector.add(ASCIIDetector.getInstance());

 // UnicodeDetector用于Unicode家族编码的测定

detector.add(UnicodeDetector.getInstance());

 java.nio.charset.Charset charset = null;

 try {

 charset = detector.detectCodepage(url);

 } catch (Exception ex) {

ex.printStackTrace();

}

 if (charset != null) {

 return charset.name();

}

 return null;

}

 public static void main(String[] args) {

 try {

 URL url = new URL("http://www.baidu.com");

 String encode = getUrlEncode(url);

 System.out.println(encode);// UTF-8

 } catch (MalformedURLException e) {

e.printStackTrace();

}

}

}

文件的路径也可以转为URL，所以对文件编码的判断你应该会了。

Cpdetector编码识别的更多相关文章

Text文档编码识别方法
Text文档编码识别方法在做文档读取的时候,时常碰到编码格式不正确的问题,而要怎么样正确识别文档的编码格式,成了很多程序员的一块心病,今天我就要试着治好这块心病,这段代码的浓缩来自上千万文档的数据分 ...
.NET自动字符编码识别程序库 NChardet
什么是NChardet NChardet是mozilla自动字符编码识别程序库chardet的.NET实现,它移植自jchardet,chardet的java版实现,可实现对给定字符流的编码探测. N ...
转 :Vim文件编码识别与乱码处理
Vim文件编码识别与乱码处理在 Vim 中,有四个与编码有关的选项,它们是:fileencodings.fileencoding.encoding 和 termencoding.在实际使用中,任 ...
【python】python编码方式,chardet编码识别库
环境: python3.6 需求: 针对于打开一个文件,可以读取到文本的编码方式,根据默认的文件编码方式来获取文件,就不会出现乱码. 针对这种需求,python中有这个方式可以很好的解决: 解决策略: ...
VIM 文件编码识别与乱码处理（转载）
在 Vim 中,有四个与编码有关的选项,它们是:fileencodings.fileencoding.encoding 和 termencoding.在实际使用中,任何一个选项出现错误,都会导致出现乱 ...
爬虫技术 -- 基础学习（五）解决页面编码识别（附c#代码）
实现从Web网页提取文本之前,首先要识别网页的编码,有时候还需要进一步识别网页所使用的语言.因为同一种编码可能对应多种语言,例如UTF-8编码可能对应英文或中文等语言. 识别编码整体流程如下: (1) ...
编码识别工具：hash-identifier
hash-identifier的使用: 当不知道编码是什么类型的时候,可以通过kali系统中的hash工具判别,如下图所示, 在HASH后面输入要判别的编码内容,在后面的Possible Hashs中 ...
crawler_网络爬虫中编码的正确处理与乱码的解决策略
转载: http://hi.baidu.com/erliang20088/item/9156132bdaeae8949c63d134 最近一个月一直在对nutch1.6版进行中等层次的二次开发,本来是 ...
Python编码问题整理
认识常见编码 GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码 GBK 是 GB2312的扩展 ,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名 cp936:中文本地系统是 ...

随机推荐

C++之路进阶——bzoj1455（罗马游戏）
F.A.Qs Home Discuss ProblemSet Status Ranklist Contest ModifyUser gryz2016 Logout 捐赠本站 Notice:由于本OJ ...
linux时间的查看与修改
1.查看时间和日期 date 2.设置时间和日期将系统日期设定成1996年6月10日的命令 date -s 06/22/96 将系统时间设定成下午1点52分0秒的命令 date -s 13:52:0 ...
MSSQL 判断实例中是否存在某种表
执行语句 SELECT 'SELECT * FROM '+Name+'..SysObjects Where XType=''U'' and name=''tab_scartrim'' ORDER BY ...
Windows 2003/2008更改远程桌面端口脚本
保存为bat文件,点击运行按提示输入新端口自动完成,直接下载更改远程桌面端口脚本 @echo off color 0a title @@ 修改Windows XP/2003/2008远程桌面服务端 ...
Verilog篇(一)
Verilog在行为级建模时常用到的一些函数,变量等. 1:$random(seed),每次根据seed的值产生一个32位的有符号数,seed的数据类型必须是寄存器(reg),整形(integer), ...
【ruby】快速安装gems的方法
在使用gem install ...的时候增加参数: --no-ri 可以不安装ri部分 --no-rdoc 可以不安装rdoc部分
161125、Java网络编程之统一资源定位符URL
统一资源定位符URL(Uniform Resource Locator)是www客户机访问Internet时用来标识资源的名字和地址.超文本链路由统一资源定位符URL维持.URL的格式是: <M ...
Android的startActivityForResult()与onActivityResult()与setResult()参数分析，activity带参数的返回
一.使用场景在一个主界面(主Activity)通过意图跳转至多个不同子Activity上去,当子模块的代码执行完毕后再次返回主页面,将子activity中得到的数据显示在主界面/完成的数据交给主Ac ...
web.xml完整配置
<?xml version="1.0" encoding="UTF-8"?> <web-app xmlns="http://java ...
Temporary InMemory Tables [AX 2012]
Temporary InMemory Tables [AX 2012] This topic has not yet been rated - Rate this topic Updated: Oct ...

Cpdetector编码识别

概述

实例

Cpdetector编码识别的更多相关文章

随机推荐

热门专题