java爬取网页Unicode转UTF-8中文

　　unicode编码简而言之就是将每一个字符用16位2进制数标识。但是通常都用4位的16进制数标识。例如：

1)中文字符串"你好"的unicode码为：\u60\u597d;

2)英文字符串"ab"的unicode码为：\u0061\u0062；

　　其中\u是标识unicode码用的，后面的4位16进制数则是对应字符的unicode码。

　　写爬虫的过程中，经常遇到一些网站的中文是经过Unicode转码的。在对网页进行解析时，需要将其进行转码，转为中文字符。

　　例如：

\u30102017\u534e\u4e3aHC\u5927\u4f1a\u76f4\u64ad\u3011\u6700\u5168\u3001\u6700\u9707\u64bc\u7684HC\u73b0\u573a\u7167\u7247\u770b\u8fd9\u91cc\uff01\uff01\uff01

　　对应的中文是：

【2017华为HC大会直播】最全、最震撼的HC现场照片看这里！！！

　　unicode码在J2EE项目中应用广泛，java对unicode码提供了很好的支持。例如国际化，则是unicode的经典运用。那么unicode的编码规则具体是什么，如何用程序实现？
1.unicode编码规则

　　unicode码对每一个字符用4位16进制数表示。具体规则是：将一个字符(char)的高8位与低8位分别取出，转化为16进制数，如果转化的16进制数的长度不足2位，则在其后补0，然后将高、低8位转成的16进制字符串拼接起来并在前面补上"\u" 即可。

2.普通转码

　　对直接的字符串转码可以用一下方式，但是对于网络中爬的数据却是无效的。

String unicode = "\u30102017\u534e\u4e3aHC\u5927\u4f1a\u76f4\u64ad\u3011\u6700\u5168\u3001\u6700\u9707\u64bc\u7684HC\u73b0\u573a\u7167";

String result = new String(unicode.getBytes("UTF-8"), "UTF-8");

3.Unicode转码成String：

public static String decodeUnicode(String str) {

    Charset set = Charset.forName("UTF-16");

    Pattern p = Pattern.compile("\\\\u([0-9a-fA-F]{4})");

    Matcher m = p.matcher(str);

    int start = 0;

    int start2 = 0;

    StringBuffer sb = new StringBuffer();

    while (m.find(start)) {

        start2 = m.start();

        if (start2 > start) {

            String seg = str.substring(start, start2);

            sb.append(seg);

        }

        String code = m.group(1);

        int i = Integer.valueOf(code, 16);

        byte[] bb = new byte[4];

        bb[0] = (byte) ((i >> 8) & 0xFF);

        bb[1] = (byte) (i & 0xFF);

        ByteBuffer b = ByteBuffer.wrap(bb);

        sb.append(String.valueOf(set.decode(b)).trim());

        start = m.end();

    }

    start2 = str.length();

    if (start2 > start) {

        String seg = str.substring(start, start2);

        sb.append(seg);

    }

    return sb.toString();

}

4.当然也可以将String转换成Unicode：

public static String stringYoUnicode(String str) {

    str = (str == null ? "" : str);

    String tmp;

    StringBuffer sb = new StringBuffer(1000);

    char c;

    int i, j;

    sb.setLength(0);

    for (i = 0; i < str.length(); i++) {

        c = str.charAt(i);

        sb.append("\\u");

        j = (c >>> 8); // 取出高8位

        tmp = Integer.toHexString(j);

        if (tmp.length() == 1)

            sb.append("0");

        sb.append(tmp);

        j = (c & 0xFF); // 取出低8位

        tmp = Integer.toHexString(j);

        if (tmp.length() == 1)

            sb.append("0");

        sb.append(tmp);

    }

    return (new String(sb));

}

java爬取网页Unicode转UTF-8中文的更多相关文章

使用JAVA爬取网页图片
经过之前的HttpURLConnection还有各种流的结束,已经可以开始理解怎么下载网页上的一张图片了. 对各种流不理解的话,可以翻翻前面的随笔,讲得都比较详细.在此就不细讲了. 主要流程: 1.H ...
Java两种方式简单实现：爬取网页并且保存
注:如果代码中有冗余,错误或者不规范,欢迎指正. Java简单实现:爬取网页并且保存对于网络,我一直处于好奇的态度.以前一直想着写个爬虫,但是一拖再拖,懒得实现,感觉这是一个很麻烦的事情,出现个小错 ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云
一 . Java爬取B站弹幕弹幕的存储位置如何通过B站视频AV号找到弹幕对应的xml文件号首先爬取视频网页,将对应视频网页源码获得就可以找到该视频的av号aid=8678034 还有弹幕序号, ...
使用Post方法模拟登陆爬取网页
最近弄爬虫,遇到的一个问题就是如何使用post方法模拟登陆爬取网页.下面是极简版的代码: import java.io.BufferedReader; import java.io.InputStre ...
一起学爬虫——使用Beautiful Soup爬取网页
要想学好爬虫,必须把基础打扎实,之前发布了两篇文章,分别是使用XPATH和requests爬取网页,今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
Java爬取校内论坛新帖
Java爬取校内论坛新帖为了保持消息灵通,博主没事会上上校内论坛看看新帖,作为爬虫爱好者,博主萌生了写个爬虫自动下载的想法. 嗯,这次就选Java. 第三方库准备 Jsoup Jsoup是一款比较好 ...

随机推荐

jquery接触初级-----juqery选择器实例
jquery 选择器用于触发事件,可以少写很多js代码,一般来说,基本的特效功能都能够完成这里列举一个简单的jquery写的例子: 要求:有两种情况: 1.产品最初状态显示简约形式的品牌,即显示部分 ...
World Cup 996B（排队模拟）
题意:有n个通道,按顺序每一次站一个通道,直到所站的通道没有人分析:模拟这个过程 #include<cstdio> int main() { ]; while(~scanf(" ...
Linux查看CPU、内存、IO占用高的进程
查看CPU占用高的top15进程 | | 查看内存占用高的top15进程 | | 查看IO占用高的top15进程 ./ind_high_io_process.py 3 4 5.其中3表示间隔3秒获取一 ...
Matlab实现单层感知机网络识别字母
感知机网络的参数设置 % 具体用法: % net=newp(pr,T,TF,LF); % % pr: pr是一个R×2的矩阵,R为感知器中输入向量的维度(本例中使用35个字符表征一个字母,那么其维度为 ...
SQL--结构化的查询语言
SQL--结构化的查询语言T-SQL:Transact-SQL (SQL的增强版) 逻辑运算符 and && or || not ! 关系运算符等于 = 不等于<>或!= ...
吴裕雄 python深度学习与实践（4）
import numpy,math def softmax(inMatrix): m,n = numpy.shape(inMatrix) outMatrix = numpy.mat(numpy.zer ...
吴裕雄 python神经网络花朵图片识别（10）
import osimport numpy as npimport matplotlib.pyplot as pltfrom PIL import Image, ImageChopsfrom skim ...
Mac中使用pycharm引包matplotlib失败
最开始是使用matplotlib这个包,然后在pycharm中失败,然后在终端中pip install matplotlib,发现,安装了以后,pycharm依然找不到包. 代码如下: import ...
关于git经常忘记的：远程仓库关联。
我们有时习惯建立好工程后再传到git上,这是时候就忘记咋弄啦, 其实,只要配置远程仓库就行: git remote add +url...具体看网上哦,这里提醒下 Git clone远程分支 Git ...
php数组按值的大小排序
array_multisort(array_column($nima,'zongfen'),SORT_DESC,$nima);

java爬取网页Unicode转UTF-8中文

java爬取网页Unicode转UTF-8中文的更多相关文章

随机推荐

热门专题