2014-04-12 23:24 12366人阅读 评论(10) 收藏 举报
分类:
【Android 基础】(15)

版权声明:本文为博主原创文章,未经博主允许不得转载。

转载请表明出处:http://blog.csdn.net/lmj623565791/article/details/23562939

问题描述:从网络中抓取html页面进行解析,解析后发现产生部分中文乱码。

由来:制作csdn客户端时产生 , http://blog.csdn.net/lmj623565791/article/details/23532797  (Java环境下,使用控制台打印出是没有乱码)

于是立马检查从服务器读取的代码:

  1. <span style="font-size:18px;">  /**
  2. * 返回该链接地址的html数据
  3. *
  4. * @param urlStr
  5. * @return
  6. * @throws CommonException
  7. */
  8. public static String doGet(String urlStr) throws CommonException
  9. {
  10. StringBuffer sb = new StringBuffer();
  11. try
  12. {
  13. URL url = new URL(urlStr);
  14. HttpURLConnection conn = (HttpURLConnection) url.openConnection();
  15. conn.setRequestMethod("GET");
  16. conn.setConnectTimeout(5000);
  17. conn.setDoInput(true);
  18. conn.setDoOutput(true);
  19. if (conn.getResponseCode() == 200)
  20. {
  21. InputStream is = conn.getInputStream();
  22. int len = 0;
  23. byte[] buf = new byte[1024];
  24. while ((len = is.read(buf)) != -1)
  25. {
  26. sb.append(new String(buf, 0, len, "UTF-8"));
  27. }
  28. is.close();
  29. } else
  30. {
  31. throw new CommonException("访问网络失败!");
  32. }
  33. } catch (Exception e)
  34. {
  35. throw new CommonException("访问网络失败!");
  36. }
  37. return sb.toString();
  38. }
  39. </span>

发现可能是由于我采用字节流从网络读取数据,且每次读取1024个字节,读取完成后能后强制转化为字符串,又因为使用编码为UTF-8,UTF-8是一种变长码(英文1个字节,中文两个字节),所以1024可能会造成刚好截取了某个汉字的一半(前一个字节),然后转化为字符串时造成乱码。唯一不理解的在java环境下,使用控制台打印出是没有乱码的。如果你有不同的理解欢迎留言探讨。

于是把读取数据的代码从字节流改成字符流,修改后的代码为:

  1. <span style="font-size:18px;">  /**
  2. * 返回该链接地址的html数据
  3. *
  4. * @param urlStr
  5. * @return
  6. * @throws CommonException
  7. */
  8. public static String doGet(String urlStr) throws CommonException
  9. {
  10. StringBuffer sb = new StringBuffer();
  11. try
  12. {
  13. URL url = new URL(urlStr);
  14. HttpURLConnection conn = (HttpURLConnection) url.openConnection();
  15. conn.setRequestMethod("GET");
  16. conn.setConnectTimeout(5000);
  17. conn.setDoInput(true);
  18. conn.setDoOutput(true);
  19. if (conn.getResponseCode() == 200)
  20. {
  21. InputStream is = conn.getInputStream();
  22. InputStreamReader isr = new InputStreamReader(is,"UTF-8");
  23. int len = 0;
  24. char[] buf = new char[1024];
  25. while ((len = isr.read(buf)) != -1)
  26. {
  27. sb.append(new String(buf, 0, len));
  28. }
  29. is.close();
  30. isr.close();
  31. } else
  32. {
  33. throw new CommonException("访问网络失败!");
  34. }
  35. } catch (Exception e)
  36. {
  37. throw new CommonException("访问网络失败!");
  38. }
  39. return sb.toString();
  40. }
  41. </span>

问题解决。

Android 从网络中获取数据时 产生部分数据乱码的解决的更多相关文章

  1. Android从网络中获取xml文件并解析数据

    public class XmlwebData { @SuppressLint("UseValueOf") public static List<Person> get ...

  2. Android中获取网页表单中的数据实现思路及代码

    在Android中获取网页里表单中的数据具体实现代码如下,感兴趣的各位可以参考过下哈,希望对大家有所帮助 MainActivity如下: 复制代码 代码如下: package cn.testjavas ...

  3. Android中获取网页表单中的数据

    MainActivity如下: package cn.testjavascript; import java.util.StringTokenizer; import android.os.Bundl ...

  4. Sql 中获取年月日时分秒的函数

    getdate():获取系统当前时间 dateadd(datepart,number,date):计算在一个时间的基础上增加一个时间后的新时间值,比如:dateadd(yy,30,getdate()) ...

  5. 从网络中获取图片显示到Image控件并保存到磁盘

    一.从网络中获取图片信息: /// <summary> /// 获取图片 /// </summary> /// <param name="url"&g ...

  6. koa 基础(十)原生node.js 在 koa 中获取表单提交的数据

    1.app.js // 引入模块 const Koa = require('koa'); const router = require('koa-router')(); /*引入是实例化路由 推荐*/ ...

  7. 在Express 中获取表单请求体数据

    在Express 中获取表单请求体数据 获取 GET 请求参数 获取 POST 请求体数据 安装 配置 获取 GET 请求参数 Express 内置了一个 API , 可以直接通过 req.query ...

  8. python 使用xlsxwriter 写入数据时,当数据中链接的后面包含空格时(如:"http://*** "),导出问题打开报错

    python 在使用 xlsxwriter组件写入数据时,当数据包含类似“http://*** /”数据时,导出的excel,打开时会提示如下错误: 没有查到相关的资料处理这个问题,可能原因为exce ...

  9. 爬虫爬数据时,post数据乱码解决办法

    最近在写一个爬虫,目标网站是:http://zx.bjmemc.com.cn/,可能是为了防止被爬取数据,它给自身数据加了密.用谷歌自带的抓包工具也不能捕获到数据.于是下了Fiddler.     F ...

随机推荐

  1. 使用pyinstaller打包Python应用,生成EXE执行文件

    在命令行中切换到要打包的程序所在目录,或者在程序目录打开命令行,直接输入下面的指令即可pyinstaller -F xxx.py pyinstaller -F -w -i manage.ico app ...

  2. 第 31 章 项目实战-PC 端固定布局[5]

    学习要点: 1.底部区域 2.说明区域 3.版权及证件区 主讲教师:李炎恢 本章主要开始使用学习用 HTML5 和 CSS3 来构建 Web 页面,第一个项目采用 PC 端固定布局来实现. 一.底部区 ...

  3. nyoj-一笔画问题-欧拉图+联通判定

    一笔画问题 时间限制:3000 ms  |  内存限制:65535 KB 难度:4   描述 zyc从小就比较喜欢玩一些小游戏,其中就包括画一笔画,他想请你帮他写一个程序,判断一个图是否能够用一笔画下 ...

  4. CRM(四川网脉系统)项目总结

    CRM系统(四川网脉系统)项目总结 为期八天的四川网脉系统(CRM系统)项目结束了,不管是在做这个项目的过程中还是答辩的过程中都有一些收获,下面对整个项目的开发做一个大致的总结. 一.项目概况 四川网 ...

  5. ABP使用及框架解析系列 - [Unit of Work part.2-框架实现]

    前言 ABP ABP是“ASP.NET Boilerplate Project”的简称. ABP的官方网站:http://www.aspnetboilerplate.com ABP在Github上的开 ...

  6. Java基础学习 -- GUI之 事件处理基础

    事件处理可以简单地这么理解,当有一个事件产生,程序要根据这个事件做出响应.比如,我们做了一个可以通过按钮改变背景颜色的窗口,当我们点击按钮时便产生了一个事件,程序会根据这个事件来做出响应,也就是去改变 ...

  7. 强大css3制作新浪LOGO 胜过PS

    请使用支持CSS3的浏览器查看效果:http://keleyi.com/a/bjad/6lu3dgj8.htm 效果图: 完整代码如下: <html> <head> <t ...

  8. 【HTML5&CSS3进阶学习01】气泡组件的实现

    前言 气泡组件在实际工作中非常普遍,无论是网页中还是app中,比如: 我们这里所谓气泡组件是指列表型气泡组件,这里就其dom实现,css实现,js实现做一个讨论,最后对一些细节点做一些说明,希望对各位 ...

  9. AMD and CMD are dead之KMD规范

    What's KMD? 乱世出英雄,KMD名字的由来充满了杀气. Kill AMD and CMD KMD为替代混乱的AMD和CMD世界而生,一统天下.或者让这个混乱的世界更加混乱,导致: KMD A ...

  10. ASP.NET Mvc实用框架(一)Ioc、仓储模式和单元工作模式

    Framework.EF 首先看一下这个类库: Extended文件夹存放的是EntityFramework.Extensions这个插件的源代码,没有别的原因,就是本人觉得这个插件挺好的,每次省的下 ...