java网络爬虫，乱码问题终于完美解决

第一次写爬虫，被乱码问题困扰两天，试了很多方法都不可以，今天随便一试，居然好了。

在获取网页时创建了一个缓冲字节输入流，问题就在这个流上，添加标红代码即可

BufferedReader in = null;

in = new BufferedReader(new InputStreamReader(
connection.getInputStream(),"utf-8"));

附上代码，以供参考。

 public String sendGet(String url) {

         Writer write = null;

         // 定义一个字符串用来存储网页内容

         String result = null;

         // 定义一个缓冲字符输入流

         BufferedReader in = null;

         try {

             // 将string转成url对象

             URL realUrl = new URL(url);

             // 初始化一个链接到那个url的连接

             URLConnection connection = realUrl.openConnection();

             // 开始实际的连接

             connection.connect();

             // 初始化 BufferedReader输入流来读取URL的响应

             in = new BufferedReader(new InputStreamReader(

                     connection.getInputStream(),"utf-8"));

             // 用来临时存储抓取到的每一行的数据

             String line;

             File file = new File(saveEssayUrl, fileName);

             File file2 = new File(saveEssayUrl);

             if (file2.isDirectory() == false) {

                 file2.mkdirs();

                 try {

                     file.createNewFile();

                     System.out.println("********************");

                     System.out.println("创建" + fileName + "文件成功！！");

                 } catch (IOException e) {

                     e.printStackTrace();

                 }

             } else {

                 try {

                     file.createNewFile();

                     System.out.println("********************");

                     System.out.println("创建" + fileName + "文件成功！！");

                 } catch (IOException e) {

                     e.printStackTrace();

                 }

             }

             Writer w = new FileWriter(file);

             while ((line = in.readLine()) != null) {

                 // 遍历抓取到的每一行并将其存储到result里面

 //                line = new String(line.getBytes("utf-8"),"gbk");

                 w.write(line);

                 w.write("\r\n");

                 result += line;

             }

             w.close();

         } catch (Exception e) {

             System.out.println("发送GET请求出现异常！" + e);

             e.printStackTrace();

         }

         // 使用finally来关闭输入流

         finally {

             try {

                 if (in != null) {

                     in.close();

                 }

             } catch (Exception e2) {

                 e2.printStackTrace();

             }

         }

         return result;

     }

java网络爬虫，乱码问题终于完美解决的更多相关文章

java网络爬虫基础学习（一）
刚开始接触java爬虫,在这里是搜索网上做一些理论知识的总结主要参考文章:gitchat 的java 网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好. 一.爬虫介绍网络爬虫是一个自动提 ...
学 Java 网络爬虫，需要哪些基础知识？
说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬 ...
Java 网络爬虫获取网页源代码原理及实现
Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...
java网络爬虫基础学习（三）
尝试直接请求URL获取资源豆瓣电影 https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort= ...
Java 网络爬虫，就是这么的简单
这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看学 Java 网络爬虫,需要哪些基础知识.第一篇是关于 Java 网络爬虫入门内容,在该篇中我们以采集虎扑 ...
Java网络爬虫笔记
Java网络爬虫笔记 HttpClient来代替浏览器发起请求. select找到的是元素,也就是elements,你想要获取具体某一个属性的值,还是要用attr("")方法.标签 ...
hadoop中实现java网络爬虫
这一篇网络爬虫的实现就要联系上大数据了.在前两篇java实现网络爬虫和heritrix实现网络爬虫的基础上,这一次是要完整的做一次数据的收集.数据上传.数据分析.数据结果读取.数据可视化. 需要用到 ...
java网络爬虫----------简单抓取慕课网首页数据
© 版权声明:本文为博主原创文章,转载请注明出处一.分析 1.目标:抓取慕课网首页推荐课程的名称和描述信息 2.分析:浏览器F12分析得到,推荐课程的名称都放在class="course- ...
Java网络爬虫 HttpClient
简介 : HttpClient是Apache Jakarta Common下的子项目,用于提供高效的,功能丰富的支持HTTP协议的客户编程工具包,其主要功能如下: 实现了所有HTTP的方法 : GET ...

随机推荐

XML Serialize/Deserialize
using System; using System.Collections.Generic; using System.Globalization; using System.IO; using S ...
sql分组统计多列值
select BQDM,sum(case when HFBZ='0' then 1 ELSE 0 end) bxschf,sum(case when HFBZ='1' then 1 ELSE 0 en ...
完美实现鼠标拖拽事件，解决各种小bug，基于jquery
鼠标拖拽事件是web中使用频率极高的事件,之前写过的代码包括网上的代码,总存在各种各样的问题,包括拖拽体验差,松开鼠标后拖拽效果仍存在以及代码冗余过大等本次我才用jQuery实现一个尽可能高效的拖拽 ...
[原译]一步步教你制作WPF圆形玻璃按钮
原文:[原译]一步步教你制作WPF圆形玻璃按钮图1 1.介绍从我开始使用vista的时候,我就非常喜欢它的圆形玻璃按钮.WPF最好的一个方面就是允许自定义任何控件的样式.用了一段时间的Micros ...
Win10《芒果TV》送7天免费会员，邀您抢先看萌心自制《妈妈是超人3》
<妈妈是超人>第三季萌心归来,霍思燕,贾静雯,黄圣依,邓莎联合释放"妈妈的声音",嗯哼,咘咘,波妞,安迪,大麟子五位萌娃共同出镜,萌化屏幕.Win10<芒果TV& ...
UWP-磁贴初识
原文:UWP-磁贴初识简单的磁贴内容实现,来自 Bob 的视频. 为一个按钮添加点击事件,来更新磁贴. private void ChangeTileContentButton_Click(obje ...
linux log rotate
今天老大提醒我产线kafka自身的log文件积累了好几个月了,我才发现原来kafka的log4j并删除old log. 第一反应是采用linux自带的logrotate功能,在/etc/logrota ...
android核心系列--1,组件生命周期
一,进程模型及进程托管 1,一个APP应用是由一个或多个组件构成的,这些组件可以运行在一个进程中,也可以分别运行在多个进程中: 进程的构造和销毁是由系统全权负责的. 2,一个应用进程只有一个应用环境对 ...
php生成html静态文件
现在的动态网站存在很多性能上的弊端,seo优化会存在一定的瓶颈,现在将动态的网站代码转换为html静态文件,是浏览器通过html间接的读取动态网站源文件,这对其网站加载速度还是seo优化有着举足轻重的 ...
TCP使用注意事项总结
目录发送或者接受数据过程中对端可能发生的情况汇总本端TCP发送数据时对端进程已经崩溃本端TCP发送数据时对端主机已经崩溃本端TCP发送数据时对端主机已经关机某个连接长时间没有数据流动 TCP ...

java网络爬虫，乱码问题终于完美解决

java网络爬虫，乱码问题终于完美解决的更多相关文章

随机推荐

热门专题