用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题

最近在学习用java来做爬虫但是发现不管用那种方式都是爬取的代码比网页的源码少了很多
在网上查了很多都说是inputStream的缓冲区太小而爬取的网页太大导致读取出来的网页代码不完整，但是后面发现并不是这个问
这个是用HttoClient所作的
public static String getHtml2(String url) {

          try {

                HttpGet httpRequest = new HttpGet(url);

                HttpClient httpclient = new DefaultHttpClient();

                HttpResponse httpResponse = httpclient.execute(httpRequest);

                if (httpResponse.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {

                    InputStream input = httpResponse.getEntity().getContent();

                    byte[] b = new byte[1024];

                    int len = 0;

                    StringBuffer buff = new StringBuffer();

                    while ((len = input.read(b)) != -1) {

                        buff.append(new String(b));

                    }

                    return buff.toString();

                    // 使用如下代码只返回40K

                    // return EntityUtils.toString(httpResponse.getEntity(),"UTF-8");

                }

            }catch (Exception e) {

            // TODO Auto-generated catch block

                e.printStackTrace();

            }

          return null;

    }
这个使用HttpURLConnection做的

//使用HttpURLConnection获取网页内容

	public static String getHtml(String url) {//获取网页内容

		StringBuffer html=new StringBuffer();

		if(!url.startsWith("http")) {

			url="https://"+url;

		}

		InputStreamReader inReader=null;

		BufferedReader bReader=null;

		HttpURLConnection htcon=null;

		try {

			URL u=new URL(url);

			//设置请求头为获取与源码一样的代码

			htcon=(HttpURLConnection)u.openConnection();

			htcon.setRequestProperty("User-Agent",

					"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");

			htcon.setReadTimeout(2000);//设置读取超时

			htcon.setRequestMethod("POST");//设置请求方式

			htcon.setConnectTimeout(2000);//设置连接超时

			if(htcon.getResponseCode() == 200) {//如果页面响应的话

				inReader=new InputStreamReader(htcon.getInputStream(),"utf-8");//获得页面的输入流

				bReader=new BufferedReader(inReader);

				String line="";

				while((line=bReader.readLine())!=null) {

					html.append(line);

					html.append("\n");

				}

			}

		} catch (Exception e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}finally {

				try {

					if(inReader!=null) {

						inReader.close();

					}

					if(bReader!=null) {

						bReader.close();

					}

				} catch (IOException e) {

					// TODO Auto-generated catch block

					e.printStackTrace();

				}

		}

		return html.toString();

	}

在线等解决方法，或等更新

用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题的更多相关文章

scrapy-redis实现爬虫分布式爬取分析与实现
本文链接:http://blog.csdn.net/u012150179/article/details/38091411 一 scrapy-redis实现分布式爬取分析所谓的scrapy-redi ...
使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
python 爬虫之爬取大街网（思路）
由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定爬虫基础 crawl ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
使用htmlparser爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
网络爬虫之定向爬虫：爬取当当网2015年图书销售排行榜信息（Crawler）
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...

随机推荐

C#方法重载（overload）方法重写（override）隐藏（new）
一.重载:同一个作用域内发生(比如一个类里面),定义一系列同名方法,但是方法的参数列表不同.这样才能通过传递不同的参数来决定到底调用哪一个. 值得注意的是,方法重载只有通过参数不同来判断调用哪个方法, ...
c/c++ 数组数组的引用，指针数组的引用
c/c++ 数组知识点 1,数组的声明和初始化,对应代码里的test1和test2 2,char数组,对应代码里的test3 3,数组不可以拷贝和复制,对应代码里的test4 4,指针数组, 数组的 ...
c/c++ 字节对齐
c 字节对齐概念: 结构体里会包括各种类型的成员,比如int char long等等,它们要占用的空间不同,系统为一个结构体开辟内存空间时,会有2种选择. 第一种:节省空间的方案,以上面的列子来说的 ...
Syntax error, parameterized types are only available if source level is 1.5 解决方案
在网上找了一个K-means算法的程序,打开,运行,出现了Syntax error,parameterized types are only available if source level is ...
Java入门（三）：变量和运算符
上次谈到了Java的基本数据类型,今天接着聊Java的变量.运算符. 一.变量 1.变量的分类变量分为成员变量.局部变量和常量,其中成员变量又分为实例变量.类变量. 2.变量的定义语法:变量类型( ...
HTTP1.0 、1.1
网上有很多资料说明这个,但都很长的,觉得东西太多也记不住,就记点东西,权当笔记. HTTP 超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用最为广泛的一 ...
formbuild拖拽表单设计器
formbuild拖拽表单设计器表单设计器适用于OA系统.问卷调查系统.考试系统等系统,具体使用请前至官网API请点击 formbuild拖拽表单设计器 formbuild迭代几个功 ...
adb install与pm install 区别
“adb install xx.apk”= “adb push xx.apk /data/local/tmp”+“pm install /data/local/tmp/xx.apk”. “adb in ...
SQL FULL JOIN 关键字
SQL FULL JOIN 关键字只要其中某个表存在匹配,FULL JOIN 关键字就会返回行. FULL JOIN 关键字语法 SELECT column_name(s) FROM table_n ...
(1)Python基础
几种常用类型 int float str bool 基本数值操作绝对值 abs 四舍五入 round 最大值&最小值

用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题

用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题的更多相关文章

随机推荐

热门专题