HttpClient抓取网页内容简单介绍

版本HttpClient3.1

1、GET方式

第一步、创建一个客户端，类似于你用浏览器打开一个网页

HttpClient httpClient = new HttpClient();

第二步、创建一个GET方法，用来获取到你需要抓取的网页URL

GetMethod getMethod = new GetMethod("http://www.baidu.com");

第三步、获得网址的响应状态码，200表示请求成功

int statusCode = httpClient.executeMethod(getMethod);

第四步、获取网页的源码

byte[] responseBody = getMethod.getResponseBody();

主要就这四步，当然还有其他很多东西，比如网页编码的问题

 public static String spiderHtml() throws Exception {
         //URL url = new URL("http://top.baidu.com/buzz?b=1");
 
         HttpClient client = new HttpClient();
         GetMethod method = new GetMethod("http://top.baidu.com/buzz?b=1");        
 
         int statusCode = client.executeMethod(method);
         if(statusCode != HttpStatus.SC_OK) {
             System.err.println("Method failed: "  + method.getStatusLine());
         }
 
         byte[] body = method.getResponseBody();
         String html = new String(body,"gbk");

 
2、Post方式
 
1 HttpClient httpClient = new HttpClient();

        PostMethod postMethod = new PostMethod(UrlPath);
        postMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,new DefaultHttpMethodRetryHandler());
        NameValuePair[] postData = new NameValuePair[2];
        postData[0] = new NameValuePair("username", "xkey");
        postData[1] = new NameValuePair("userpass", "********");
        postMethod.setRequestBody(postData);
        try {
            int statusCode = httpClient.executeMethod(postMethod);
            if (statusCode == HttpStatus.SC_OK) {
                byte[] responseBody = postMethod.getResponseBody();
                String html = new String(responseBody);
                System.out.println(html);
            }
        } catch (Exception e) {  
            System.err.println("页面无法访问");
        }finally{
         postMethod.releaseConnection();
     } 
相关链接：http://blog.csdn.net/acceptedxukai/article/details/7030700

http://www.cnblogs.com/modou/articles/1325569.html

HttpClient抓取网页内容简单介绍的更多相关文章

HTTPCLIENT抓取网页内容
通过httpclient抓取网页信息. public class SnippetHtml{ /** * 通过url获取网站html * @param url 网站url */ public Strin ...
PHP抓取采集类snoopy介绍
PHP抓取采集类snoopy介绍一个PHP的抓取方案在 2011年07月04日那天写的已经有 10270 次阅读了感谢参考或原文服务器君一共花费了14.288 ms进行了2次 ...
ASP.NET抓取网页内容的实现方法
这篇文章主要介绍了ASP.NET抓取网页内容的实现方法,涉及使用HttpWebRequest及WebResponse抓取网页内容的技巧,需要的朋友可以参考下一.ASP.NET 使用HttpWebRe ...
ASP.NET抓取网页内容
原文:ASP.NET抓取网页内容一.ASP.NET 使用HttpWebRequest抓取网页内容这种方式抓取某些页面会失败不过,有时候我们会发现,这个程序在抓取某些页面时,是获不到所需的内容的, ...
java爬取网页内容简单例子（2）——附jsoup的select用法详解
[背景] 在上一篇博文java爬取网页内容简单例子(1)——使用正则表达式里面,介绍了如何使用正则表达式去解析网页的内容,虽然该正则表达式比较通用,但繁琐,代码量多,现实中想要想出一条简单的正则表 ...
爬虫学习一系列：urllib2抓取网页内容
爬虫学习一系列:urllib2抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络中读取出来,保存到本地.我们平时在浏览器中通过网址浏览网页,只不过我们看到的是解析过的页面效果,而通过程 ...
paip.抓取网页内容--java php python
paip.抓取网页内容--java php python.txt 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog ...
使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
Asp.Net 之抓取网页内容
一.获取网页内容——html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...

随机推荐

cvSaveImage的第三个参数
http://stackoverflow.com/questions/801054/opencv-cvsaveimage-jpeg-compression-factor #define CV_IM ...
Windows 8.1 归档 —— Step 3 软件的选择与安装
这里我将列举出一些 Windows 8.1 下实用的软件 --运行库-- 用精简版系统或者绿色版软件时,使用软件经常遇见的情况是“由于应用程序配置不正确,应用程序未能启动”,提示缺少dll文件等.大部 ...
C# 条形码识别
目录: 一.识别库二.从一张图片中提取多个条形码三.注意事项从博客园学了很多,本着分享的目的,希望后来者遇到类似问题时,不必重复造轮子,早点下班回家^-^. 一.识别库目前主流的识别库主要有Z ...
7月15日学习之BOM
setTimeout() //延时器,只执行一次代码 clearTimeout() //清除演示器 setIntervla() //定时器,根据指定时间间隔执行一次代码 clearInterval() ...
HTTP - 持久连接
Web 客户端经常会打开到同一个站点的连接.比如,一个 Web 页面上的大部分内嵌图片通常都是来自同一个 Web 站点,而且相当一部分指向其他对象的超链接通常都指向同一个站点.因此,初始化了对某服务器 ...
IntellJ 13.x JPA Persistence Sample
跟上一篇差不多,一些基本的东西. 这次是JPA + Spring MVC 3.0 1.建立Project 2.Add JPA Support 3.我们以Hibernate为例,设置JPA的Provid ...
转 DevExpress-ASPxPageControl 动态添加 TabPage 内容
话不多说想看代码,在细说. 前台,很简单.主要看后台 </dx:ASPxPageControl> 后台,注意注释说明. private void GetUserAttendCellsNew ...
Java垃圾回收介绍（译）
在Java中,对象内存空间的分配与回收是由JVM中的垃圾回收进程自动完成的.与C语言不同的是,在Java中开发者不需要专门为垃圾回收写代码.这是使Java流行的众多特征之一,也帮助了程序员写出了更好的 ...
Cocos2d-x开发实例介绍帧动画使用
下面我们通过一个实例介绍一下帧动画的使用,这个实例如下图所示,点击Go按钮开始播放动画,这时候播放按钮标题变为Stop,点击Stop按钮可以停止播放动画. 下面我们再看看具体的程序代码,首先看一下看H ...
重建Mac系统的文件打开方式
/System/Library/Frameworks/CoreServices.framework/Versions/A/Frameworks/LaunchServices.framework/Ver ...

HttpClient抓取网页内容简单介绍

HttpClient抓取网页内容简单介绍的更多相关文章

随机推荐

热门专题