HttpClient+Jsoup 抓取网页信息（网易贵金属为例）

废话不多说直接讲讲今天要做的事。

利用HttpClient和Jsoup技术抓取网页信息。HttpClient是支持HTTP协议的客户端编程工具包，并且它支持HTTP协议。

jsoup 是一款基于 Java 平台的网页html解析器，可直接解析某个 URL 地址、HTML 文本内容，提供了一套非常方便的 API接口，通过类似于 jQuery 的操作方法来操作数据。

jsoup相关文档:http://jsoup.org/

此处以网易贵金属资讯为例进行案例教学 O(∩_∩)O

然后我们首先要分析网页源代码的结构

之后我们就可以开始进行编程了，首先我们要知道利用httpClient的流程：

　　1. 创建HttpClient的对象；

　　2. 创建请求方法的实例，并指定访问的URL；

　　3. 调用HttpClient对象发送请求，该方法返回一个HttpResponse，要判断responce.getStatusLine().getStatusCode()的返回码是否为200；

　　4. 调用HttpResponse相关方法获取相应内容；

　　5. 释放连接。

当然啦创建项目的时候要导入相关的jar包，本文会提供源码+jar包http://pan.baidu.com/s/1sl55d85

StockUtils.java

 package cn.clay.httpclient.utils;

 import java.io.IOException;

 import org.apache.http.HttpEntity;

 import org.apache.http.HttpResponse;

 import org.apache.http.HttpStatus;

 import org.apache.http.client.HttpClient;

 import org.apache.http.client.methods.HttpGet;

 import org.apache.http.impl.client.CloseableHttpClient;

 import org.apache.http.impl.client.HttpClients;

 import org.apache.http.util.EntityUtils;

 /**

  * 传递网页链接

  * 返回网页源码

  * @author ClayZhang

  *

  */

 public class StockUtils {

     //第一次获取网页源码

     public static String getHtmlByUrl(String url) throws IOException{

         String html = null;

         CloseableHttpClient httpClient = HttpClients.createDefault();//创建httpClient对象

         HttpGet httpget = new HttpGet(url);

         try {

             HttpResponse responce = httpClient.execute(httpget);

             int resStatu = responce.getStatusLine().getStatusCode();

             if (resStatu == HttpStatus.SC_OK) {

                 HttpEntity entity = responce.getEntity();

                 if (entity != null) {

                     html = EntityUtils.toString(entity);//获得html源代码

                 }

             }

         } catch (Exception e) {

             System.out.println("访问【"+url+"】出现异常!");

             e.printStackTrace();

         } finally {

             //释放连接

             httpClient.close();

         }

         return html;

     }

 }

然后利用jsoup的方法进行测试类的编写StockTest.java

 package cn.clay.httpclient.utils.test;

 import java.io.IOException;

 import org.apache.http.ParseException;

 import org.jsoup.Jsoup;

 import org.jsoup.nodes.Document;

 import org.jsoup.nodes.Element;

 import org.jsoup.select.Elements;

 import cn.clay.httpclient.utils.StockUtils;

 /**

  *

  * @author ClayZhang

  *

  */

 public class StockTest {

     public static void main(String[] args) throws ParseException, IOException {

         String content = StockUtils.getHtmlByUrl(

                 "http://fa.163.com/zx/gjs/1/");

         parserHtml(content);

     }

     public static void parserHtml(String content) throws ParseException, IOException {

         Document doc = Jsoup.parse(content);

         Elements links = doc.getElementsByClass("g-news").select("dl");

         for (Element e : links) {

             System.out.println("新闻标题:" + e.select("a").text().toString());

             //获取页面链接

             Elements linkHref = e.select("a");

             //截取时间字符串

             Elements timeStr = e.select("span[class=f-fr]");

             //简略信息

             Elements comment = e.select("span[class=f-fl f-ofe u-digest]");

             System.out.println("新闻链接:" + linkHref.attr("href"));

             System.out.println("发布时间:" + timeStr.text());

             System.out.println("简要信息:" + comment.text().toString());

             System.out.println("=============================================================");

         }

     }

 }

运行之后的效果如下

本文版权归作者及博客园所有，转载请注明作者及原文出处

http://www.cnblogs.com/clayzhang

HttpClient+Jsoup 抓取网页信息（网易贵金属为例）的更多相关文章

jsoup抓取网页+具体解说
jsoup抓取网页+具体解说 Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目.我以前在 IBM DW 上发表过两篇关于 htmlparser 的文章.各自 ...
Jsoup抓取网页数据完成一个简易的Android新闻APP
前言:作为一个篮球迷,每天必刷NBA新闻.用了那么多新闻APP,就想自己能不能也做个简易的新闻APP.于是便使用Jsoup抓取了虎扑NBA新闻的数据,完成了一个简易的新闻APP.虽然没什么技术含量,但 ...
.net抓取网页信息 - Jumony框架使用1
往往在实际开发中,经常会用到一些如抓取网站信息之类的的操作,往往大家采用的是用一些正则的方式获取,但是有时候正则是很死板的,我们常常试想能不能使用jquery的选择器,获取符合自己要求的元素,然后进行 ...
使用jsoup抓取新闻信息
1,jsoup简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和 ...
Powershell抓取网页信息
一般经常使用invoke-restmethod和invoke-webrequest这两个命令来获取网页信息,如果对象格式是json或者xml会更容易 1.invoke-restmethod 我们可以用 ...
一、使用 BeautifulSoup抓取网页信息信息
一.解析网页信息 from bs4 import BeautifulSoup with open('C:/Users/michael/Desktop/Plan-for-combating-master ...
httpclient在抓取网页时出现速度慢的情况分析
问题: 最近在使用httpclient3.0 来做项目,在一台机器部署系统后,发现此机器比其它机器在抓取页面的速度上慢了大概4s,左右. 项目是部署在局域内网,所以代码中都是直接写的IP地址 .在使用 ...
C# 使用HtmlAgilityPack抓取网页信息
前几天看到一篇博文:C# 爬虫抓取小说博主使用的是正则表达式获取小说的名字.目录以及内容. 下面使用HtmlAgilityPack来改写原博主的代码在使用HtmlAgilityPack之前,可以 ...
shell脚本抓取网页信息
利用shell脚本分析网站数据 # define url time=$(date +%F) mtime=$(date +%T) file=/abc/shell/abc/abc_$time.log ht ...

随机推荐

Mahout源码分析：并行化FP-Growth算法
FP-Growth是一种常被用来进行关联分析,挖掘频繁项的算法.与Aprior算法相比,FP-Growth算法采用前缀树的形式来表征数据,减少了扫描事务数据库的次数,通过递归地生成条件FP-tree来 ...
安卓手机免root实现对其他软件最高管理（sandbox思想）
root之后的安卓系统并不稳定,root后有时候会出现一些系统的错误,如果实在忍受不了的话,这时候只能恢复出厂设置了.因此不root是最优的选择,但是不root情况下,并没有哪个软件可以实现对其它 ...
innobackup全备与恢复
前提:xtrabackup.mysql安装完成,建立测试库reading.测试表test,并插入三条数据. 1.全备: innobackupex --user=root --password ...
Java学习笔记——设计模式之五.工厂方法
水边一只青蛙在笑 --石头和水工厂方法模式(Factory Method),定义了一个用于创建对象的接口,让实现类决定实例化哪一个类.工厂方法使一个类的实例化延迟到其子类. 这里在简单和工厂的基础上 ...
Collection学习目录
1.Collection<E>.Iterable<T>和Iterator<E>接口 2.ArrayList源码分析 3.LinkedList源码解析 4.Vecto ...
从编译器角度理解C++中的引用和指针
欲分析指针和引用,则要分析变量名和地址之间的关系(不管你理解还是不理解,无论你是从老师那里听到的,还是网上看到的,应该都知道两句话:1. 指针就是地址,2.引用就是给变量起个别名) 所以我们就要来分析 ...
Python标准库--Scope
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 模块简介你一定在很多计算机科学课程上听说过作用域.它很重要, ...
来自一位工作一年多的猿的分享 ------- ioc
这是我第一次写东西记录吧:还记得小学老师教的写文章要有"开篇起伏高潮...高潮结束",反正我不会用上: 最近在研究IOC这玩意:百度了很多关于这方面的帖子:关于IOC和DI的 ...
对JVM运行时常量池的一些理解
1.JVM运行时常量池在内存的方法区中(在jdk8中,移除了方法区) 2.JVM运行时常量池中的内容主要是从各个类型的class文件的常量池中获取,对于字符串常量,可以调用intern方法人为添加,而 ...
10、借助POI实现Java生成并打印excel报表(1)
10.1.了解 Apache POI 实际开发中,用到最多的是把数据库中数据导出生成报表,尤其是在生产管理或者财务系统中用的非常普遍.生成报表格式一般是EXCEL或者PDF .利用Apache PO ...

HttpClient+Jsoup 抓取网页信息（网易贵金属为例）

HttpClient+Jsoup 抓取网页信息（网易贵金属为例）的更多相关文章

随机推荐

热门专题