Jsoup解析网页html
Jsoup解析网页html
解析网页demo:
利用Jsoup获取截图中的数据信息:
html代码片段:
<!-- 当前基金档案\计算\定投\开户 start -->
<div class="wrapper">
<div class="wrapper_min">
<div class="merchandiseDetail">
<div class="fundDetail-header">
<div class="fundDetail-tit">
<div style="float: left">兴全社会责任混合
<span>(</span>
<span class="ui-num">340007</span></div>)</div>
<div class="fundDetail-tools">
<a class="jijinba" href="http://guba.eastmoney.com/list,of340007.html">基金吧</a>
<!-- 未自选 start -->
<a class="addSel" id="addSel" href="javascript:;" target="_self">加自选</a>
<!-- 未自选 end -->
<a class="addCom" id="addCom" href="javascript:;" target="_self" onclick="common.addCompare()">加对比</a>
<a class="addDownApp" href="http://fundact.eastmoney.com/app/">手机版天天基金下载</a></div>
</div>
<div class="fundDetail-main">
<!-- 档案 start -->
<div class="fundInfoItem">
<!--开放式基金收益率模块-->
<div class="dataOfFund">
<dl class="dataItem01">
<dt>
<p>
<span>
<span class="sp01">净值估算</span></span>
<span id="gz_gztime">(17-12-20 15:00)</span>
<span class="infoTips">
<span class="tipsBubble" style="display: none;">净值估算每个交易日9:30-15:00盘中实时更新(QDII基金为海外交易时段),是按照基金持仓、指数走势和基金过往业绩估算,估算数据并不代表真实净值,仅供参考,请以基金管理人披露净值为准。</span></span>
</p>
</dt>
<dd class="dataNums">
<dl class="floatleft">
<span class="ui-font-large ui-color-green ui-num" id="gz_gsz">3.7576</span></dl>
<dl id="gz_icon" class="gzdown"></dl>
<dl class="floatleft fundZdf">
<span class="ui-font-middle ui-color-green ui-num" id="gz_gszze">0.0594</span>
<span class="ui-font-middle ui-color-green ui-num" id="gz_gszzl">-1.56%</span></dl>
</dd>
<dd>
<span>近1月:</span>
<span class="ui-font-middle ui-color-green ui-num">-4.62%</span></dd>
<dd>
<span>近1年:</span>
<span class="ui-font-middle ui-color-red ui-num">44.20%</span></dd>
</dl>
<span class="dataOfFund-line"></span>
<dl class="dataItem02">
<dt>
<p>
<span class="ui-color-blue">
<span class="sp01">
<a href="http://fund.eastmoney.com/f10/jjjz_340007.html">单位净值</a></span>(</span>2017-12-19)</p>
</dt>
<dd class="dataNums">
<span class="ui-font-large ui-color-red ui-num">3.8170</span>
<span class="ui-font-middle ui-color-red ui-num">1.41%</span></dd>
<dd>
<span>近3月:</span>
<span class="ui-font-middle ui-color-red ui-num">13.47%</span></dd>
<dd>
<span>近3年:</span>
<span class="ui-font-middle ui-color-red ui-num">113.48%</span></dd>
</dl>
<span class="dataOfFund-line"></span>
<dl class="dataItem03">
<dt>
<p>
<span class="ui-color-blue">
<span class="sp01">
<a href="http://fund.eastmoney.com/f10/jjjz_340007.html">累计净值</a></span>
</span>
</p>
</dt>
<dd class="dataNums">
<span class="ui-font-large ui-color-red ui-num">4.0070</span></dd>
<dd>
<span>近6月:</span>
<span class="ui-font-middle ui-color-red ui-num">25.35%</span></dd>
<dd>
<span>成立来:</span>
<span class="ui-font-middle ui-color-red ui-num">332.92%</span></dd>
</dl>
</div>
<div class="infoOfFund">
<div class="infoOfFund-line"></div>
<table>
<tr>
<td>基金类型:
<a href="http://fund.eastmoney.com/HH_jzzzl.html#os_0;isall_0;ft_;pt_3">混合型</a> | 中高风险</td>
<td>
<a href="http://fund.eastmoney.com/f10/gmbd_340007.html">基金规模</a>:76.83亿元(2017-09-30)</td>
<td>基金经理:
<a href="http://fund.eastmoney.com/f10/jjjl_340007.html">傅鹏博</a></td>
</tr>
<tr>
<td>
<span class="letterSpace01">成 立 日</span>:2008-04-30</td>
<td>
<span class="letterSpace01">管 理 人</span>:
<a href="http://fund.eastmoney.com/company/80036742.html">兴全基金</a></td>
<td>
<a class="floatleft" href="http://fund.eastmoney.com/f10/jjpj_340007.html">基金评级</a>
<span class="floatleft">:</span>
<div class="jjpj4"></div>
</td>
</tr>
</table>
</div>
</div>
<!-- 档案 end -->
java实现代码:
/**
* Project Name:wlpc
* File Name:XyzqTask.java
* Package Name:com.xyzq.wlpc.task
* Date:2017年12月20日下午1:48:16
* Copyright (c) 2017 All Rights Reserved.
*
*/
import java.io.IOException;;import net.sf.json.JSONObject;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;/**
* ClassName:XyzqTask
* Function: TODO
* Reason: TODO
* Date: 2017年12月20日 下午1:48:16
* @author lizm
* @since JDK 1.6
*
*/
public class XyzqTask extends BaseTask { private void getHtml(){
String url = "";
url = Pub.getPropertiesValue("wlpc", "wlpc.web.url");
try {
Document doc = Jsoup.connect(url).get();
//class等于fundDetail-tit的div标签
Elements fundDetail_tit = doc.select("div.fundDetail-tit");
for (Element element : fundDetail_tit){
//特殊字符'(',使用 \\( 或 [(]
System.out.println("fundDetail_tit>>>>:"+element.text().split("\\(")[0]);
//获取div下的第一个span的class为ui-num的值
Document elementDoc = Jsoup.parse(element.toString());
Element elm = elementDoc.select("span.ui-num").first();
System.out.println("elm>>>>:"+elm.text());
}
//id等于gz_gztime的span标签
Elements gz_gztime = doc.select("span#gz_gztime");
for (Element element : gz_gztime){
System.out.println("gz_gztime>>>>:"+element.text().replace("(", "").replace(")", ""));
}
//id等于gz_gsz的span标签
Elements gz_gsz = doc.select("span#gz_gsz");
for (Element element : gz_gsz){
System.out.println("gz_gsz>>>>:"+element.text());
}
//id等于gz_gszze的span标签
Elements gz_gszze = doc.select("span#gz_gszze");
for (Element element : gz_gszze){
System.out.println("gz_gszze>>>>:"+element.text());
} //id等于gz_gszzl的span标签
Elements gz_gszzl = doc.select("span#gz_gszzl");
for (Element element : gz_gszzl){
System.out.println("gz_gszzl>>>>:"+element.text());
}
//class等于dataItem02的dl标签
Elements dataItem02 = doc.select("dl.dataItem02");
for (Element element : dataItem02){
Document elementDoc = Jsoup.parse(element.toString());
Element elm1 = elementDoc.getElementsByTag("p").first();
System.out.println("elm>>>>:"+elm1.text().replace("单位净值 (", "").replace(")", ""));
Element elm_dd = elementDoc.select("dd.dataNums").first();
Document doc_dd = Jsoup.parse(elm_dd.toString());
Element elm_dd_span1 = doc_dd.getElementsByTag("span").first();
System.out.println("elm_dd_span1>>>:"+elm_dd_span1.text());
Element elm_dd_span2 = doc_dd.getElementsByTag("span").last();
System.out.println("elm_dd_span2>>>:"+elm_dd_span2.text());
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
} public static void main(String[] args) {
XyzqTask client = new XyzqTask();
client.getHtml();
}
}
输出结果:
fundDetail_tit>>>>:兴全社会责任混合
elm>>>>:340007
gz_gztime>>>>:17-12-21 15:00
gz_gsz>>>>:3.8583
gz_gszze>>>>:+0.0933
gz_gszzl>>>>:+2.48%
elm>>>>:2017-12-20
elm_dd_span1>>>:3.7650
elm_dd_span2>>>:-1.36%
Jsoup解析网页html的更多相关文章
- [java] jsoup 解析网页获取省市区域信息
到国家统计局抓取数据, 到该class下解析数据 /** * jsoup解析网页 * @author xwolf * @date 2016-12-13 18:11 * @since V1.0.0 */ ...
- Jsoup解析网页源码时常用的Element(s)类
Jsoup解析网页源码时常用的Element(s)类 一.简介 该类是Node的直接子类,同样实现了可克隆接口.类声明:public class Element extends Node 它表示由一个 ...
- jsoup解析网页出现转义符问题
https://www.oschina.net/question/996055_136438 *************************************** 我要解析这个网页 htt ...
- 使用java开源工具httpClient及jsoup抓取解析网页数据
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下 公历时间:2016年04月11日 星期一 农历时间:猴年三月初五 天干地支:丙申年 壬辰月 癸亥日 宜:求子 祈福 开光 ...
- jsoup开发网页客户端3
这个系列好久没更新,最近好忙,老大说未来是Html5的,所以最近一直学习前端以及Html5的一些东西.Android5.0的诞生,让我们眼前一亮,独特的Material风格更是吸引了无数人. 话说不学 ...
- jsoup解析页面
package com.java.jsoup; /** * jsoup解析网页 * @author nidegui * @version 2019年4月29日 下午5:12:02 * */ impor ...
- httpclient+jsoup实现网页信息抓取
需求分析:抓取:http://tools.2345.com/rili.htm中的万年历(阳历.阴历等等). 1.首先为抓取的内容创建一个类.实现封装. package com.wan.domain; ...
- 使用Jsoup帮助解析具有html标签的数据和解析网页
下载Jsoup包后导入 /** * Created by YGW on 2016/4/17. * 显示公告的详细内容 */public class PressFragment extends Frag ...
- Jsoup代码示例、解析网页+提取文本
使用Jsoup解析HTML 那么我们就必须用到HttpClient先获取到html 同样我们引入HttpClient相关jar包 以及commonIO的jar包 我们把httpClient的基本代码写 ...
随机推荐
- hadoop的两类配置文件及3种启动/关闭方式
hadoop配置文件 默认配置文件:四个模块相对应的jar包中:$HADOOP_HOME/share/hadoop *core-default.xml *hdfs-defa ...
- C++中的类成员指针
写在前面:本博客为本人原创,严禁任何形式的转载!本博客只允许放在博客园(.cnblogs.com),如果您在其他网站看到这篇博文,请通过下面这个唯一的合法链接转到原文! 本博客全网唯一合法URL:ht ...
- echarts 数据统计报表
官网 http://echarts.baidu.com/index.html 我们下载好开发包后就可以开始了,第一步引入开发包,和需要的主题文件(可定义自己的主体文件),并定义好页面布局.2.0以 ...
- bzoj4129 Haruna’s Breakfast 莫队
这个思想不难理解了前面几个就能懂 但是代码比较复杂,大概会和之前几次碰到难题的时候一样,一步步思考下去,然后把难点分成好几个板块讲下qwq 首先读入这颗树,预处理下lca,然后就分块,这个时候就会碰到 ...
- Unity-反编译由IL生成的DLL文件
本文由博主SunboyL原创,转载请注明出处:http://www.cnblogs.com/xsln/p/DLL_DeCompilation.html 在Unity实际开发过程中,我们 ...
- sql server中的日期详解使用(convert)
转自:http://blog.csdn.net/hehe520347/article/details/48496853 有个字段值例如2012-07-02 00:00:00.000 转化成 2012- ...
- 在系统启动时,Windows Vista 中、 在 Windows 7 中,Windows Server 2008 中和在 Windows Server 2008 R2 中的 497 天后未关闭 TIME_WAIT 状态的所有 TCP/IP 端口
在系统启动时,Windows Vista 中. 在 Windows 7 中,Windows Server 2008 中和在 Windows Server 2008 R2 中的 497 天后未关闭 TI ...
- 十天精通CSS3(9)
Keyframes介绍 Keyframes被称为关键帧,其类似于Flash中的关键帧.在CSS3中其主要以“@keyframes”开头,后面紧跟着是动画名称加上一对花括号“{…}”,括号中就是一些不同 ...
- [LeetCode] 176. Second Highest Salary_Easy tag: SQL
Write a SQL query to get the second highest salary from the Employee table. +----+--------+ | Id | S ...
- c++虚函数实现机制(转)
前言 C++中的虚函数的作用主要是实现了多态的机制.关于多态,简而言之就是用父类型别的指针指向其子类的实例,然后通过父类的指针调用实际子类的成员函数.这种技术可以让父类的指针有“多种形态”,这是一种泛 ...