[java] jsoup使用简介-汇率换算器实现-插曲2

 

[java] jsoup使用简介-汇率换算器实现-插曲2

3 解释遍历一个html文档和html字符串

传送门 http://www.open-open.com/jsoup/parsing-a-document.htm http://www.open-open.com/jsoup/parse-document-from-string.htm

原文中给出的例子如下:

String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

单单这个示例, 就引出了以下问题:

  1. 能够直接运行吗?
  2. 直接输出Document的结果?

3.1 运行环境设置及运行

下载jsoup.jar包, 将其放置到yourpath, 编写代码的时候具体import的内容, 应该根据jsoup的tree 进行import, 如上面的例子中使用了 JsoupDocument, 那么在文件的开头就应该有这样两句话:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

剩下的完整的内容如下:

// 再简单地将示例放入main函数中
public class JsoupDemo{
public static void main(String[] args)
throws Exception {
// Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
String html = "<html><head><title>First parse</title><head>"
+ "<body><p>Parsed Html into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
System.out.println(doc);
}
}

3.2 直接输出Document

编译运行如下(linux):

javac -classpath yourpath/jsoup.jar JsoupDemo.java
java -cp yourpath/jsoup.jar:./ JsoupDemo

最后可以发现通过parse处理后输出地结果为格式化后的html代码:

<html>
<head>
<title>First parse</title>
</head>
<body>
<p>Parsed Html into a doc.</p>
</body>
</html>

3.3 parse(String html, String baseUri)中baseUri具体指什么

如在html中出现了相对路径, 如 href="page/a.html", 那么就会被解析为 href="$baseUri/page/a.html" 如将示例进行修改为:

String html = "<html><head><title><a href=\"/page/a.html\">标题</a></title></head></html>"

然后调用:

Document doc = Jsoup.parse(html, "http://example.com/");

最后输出的doc依然和String html相同. 那么这个额外的baseUri是怎么起作用的呢. google了一下, 参见: stackoverflow中的解释 , 可见需要下述的方式才能够起作用:

for (Element link : doc.select("a")) {
System.out.println(link.absUrl("href"));
}

4 解释一个body片断

传送门 http://www.open-open.com/jsoup/parse-body-fragment.htm

Jsoup.parseBodyFragment 方法可以将字符串中的<html><head>标签忽略, 剩下的内容都为body部份. 可以将示例中的String html改为下面的方式, 并比较两者之间不同的输出结果:

String html = "<html><head><title>what</title></head><body><div><p>Lorem ipsum.</p></body></html>";

5 从一个URL, 文件加载一个Document对象

传送门 http://www.open-open.com/jsoup/load-document-from-url.htm http://www.open-open.com/jsoup/load-document-from-file.htm

通过以下尝试, 得知Jsoup在connect过程中, 已经对html文档的相应的编码方式进行了处理:

Document doc = Jsoup.connect("http://www.baidu.com/").get();
System.out.println(doc)

6 其他更多文档中的内容请参见

7 其中常用的数据结构简介

 

7.1 Element

html的element包括形如: <tag attribute="" id="" class="">text</tag> 的部份.

常用的方法有:

7.2 Elements

表示结构相同的element的集合

常用的方法:

Date: 2014-05-14 Wed

Author: Zhong Xiewei

Org version 7.8.11 with Emacs version 24

Validate XHTML 1.0

[java] jsoup使用简介-汇率换算器实现-插曲2的更多相关文章

  1. [java] 注释以及javadoc使用简介-汇率换算器的实现-插曲3

    [java] 注释以及javadoc使用简介-汇率换算器的实现-插曲3 // */ // ]]>   [java] 注释以及javadoc使用简介-汇率换算器的实现-插曲3 Table of C ...

  2. [java] 汇率换算器实现-插曲1-正则表达式(1)

    [java] 汇率换算器实现-插曲1-正则表达式(1) // */ // ]]> // */ // ]]>   [java] 汇率换算器实现-插曲1-正则表达式(1) Table of C ...

  3. [java] 更好的书写equals方法-汇率换算器的实现(4)

    [java] 更好的书写equals方法-汇率换算器的实现(4) // */ // ]]>   [java] 更好的书写equals方法-汇率换算器的实现(4) Table of Content ...

  4. [java] 汇率换算器实现(3)

    [java] 汇率换算器实现(3) // */ // ]]>   [java] 汇率换算器实现(3) Table of Contents 1 系列文章地址 2 前言 3 提取简单表单信息 3.1 ...

  5. [java] 汇率换算器实现(2)

    [java] 汇率换算器实现(2) // */ // ]]> // */ // ]]>   [java] 汇率换算器实现(2) Table of Contents 1 系列文章地址 2 前 ...

  6. [java] 汇率换算器实现(1)

    [java] 汇率换算器实现(1) // */ // ]]>   [java] 汇率换算器实现(1) Table of Contents 1 问题描述 2 类设计 3 初步实现 3.1 建立项目 ...

  7. 【菜鸟学Python】案例一:汇率换算

    汇率换算V1.0 案例描述: 设计一个汇率换算器程序,其功能是将外币换算成人民币,或者相反 案例分析: 分析问题:分析问题的计算部分: 确定问题:将问题划分为输入.处理及输出部分: 设计算法:计算部分 ...

  8. 汇率换算自然语言理解功能JAVA DEMO

    >>>>>>>>>>>>>>>>>>>>>>>> 欢迎转 ...

  9. 万航单位换算器 V1.0 绿色版

    软件名称: 万航单位换算器软件语言: 简体中文授权方式: 免费软件运行环境: Win 32位/64位软件大小: 347KB图片预览: 软件简介:万航单位换算器是一个可以随意转换单位的绿色软件,这个软件 ...

随机推荐

  1. 软件开发常用快捷键 & 命令总结

     HTML + JavaScript + CSS 1. 在web开发经常会遇到如:   这样的字符.它其实是Html将一些特殊字符(Html语法字符)的一种表达方式. 下面列举几个常用字符:    空 ...

  2. Replication的犄角旮旯(六)-- 一个DDL引发的血案(上)(如何近似估算DDL操作进度)

    <Replication的犄角旮旯>系列导读 Replication的犄角旮旯(一)--变更订阅端表名的应用场景 Replication的犄角旮旯(二)--寻找订阅端丢失的记录 Repli ...

  3. Apache HTTP Server 2.2.26 发布

    Apache遗留产品线2.2.26发布.2013-11-13 之前的版本是2013-07-02的2.2.25 同样先在开发目录下放出下载,然后放到正式目录下.修正了大量的Bug.目前的稳定版2.4系列 ...

  4. Angularjs路由需要了解的那点事

    Angularjs路由需要了解的那点事 我们知道angularjs是特别适合单页面应用,为了通过单页面完成复杂的业务功能,势必需要能够从一个视图跳转到另外一个视图,也就是需要在单个页面里边加载不同的模 ...

  5. Elasticsearch笔记

    资料 官网: http://www.elasticsearch.org 中文资料:http://www.learnes.net/ .Net驱动: http://nest.azurewebsites.n ...

  6. 让ZenCoding提升编码速度

    日前写了一篇关于VS神级插件Web Essentials的系列博客,其中在HTML&CSS操作技巧一节简单提到了ZenCoding,今天来详细说一下这个东西. 摘要 Zen Coding是一种 ...

  7. 【腾讯Bugly干货分享】微信终端跨平台组件 mars 系列(一) - 高性能日志模块xlog

    本文来自于腾讯bugly开发者社区,非经作者同意,请勿转载,原文地址:http://dev.qq.com/topic/57ff5932cde42f1f03de29b1 本文来源: 微信客户端开发团队 ...

  8. Backbone源码解析(二):Model(模型)模块

    Model(模型)模块在bk框架中的作用主要是存储处理数据,它对外和对内都有很多操作数据的接口和方法.它与视图(Views)模块精密联系着,通过set函数改变数据结构从而改变视图界面的变化.下面我们来 ...

  9. Javascrpt无刷新文件上传

    最近工作中遇到上传文件问题,主要需求是一步点击上传,兼容ie8+,当时用的dojox/form/uploader控件,这两天扒了一下源码,明白了原理拿出来分享一下. 总体思路如下: 1.对于支持XML ...

  10. 【读书笔记】Ninject 在MVC5中的使用

    从MVC3中就开始接触Ninject这个IOC工具.也一直是MVC Framework系列书籍中推荐的IOC工具,当然还有优秀的Autofac等.性能和使用上面个有千秋.下面先看一下Ninject的使 ...