Xsoup 0.2.0

Xsoup 的详细介绍：请点这里

Xsoup 的下载地址：请点这里 https://github.com/code4craft/xsoup

http://www.oschina.net/question/tag/xsoup?show=hot

使用过程存在一些问题。主要问题是XPath出错定位不准确，并且其不太合理的代码结构，也难以进行定制。实现了Xsoup。Xsoup的性能比HtmlCleaner要快一倍以上。

Xsoup发展到现在，已经支持爬虫常用的语法，以下是一些已支持的语法对照表：

Name	Expression	Support
nodename	nodename	yes
immediate parent	/	yes
parent	//	yes
attribute	[@key=value]	yes
nth child	tag[n]	yes
attribute	/@key	yes
wildcard in tagname	/	yes
wildcard in attribute	/[@]	yes
function	function()	part
or	a \| b	yes since 0.2.0
parent in path	. or ..	no
predicates	price>35	no
predicates logic	@class=a or @class=b	yes since 0.2.0

定义几个很方便的XPath函数。但是请注意，这些函数式标准XPath没有的。

Expression	Description	XPath1.0
text(n)	第n个直接文本子节点，为0表示所有	text() only
allText()	所有的直接和间接文本子节点	not support
tidyText()	所有的直接和间接文本子节点，并将一些标签替换为换行，使纯文本显示更整洁	not support
html()	内部html，不包括标签的html本身	not support
outerHtml()	内部html，包括标签的html本身	not support
regex(@attr,expr,group)	这里@attr和group均可选，默认是group0	not support

xsoup０.２.０的一些XPath语法的支持。

１.　contains：
//div[contains(@id,'test')]

２.　筛选条件的逻辑运算支持(and/or) #4：

//div[@id='test' or @class='test']
//div[@id='test' and @class='test']
//div[@id='test' and @class='test' or @id='test1']
//div[@id='test' and (@class='test' or @id='test1')]

３.　整个XPath的或支持 #6：

//div[@id='test']/text() | //div[@class='test']/div/text()

４.　此次升级与Xsoup 0.1.0 API兼容，WebMagic 0.3.0以上的用户可以直接在项目添加依赖即可使用新语法。

<dependency>
<groupId>us.codecraft</groupId>
<artifactId>xsoup</artifactId>
<version>0.2.0</version>
</dependency>

５.　用Jsoup 解析不到 <tr> 下面的<td> http://www.oschina.net/question/1271820_131887

得到<td></td>后在外围加上<table></table>.

６.　总结:　

css使用nth-child(n)选第几个,使用nth-last-child(n)选择倒数第n个,xpath第几个用attr[n]被黄亿华改没了
xsoup集成了css/jsoup, xpath的函数:　text(n),allText(),tidyText()有换行,html()不含标签本身,outerHtml()含标签本身,regex(@attr,expr,group)前两个可选,,,,
xsoup集成了css/jsoup, xpath的语法:　tag[n],　function(),　a|b,　@class=a or @class=b
xsoup不支持的:　.or..不支持, price>35也不支持,　　
xpath用text()选文本,css用innerHtml,text,allText选文本,如:css(String Selector, "text").toString;

7. xpath模糊匹配:

所有的属性选择器都被写成和XPath极其相似（因为所有的属性都以@符号开始）。
    E[@foo] 拥有foo属性的E元素
    E[@foo=bar] foo属性的值为bar的E元素
    E[@foo^=bar] foo属性的值以字符串"bar"开始的E元素
    E[@foo$=bar] foo属性的值以字符串"bar"结尾的E元素
    E[@foo*=bar] foo属性的值包含有字符串"bar"结尾的E元素

8. 无属性的<tr>和<tr class='time'>的区分:

tr[@class!='time']

9.xpath其它

html.xpath("/a[@href]/@href") 和 html.xpath("/a/@href'"),  前者只取含href属性的标签, 后者不限定是否含href标签.

10. xpath其它2

html.xpath("//div[@class='tBorderTop_box']").all();会匹配到class='tBorderTop_box'和class='tBorderTop_box bt'两种结果,html.xpath("//div[@class$='tBorderTop_box']").all(
 
xpath带空格的属性值必须要打上小括号，否则出错；相反，css带空格的不能打小括号，否则出错。

11.

同一个网站每一个request的header不同，在每一个request中添加header，修改Request类，覆盖掉全局site的header。

12.延时使用同一参数,过大速度会变慢很多。
.setConnectionRequestTimeout(site.getTimeOut())
.setSocketTimeout(site.getTimeOut())
.setConnectTimeout(site.getTimeOut())

xsoup,Jsoup的更多相关文章

Xsoup 是一款基于 Jsoup 开发的
Xsoup 是一款基于Jsoup 开发的,使用XPath抽取Html元素的工具.它被用于作者的爬虫框架 WebMagic 中,进行XPath 解析和抽取. 此次更新主要增加了一些XPath语法的支持. ...
Jsoup问题---获取http协议请求失败 org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml.
Jsoup问题---获取http协议请求失败 1.问题:用Jsoup在获取一些网站的数据时,起初获取很顺利,但是在访问某浪的数据是Jsoup报错,应该是请求头里面的请求类型(ContextType)不 ...
Jsoup系列学习(2)-解析html文件
解析html文件 1.当我们通过发送http请求时,有时候返回结果是一个html格式字符串,你需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据.你可以使用下面解决方法: 使用 Jsoup ...
Jsoup系列学习(1)-发送get或post请求
简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据. 官 ...
使用 jsoup 对 HTML 文档进行解析和操作
jsoup 简介 Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HT ...
jsoup获取图片示例
import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.Inp ...
jsoup获取文档类示例
import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsou ...
Jsoup解析html终于成功了！！！
package com.eric.pickupjoke.activity; import java.io.IOException; import java.io.InputStream; import ...
Jsoup做接口测试
最早用Jsoup是有一个小的爬虫应用要写,发现Jsoup较HttpClient轻便多了,API也方便易懂,上手很快,对于response的Document解析的选择器用的是cssSelector(Jq ...

随机推荐

OC语法2——OC的类，方法，成员变量的创建
类的创建: 与Java不同的是,OC创建一个类需要两个文件(.h和.m文件) 1> xxx.h:声明文件.用于声明成员变量和方法.关键字@interface和@end成对使用. 声明文件只是声明 ...
Android 内存管理之优化建议
OOM(OutOfMemory)转:http://hukai.me/android-performance-oom/ 前面我们提到过使用getMemoryClass()的方法可以得到Dalvik He ...
Android Material Design调色板
转: http://www.stormzhang.com/design/2014/12/26/material-design-palette/ Material Design出来一段时间了,身为And ...
Android viewpager 嵌套 viewpager滑动点击事件冲突解决方案
为了解决这个问题.可以自定义viewpager,然后在里面监听首饰,自定义点击事件 package com.hpuvoice.view; import android.content.Context; ...
winform跨线程
在winform中经常用到多线程,那么用多线程对控件进行赋值和修改的时候呢会出现类似“该控件不是当前线程创建”的错误信息,在winform中两种办法: 1.在加载事件中写这句话,其作用呢就是线程的异步 ...
ODI利用goldengate实现增量数据捕获
ODI利用goldengate实现增量数据捕获上个月,Oracle发布了ODI的最新版本10.1.3.6_02,其中增加了针对采用goldengate获取源数据库增量变化的知识模块,这样当系统需要实 ...
一款C++静态分析工具 —— CppDepend
Wrote by mutouyun. (http://darkc.at/cppdepend/) 去年6月份的时候,CppDepend的一位技术社区经理(technical community mana ...
Android消息机制不完全解析（下）
接着上一篇文章Android消息机制不完全解析(上),接着看C++部分的实现. 首先,看看在/frameworks/base/core/jni/android_os_MessageQueue.cpp文 ...
JY的题目（水）
JY的题目[问题背景]一天,JY觉得DZY智商太低下,决定和他离婚,除非DZY做出来她出的题目.DZY当然非常想和JY在一起,所以他只好又去请计算机大神WJC帮忙,WJC已经帮过他N多次忙了,不想再帮 ...
CouchDB简单应用
CouchDB是众多称作NoSQL解决方案中的一员.与众不同的是,CouchDB是一个面向文档的数据库,在它里面所有文档域(Field)都是以键值对的形式存储的.域(Field)可以是一个简单的键值对 ...

xsoup,Jsoup

Xsoup 0.2.0

xsoup,Jsoup的更多相关文章

随机推荐

热门专题