Java - XPath解析爬取内容

code {
margin: 0;
padding: 0;
white-space: pre;
border: none;
background: transparent;
}

pre {
background-color: #f8f8f8;
border: 1px solid #ccc;
font-size: 13px;
line-height: 19px;
overflow: auto;
padding: 6px 10px;
border-radius: 3px;
}

pre code, pre tt {
background-color: transparent;
border: none;
}

kbd {
-moz-border-bottom-colors: none;
-moz-border-left-colors: none;
-moz-border-right-colors: none;
-moz-border-top-colors: none;
background-color: #DDDDDD;
background-image: linear-gradient(#F1F1F1, #DDDDDD);
background-repeat: repeat-x;
border-color: #DDDDDD #CCCCCC #CCCCCC #DDDDDD;
border-image: none;
border-radius: 2px 2px 2px 2px;
border-style: solid;
border-width: 1px;
font-family: "Helvetica Neue",Helvetica,Arial,sans-serif;
line-height: 10px;
padding: 1px 4px;
}
-->

就爬取和解析内容而言，我们有太多选择。
比如，很多人都觉得Jsoup就可以解决所有问题。
无论是Http请求、DOM操作、CSS query selector筛选都非常方便。
　
关键是这个selector，仅通过一个表达式筛选出的只能是一个node。
如过我想获得一个text或者一个node的属性值，我需要从返回的element对象中再获取一次。
而我恰好接到了一个有意思的需求，仅通过一个表达式表示想筛选的内容，获取一个新闻网页的每一条新闻的标题、链接等信息。

　
XPath再合适不过了，比如下面这个例子：

static void crawlByXPath(String url,String xpathExp) throws IOException, ParserConfigurationException, SAXException, XPathExpressionException {

    String html = Jsoup.connect(url).post().html();

    DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

    DocumentBuilder builder = factory.newDocumentBuilder();

    Document document = builder.parse(html);

    XPathFactory xPathFactory = XPathFactory.newInstance();

    XPath xPath = xPathFactory.newXPath();

    XPathExpression expression = xPath.compile(xpathExp);

    expression.evaluate(html);

}

　　
遗憾的是，几乎没有网站可以通过documentBuilder.parse这段代码。
而XPath却对DOM非常严格。
对HTML进行一次clean，于是我加入了这个东西:

    <dependency>

        <groupId>net.sourceforge.htmlcleaner</groupId>

        <artifactId>htmlcleaner</artifactId>

        <version>2.9</version>

    </dependency>

　
HtmlCleaner可以帮我解决这个问题，而且他本身就支持XPath。
仅仅一行HtmlCleaner.clean就解决了:

public static void main(String[] args) throws IOException, XPatherException {

    String url = "http://zhidao.baidu.com/daily";

    String contents = Jsoup.connect(url).post().html();

    HtmlCleaner hc = new HtmlCleaner();

    TagNode tn = hc.clean(contents);

    String xpath = "//h2/a/@href";

    Object[] objects = tn.evaluateXPath(xpath);

    System.out.println(objects.length);

}

　
但是HtmlCleaner又引发了新的问题，当我把表达式写成"//h2/a[contains(@href,'daily')]/@href"时，他提示我不支持contains函数。
而javax.xml.xpath则支持函数使用，这下问题来了。
如何结合二者? HtmlCleaner提供了DomSerializer，可以将TagNode对象转为org.w3c.dom.Document对象，比如:

Document dom = new DomSerializer(new CleanerProperties()).createDOM(tn);

　
如此一来就可以发挥各自长处了。

public static void main(String[] args) throws IOException, XPatherException, ParserConfigurationException, XPathExpressionException {

    String url = "http://zhidao.baidu.com/daily";

    String exp = "//h2/a[contains(@href,'daily')]/@href";

    String html = null;

    try {

        Connection connect = Jsoup.connect(url);

        html = connect.get().body().html();

    } catch (IOException e) {

        e.printStackTrace();

    }

    HtmlCleaner hc = new HtmlCleaner();

    TagNode tn = hc.clean(html);

    Document dom = new DomSerializer(new CleanerProperties()).createDOM(tn);

    XPath xPath = XPathFactory.newInstance().newXPath();

    Object result;

    result = xPath.evaluate(exp, dom, XPathConstants.NODESET);

    if (result instanceof NodeList) {

        NodeList nodeList = (NodeList) result;

        System.out.println(nodeList.getLength());

        for (int i = 0; i < nodeList.getLength(); i++) {

            Node node = nodeList.item(i);

            System.out.println(node.getNodeValue() == null ? node.getTextContent() : node.getNodeValue());

        }

    }

}

Java - XPath解析爬取内容的更多相关文章

requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...
一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...
python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
用java编写爬虫爬取电影
一.爬取前提1)本地安装了mysql数据库2)安装了idea或者eclipse等开发工具二.爬取内容电影名称.电影简介.电影图片.电影下载链接三.爬取逻辑1)进入电影网列表页, 针对列表的htm ...
简单的爬虫爬的完整的<img>标签，修改正则即可修改爬取内容
简单的爬虫爬的完整的<img>标签,生成<img>标签结果文件与爬虫经历的网页. <?php/** 从给定的url获取html内容** */function _getUr ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Java爬虫一键爬取结果并保存为Excel
Java爬虫一键爬取结果并保存为Excel 将爬取结果保存为一个Excel表格官方没有给出导出Excel 的教程这里我就发一个导出为Excel的教程导包因为个人爱好我喜欢用Gradle所以这 ...
Java爬虫实践--爬取CSDN网站图片为例
实现的效果,自动在工程下创建Pictures文件夹,根据网站URL爬取图片,层层获取.在Pictures下以网站的层级URL命名文件夹,用来装该层URL下的图片.同时将文件名,路径,URL插入数据库, ...
python3通过Beautif和XPath分别爬取“小猪短租-北京”租房信息，并对比时间效率（附源代码）
爬虫思路分析: 1. 观察小猪短租(北京)的网页首页:http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term ...

随机推荐

adt-bundle-windows不显示ADK Manage和其它图标的解决方法？
我今天下载了包含ADT的eclipse,运行后发现在工具栏中居然没有ADK Manage和其它Android相关图标,这是为什么啊?上网搜索了一下,最终解决了!解决方法,把ADK的tool路径加入到p ...
mysql 启动提示：错误2系统找不到指定文件
详情见这个方法其实就是更改了启动目录导致的 https://blog.csdn.net/su749520/article/details/78963878
Java之static静态代码块
Java之static静态代码块构造代码块使用{}包裹的代码区域,这里的代码区域特指位于class{}下面的而不是存在于其他type method(){}这类函数下面的代码区域 public cl ...
微信小程序之tabbar切卡
最近在研究小程序的时候,遇到了一个问题,就是tabbar切卡,在android上有fragment,在RN上也有提供一个第三方的组件来用,微信小程序,好像没有专门的一个组件来实现这个功能,度娘了大半天 ...
【线程】结果缓存实现（future与concurrenthashmap）
Computable<A,V>接口中生命了一个函数Computable,其输入类型为A,输出类型为V,在ExpensiveFunction中实现的Computable,需要很长时间来计算结 ...
js 平均分割
let alllist=res.data; var result = []; for (var i = 0; i < alllist.length; i += 3) { result.push( ...
2016级算法第三次上机-F.ModricWang的导弹防御系统
936 ModricWang的导弹防御系统思路题意即为:给出一个长度为n的序列,求出其最长不降子序列. 考虑比较平凡的DP做法: 令\(nums[i]\) 表示这个序列,\(f[x]\) 表示以第 ...
Pycharm与github的秘密
GIT介绍 GIT文章请看老男孩教育-银角大王的博客: http://www.cnblogs.com/wupeiqi/articles/7295372.html Git 是一个开源的分布式版本控制软件 ...
golang (2) package
综述 golang package是基本的管理单元,package是golang最基本的分发单位和工程管理中依赖关系的体现. 每个golang源代码文件开头都拥有一个package声明,表示该gola ...
使用python requests库写接口自动化测试--记录学习过程中遇到的坑（1）
一直听说python requests库对于接口自动化测试特别合适,但由于自身代码基础薄弱,一直没有实践: 这次赶上公司项目需要,同事小伙伴们一起学习写接口自动化脚本,听起来特别给力,赶紧实践一把: ...

Java - XPath解析爬取内容

Java - XPath解析爬取内容的更多相关文章

随机推荐

热门专题