抓取HTML网页数据

（转）htmlparse filter使用

该类并不是一个通用的工具类，需要按自己的要求实现，这里只记录了Htmlparse.jar包的一些用法。仅此而已！
详细看这里：http://gundumw100.javaeye.com/blog/704311

import java.util.*;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters.AndFilter;

import org.htmlparser.filters.HasAttributeFilter;

import org.htmlparser.filters.NodeClassFilter;

import org.htmlparser.filters.TagNameFilter;

import org.htmlparser.tags.BodyTag;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;   

public class HtmlparseUtil {

    WebHttpClient util=new WebHttpClient();   

    public Map<String, String> linkGet(String url, String charset) {

        String content=util.getWebContentByGet(url,charset);

        Map<String, String> linkMap = new HashMap<String, String>();

        try {

            //开始解析

            Parser parser = Parser.createParser(content, charset);

            // 过滤出<a></a>标签

            NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);

            NodeList list = parser.extractAllNodesThatMatch(linkFilter);

            Node node = null;

            for (int i = 0; i < list.size(); i++) {

                node = list.elementAt(i);

                // 获得网页中的链接map(href,text)

                linkMap.put(((LinkTag) node).getLink(), this.processText(((LinkTag) node).getLinkText()));

            }

        } catch (ParserException e) {

            e.printStackTrace();

        }

        return linkMap;

    }   

    public String bodyGet(String url, String charset) {

        String content=util.getWebContentByGet(url,charset);

        String body = "";

        try {

            Parser parser = Parser.createParser(content, charset);

            // 过滤<body></body>标签

            NodeFilter bodyFilter = new NodeClassFilter(BodyTag.class);

            NodeList list = parser.extractAllNodesThatMatch(bodyFilter);

            Node node = null;

            for (int i = 0; i < list.size(); i++) {

                node = list.elementAt(i);

                // 获得网页内容 保存在content中

                body = ((BodyTag) node).getBody();

            }

        } catch (ParserException e) {

            e.printStackTrace();

        }

        return body;

    }   

    public Map<String,String> termGet(String url, String charset) {

        String content=util.getWebContentByGet(url,charset);   

        Map<String, String> map = new HashMap<String, String>();

        try {

            //开始解析

            // 过滤出class为term的<span>元素

            Parser parser = Parser.createParser(content, charset);

            AndFilter filter =

                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","term"));   

            Node node = null;

            NodeList nodeList = parser.parse(filter);   

            for (int i = 0; i < nodeList.size(); i++) {

                node = nodeList.elementAt(i);

                map.put("term", node.toPlainTextString());

            }

            // 过滤出class为start-time的<span>元素

            Parser parser2 = Parser.createParser(content, charset);

            AndFilter filter2 =

                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","start-time"));

            NodeList nodeList2 = parser2.parse(filter2);

            for (int i = 0; i < nodeList2.size(); i++) {

                node = nodeList2.elementAt(i);

                map.put("start-time", node.toPlainTextString());

            }

            // 过滤出id为J_SingleEndTimeLabel的<span>元素

            Parser parser3 = Parser.createParser(content, charset);

            AndFilter filter3 =

                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("id","J_SingleEndTimeLabel"));

            NodeList nodeList3 = parser3.parse(filter3);

            for (int i = 0; i < nodeList3.size(); i++) {

                node = nodeList3.elementAt(i);

                map.put("end-time", node.toPlainTextString());

            }   

            // 过滤出class为box post的<div>元素

            Parser parser4 = Parser.createParser(content, charset);

            AndFilter filter4 =

                new AndFilter(new TagNameFilter("div"),new HasAttributeFilter("class","box post"));

            NodeList nodeList4 = parser4.parse(filter4);

            for (int i = 0; i < nodeList4.size(); i++) {

                node = nodeList4.elementAt(i);

                String temp=node.toPlainTextString().trim();

                temp=temp.substring(10,20).trim();

                map.put("pre-term", temp);

            }   

            // 过滤出class为J_AwardNumber的<span>元素

            Parser parser5 = Parser.createParser(content, charset);

//          AndFilter filter5 =

//                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","J_AwardNumber"));

            NodeList nodeList5 = parser5.parse(new HasAttributeFilter("class","J_AwardNumber"));

            StringBuffer buffer=new StringBuffer();

            for (int i = 0; i < nodeList5.size(); i++) {

                node = nodeList5.elementAt(i);

                buffer.append(","+node.toPlainTextString());

            }

            buffer.append("|");   

            // 过滤出class为blue J_AwardNumber的<span>元素

            Parser parser6 = Parser.createParser(content, charset);

//          AndFilter filter6 =

//                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","blue J_AwardNumber"));

            NodeList nodeList6 = parser6.parse(new HasAttributeFilter("class","blue J_AwardNumber"));

            for (int i = 0; i < nodeList6.size(); i++) {

                node = nodeList6.elementAt(i);

                buffer.append(node.toPlainTextString()+",");

            }   

            map.put("numbers", buffer.toString());

        } catch (ParserException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }   

        return map;

    }   

    private String processText(String content){

        content=content.trim().replaceAll("&nbsp;", "");

//      content=content.replaceAll("<p>", "\n");

//      content=content.replaceAll("</TD>", "");

//      content=content.replaceAll("</div>", "");

//      content=content.replaceAll("</a>", "");

//      content=content.replaceAll("<a href=.*>", "");

        return content;

    }      

    public static void main(String[] str) {   

        String url="http://caipiao.taobao.com/lottery/order/lottery_dlt.htm?type=1";

        HtmlparseUtil util=new HtmlparseUtil();

        Map<String,String> map=util.termGet(url, "gb2312");

        System.out.println("term="+map.get("term"));//<span class="term">第<em>10074</em>期</span>

        System.out.println("start-time="+map.get("start-time"));//

        System.out.println("end-time="+map.get("end-time"));//

        System.out.println("pre-term="+map.get("pre-term"));//

        System.out.println("numbers="+map.get("numbers"));//   

    }   

}

抓取HTML网页数据的更多相关文章

selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
使用java开源工具httpClient及jsoup抓取解析网页数据
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下公历时间:2016年04月11日星期一农历时间:猴年三月初五天干地支:丙申年壬辰月癸亥日宜:求子祈福开光 ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
Fiddler 详尽教程与抓取移动端数据包
转载自:http://blog.csdn.net/qq_21445563/article/details/51017605 阅读目录 1. Fiddler 抓包简介 1). 字段说明 2). Stat ...
使用Office 365抓取PM2.5数据
近日微软发布了Microsoft Flow,一个类似IFTTT自动化任务触发工具.例如,我们可以设置这样一个触发事件和对应的处理过程:当有人在微博上@我的时候,发一封邮件通知我:当我关注的博主有新文章 ...
scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...
Fiddler捕获抓取 App端数据包
最近项目设计到App抓包,所以采用Fiddler工具来采集获取APP数据包,但是fiddler对有些app是无法捕获到数据包的,以下是我的处理方法: 1. 我默认代理端口使用的是自定义的端口而不是默认 ...
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...

随机推荐

matlab所需插件
1
旧文备份: CANopen的LSS子协议中文翻译
有关节点地址和网络波特率的在线设置等:下载
第51章设置FLASH的读写保护及解除—零死角玩转STM32-F429系列
第51章设置FLASH的读写保护及解除全套200集视频教程和1000页PDF教程请到秉火论坛下载:www.firebbs.cn 野火视频教程优酷观看网址:http://i.youku.co ...
JT796、JT1077部标平台检测报名须知
检测报名须知申请道路运输车辆卫星定位系统平台标准符合性检测时,请先将1检测意向单(只针对企业监控平台).2符合性检测申请材料(基本材料包括:申请函.授权人身份证复印件.检测登记表.运输企业信息表.平 ...
概述「DAG加边至强连通」模型&&luoguP2746校园网Network of Schools
模型概述有一DAG,问最少加多少条边能够使图强连通. 题目描述一些学校连入一个电脑网络.那些学校已订立了协议:每个学校都会给其它的一些学校分发软件(称作“接受学校”).注意即使 B 在 A 学校的 ...
dede后台添加优酷等视频iframe链接时被替换成了图片
添加文章时添加优酷视频 :<iframe height=498 width=510 src='http://player.youku.com/embed/XNDAzNTAzODE4OA==' ...
javascript getBoundingClientRect()获取元素四个边相对于窗口或文档的位置
Element.getBoundingClientRect()返回元素的大小及相对于窗口的位置语法: rectObject=object.getBoundingClientRect(); 返回值是一 ...
JZOJ 5913. 林下风气
Description 里口福因有林下风气,带领全国各地高校掀起了一股AK风,大家都十分痴迷于AK.里口福为了打击大家的自信心,出了一道自以为十分困难的题目.里口福有一棵树,第i个节点上有点权ai,他 ...
Java 算法随笔(一)
1. 最大子序列和问题给定(可能有负数)整数a(1).a(2).……a(n),求 a(1)+a(2)+……+a(j)的最大值. 也就是:在一系列整数中,找出连续的若干个整数,这若干个整数之和最大.有 ...
学习python第十六天，正则表达式
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配.采取动态模糊的匹配,最大的应用是爬虫. re 模块使 Python 语言拥有全部的正则表达式功能. compile 函 ...

抓取HTML网页数据

（转）htmlparse filter使用

抓取HTML网页数据的更多相关文章

随机推荐

热门专题