jsoup 解析html 页面数据

我html 页面元素：

/html/body/table[2]/tbody/tr[1]/td/table/tbody/tr[1]/td[2]/font
/html/body/table[2]/tbody/tr[1]/td/table/tbody/tr[2]/td[2]/div/font/span
/html/body/table[2]/tbody/tr[3]/td/font/b
/html/body/table[2]/tbody/tr[5]/td/div/table/tbody/tr[1]/td[1]/div/b/font/span

以下是代码实现：

import java.io.BufferedOutputStream;

import java.io.File;

import java.io.FileOutputStream;

import org.apache.http.HttpEntity;

import org.apache.http.HttpResponse;

import org.apache.http.HttpStatus;

import org.apache.http.client.HttpClient;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.DefaultHttpClient;

import org.apache.http.util.EntityUtils;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class JsoupParseHtml {

	public static String getHtmlByUrl(String url){

	    String html = null;

	    //创建httpClient对象

	    HttpClient httpClient = new DefaultHttpClient();

	    //以get方式请求该URL

	    HttpGet httpget = new HttpGet(url);

	    try {

	        //得到responce对象

	        HttpResponse responce = httpClient.execute(httpget);

	        //返回码

	        int resStatu = responce.getStatusLine().getStatusCode();

	        //200正常  其他就不对

	        if (resStatu==HttpStatus.SC_OK) {

	            //获得相应实体

	            HttpEntity entity = responce.getEntity();

	            if (entity!=null) {

	                //获得html源代码

	                html = EntityUtils.toString(entity);  

	            }

	        }

	    } catch (Exception e) {

	        System.out.println("访问【"+url+"】出现异常!");

	        e.printStackTrace();

	    } finally {

	        httpClient.getConnectionManager().shutdown();

	    }

	    return html;

	}

static String txtpathstr="d:\\one\\";

	public static void main(String[] args) throws Exception {

		String contents="";

		String urlbase="http://localhost:8080/1.htm";

		//String urlbase="http://www.qiushibaike.com/8hr/page/8?s=4513032";//1?s=4513032

	    contents+=gettxtlist(urlbase);

		//写入文件

		writefile(contents);

	}

	public static String gettxtlist(String txturl) throws Exception{

		String content="";

		Document doc=jsoupconnect(txturl,360000);

		//Elements els= doc.select("div.content");

		Elements els= doc.select("html");

		for(Element el:els){

			if (el.select("body").size()>1){

				continue;

			}

			content+=el.text()+"\r\n";

			System.out.println();

			System.out.println(content);

		}

		return content;

	}

	public static Document jsoupconnect (String url,int timeout){

		Document doc=null;

		int retry=5;

		while (null==doc&&retry>0){

			retry--;

			try{

			doc= Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.1; rv:5.0)").timeout(timeout).get();

			}catch(Exception e){

				e.printStackTrace();

			}

		}

		return doc;

	}

	public static void writefile(String txtstr)throws Exception{

		File txtpath=new File(txtpathstr);

		if (!txtpath.exists()){

			txtpath.mkdirs();

		}

		File htxt=new File(txtpathstr+"test.txt");

		BufferedOutputStream outBuff = new BufferedOutputStream(new FileOutputStream(htxt));

		outBuff.write(txtstr.getBytes());

		outBuff.flush();

		outBuff.close();

	}

}

存在问题：只能一次性读取出来，不能按照要求，按照table分开，下一版本会解决这个问题

jsoup 解析html 页面数据的更多相关文章

Android开发探秘之三：利用jsoup解析HTML页面
这节主要是讲解jsoup解析HTML页面.由于在android开发过程中,不可避免的涉及到web页面的抓取,解析,展示等等,所以,在这里我主要展示下利用jsoup jar包来抓取cnbeta.com网 ...
Jsoup获取部分页面数据失败 org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml.
用Jsoup在获取一些网站的数据时,起初获取很顺利,但是在访问某浪的数据是Jsoup报错,应该是请求头里面的请求类型(ContextType)不符合要求. 请求代码如下: private static ...
使用jsoup解析html页面内容案例
public String getFaGuiKuTitles(String type, int page) { String href = "http://info.qd-n-tax.gov ...
Jsoup获取部分页面数据失败 Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml
用Jsoup在获取一些网站的数据时,起初获取很顺利,但是在访问某浪的数据是Jsoup报错,应该是请求头里面的请求类型(ContextType)不符合要求. 请求代码如下: private static ...
Android中利用jsoup解析html页面
学习jsoup :jsoup学习网站 Android 中使用: 添加依赖 implementation 'org.jsoup:jsoup:1.10.1' 直接上代码: package com.load ...
java Jsoup 抓取页面数据
List<ImageBean> imgList = new ArrayList<ImageBean>(); ImageBean image = null; String ima ...
使用Jsoup 抓取页面的数据
需要使用的是jsoup-1.7.3.jar包如果需要看文档我下载请借一步到官网:http://jsoup.org/ 这里贴一下我用到的 Java工程的测试代码 package com.javen ...
python爬虫解析页面数据的三种方式
re模块 re.S表示匹配单行 re.M表示匹配多行使用re模块提取图片url,下载所有糗事百科中的图片普通版 import requests import re import os if not ...
json-lib-2.4-jdk15.jar所需全部JAR包.rar java jsoup解析开彩网api接口json数据实例
json-lib-2.4-jdk15.jar所需全部JAR包.rar java jsoup解析开彩网api接口json数据实例 json-lib-2.4-jdk15.jar所需全部JAR包.rar ...

随机推荐

oracle ORA_ROWSCN 行记录的更新时间
在这介绍两个oracle 10G开始提供的一个伪列ORA_ROWSCN,它又分为两种模式一种是基于block,这是默认的模式,还有一种是基于row上,这种模式只能在建里表时指定ROWDEPENDENC ...
推荐10款好用的 Jquery 评分插件
Raty jQuery Raty这是一个能够自动生成可定制的星级评分jQuery插件.可以自定义图标,创建各种评级组合,星星数量,每一颗星星的注释,可以在当一个星星被点击时的加回调函数. 地址: Ra ...
《JavaScript 闯关记》之数组
数组是值的有序集合.每个值叫做一个元素,而每个元素在数组中有一个位置,以数字表示,称为索引. JavaScript 数组是无类型的,数组元素可以是任意类型,并且同一个数组中的不同元素也可能有不同的类型 ...
追加addclass和removeclass
//addclass Base.prototype.addclass=function(classname){ for(var i=0;i< ...
js判断是否安装flash
<script type="text/javascript"> (function () { var noFlash = "你的浏览器没有安装Flash,会影 ...
【IOS学习基础】weak和strong、懒加载、循环引用
一.weak和strong 1.理解刚开始学UI的时候,对于weak和strong的描述看得最多的就是“由ARC引入,weak相当于OC中的assign,但是weak用于修饰对象,但是他们都不会造成 ...
sql一些命令
1.创建表 create table tSId ( tSid int identity(1,1) primary key, tSName varchar(10) check(len(tSName)&g ...
C++程序设计实践指导1.9统计与替换字符串中的关键字改写要求实现
改写要求1:将字符数组str改为字符指针p,动态开辟存储空间改写要求2:增加统计关键字个数的函数void CountKeyWords() 改写要求3: 增加替换函数void FindKeyWords ...
Android studio 配置JNI环境
Android studio配置jni开发环境,主要配置是两个build文件,以及新建一个jni文件,放c代码. 代码如下1: apply plugin: 'com.android.model.app ...
windows 文件watch nodejs
本篇博客,主要是记录下最近一直纠结的gulp.watch方法,在工作中我们肯定都遇到过,新添加的文件没办法自动触发watch,下面我们就来看有什么办法处理 1.首先我们肯定是先百度一下百度推荐的是g ...

jsoup 解析html 页面数据

jsoup 解析html 页面数据的更多相关文章

随机推荐

热门专题