使用jsoup进行网页内容抓取

对网页内容的抓取比较的感兴趣，于是就简单的学习了一下，如果不使用任何的框架去抓取网页的内容，感觉有点难度，我就简单点来吧，这里所使用的jsoup框架，抓取网页的内容与使用jquery选择网页的内容差不多，上手很快。下面就简单的介绍一下吧！

首先是获取网络资源的方法：

    /**

     * 获取网络中的超链接

     *

     * @param urlStr

     *            传入网络地址

     * @return 返回网页中的所有的超链接信息

     */

    public String getInternet(String urlStr, String encoding) {

        URL url = null;

        URLConnection conn = null;

        String nextLine = null;

        StringBuffer sb = new StringBuffer();

        // 设置系统的代理信息

        Properties props = System.getProperties();

        props.put("proxySet", "true");

        props.put("proxyHost", "10.27.16.212");

        props.put("proxyPort", "3128");

        System.setProperties(props);

        try {

            // 获取网络资源

            url = new URL(urlStr);

            // 获取资源连接

            conn = url.openConnection();

            conn.setReadTimeout(30000);//设置30秒后超时

            conn.connect();

            BufferedReader reader = new BufferedReader(new InputStreamReader(

                    conn.getInputStream(), encoding));

            // 开始读取网页信息获取网页中的超链接信息

            while ((nextLine = reader.readLine()) != null) {

                sb.append(nextLine);

            }

        } catch (Exception e) {

            e.printStackTrace();

        }

        return sb.toString();

    }

我们在获取了网络资源之后，我们就可以根据自己的需求筛选出对自己有用的资源了，下面开始抓取资源：

public static void main(String[] args) {

        MavenTest test = new MavenTest();

        try {

            String html = test.getInternet(    "http://www.weather.com.cn/html/weather/101020100.shtml#7d","UTF-8");

            //将html文档转换为Document文档

            Document doc = Jsoup.parse(html);

            //获取class为.weatherYubaoBox的div的元素

            Elements tableElements = doc.select("div.weatherYubaoBox");

//            System.out.println(tableElements.html());

            //获取所有的th元素

            Elements thElements = tableElements.select("th");

            //打印出日期的标题信息

            for (int i = 0; i < thElements.size(); i++) {

                System.out.print("                "+thElements.get(i).text() + "\t");

            }

            // 输出标题之后进行换行

            System.out.println();

            //获取表格的tbody

            Elements tbodyElements = tableElements.select("tbody");

            for (int j = 1; j < tbodyElements.size(); j++) {

                //获取tr中的信息

                Elements trElements = tbodyElements.get(j).select("tr");

                for (int k = 0; k < trElements.size(); k++) {

                    //获取单元格中的信息

                    Elements tdElements = trElements.get(k).select("td");

                    //根据元素的多少判断出白天和夜晚的

                    if (tdElements.size() > 6) {

                        for (int m = 0; m < tdElements.size(); m++) {

                            System.out.print(tdElements.get(m).text() + "\t");

                        }

                        // 白天的数据打印完成后进行换行

                        System.out.println();

                    }else{

                        for(int n =0; n < tdElements.size(); n++){

                            System.out.print("\t"+tdElements.get(n).text());

                        }

                        //打印完成夜间的天气信息进行换行处理

                        System.out.println();

                    }

                }

            }

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

运行的结果如下：

最后附上框架的地址：http://www.open-open.com/jsoup/selector-syntax.htm

使用jsoup进行网页内容抓取的更多相关文章

Java+Jsoup实现网页内容抓取
不知不觉毕业快一年了,工作逐渐趋于平淡,从一个对编程了解得很少甚至完全一窍不通的小小菜,终于成为了一枚小菜,总而言之,算是入了IT这一行.这大半年马马虎虎做了三个项目,有安卓项目,有Java Web项 ...
使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
Java下HttpUnit和Jsoup的Http抓取
简单记录下:搜集信息-分析问题-解决问题关于html文档的操作现成库有: HttpUnit 很老了,不更了 http://www.httpunit.org/ 20 May 2008 HttpUni ...
网络爬虫WebCrawler（1）-Http网页内容抓取
在windows在下面C++由Http协议抓取网页的内容: 首先介绍了两个重要的包(平时linux在开源包,在windows下一个被称为动态链接库dll):curl包和pthreads_dll,其中c ...
C# asp.net 抓取需要登录的网页内容抓取asp.net登录验证的网站
private void btnASPNET_Click(object sender, EventArgs e) { Dictionary<string, s ...
php 网页内容抓取
最近抓的2个网站内容的代码列表页抓取:第一种使用phpquery插件,可以快速获取,第二种它是api,所以直接获取 load_third("phpQuery.php"); /** ...
Python 实现腾讯新闻抓取
原文地址:http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.htm 思路: 1.抓取腾讯新闻列表页面: http://news.qq.c ...
jsoup抓取网页内容
java项目有时候我们需要别人网页上的数据,怎么办?我们可以借助第三方架包jsou来实现,jsoup的中文文档,那怎么具体的实现呢?那就跟我一步一步来吧最先肯定是要准备好这个第三方架包啦,下载地址, ...
HTTPCLIENT抓取网页内容
通过httpclient抓取网页信息. public class SnippetHtml{ /** * 通过url获取网站html * @param url 网站url */ public Strin ...

随机推荐

分享一下jQuery UI的地址
jQuery EasyUI: http://www.jeasyui.com/ DWZ: http://j-ui.com/ Liger UI: http://www.ligerui.com/ Liger ...
ASP.NET MVC 修改视图的默认路径（MVC2,MVC3）
ASP.NET MVC2 修改视图的默认路径步骤:1.编写继承自WebFormViewEngine的类,重写视图路径 2.在Application_Start()中添加语句: ViewEngines ...
Adobe Photoshop CC 14.0简体中文特别版32位和64位下载
国内私募机构九鼎控股打造APP,来就送 20元现金领取地址:http://jdb.jiudingcapital.com/phone.html内部邀请码:C8E245J (不写邀请码,没有现金送)国内私 ...
C++学习笔记之作用域为类的常量和作用域内的枚举
一.作用域为类的常量有些情况下,使符号常量的作用域为类很有用.如,类声明(不是定义)可能使用字面值30来指定数组长度,由于该常量对于所有对象来说都是相同的,因此创建一个由所有对象共享的常量是个不错的 ...
Codeforces Beta Round #18 (Div. 2 Only) C. Stripe 前缀和
C. Stripe Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://codeforces.com/problemset/problem/18/C ...
(转)用AGG实现高质量图形输出(三)
转自 :http://www.cnblogs.com/CoolJie/archive/2011/04/27/2030260.html 线段生成器(Span Generator) 我们前面举的例子使用的 ...
wget 命令用法详解
wget是在Linux下开发的开放源代码的软件,作者是Hrvoje Niksic,后来被移植到包括Windows在内的各个平台上.它有以下功能和特点:(1)支持断点下传功能:这一点,也是网络蚂蚁和Fl ...
mysql中自己定义函数编程
语法: 新建: Create function function_name(參数列表)returns返回值类型函数体函数名,应该合法的标识符,而且不应该与已有的keyword冲突. 一个函数应该属 ...
java.net.SocketException四大异常解决方案【转】
java.net.SocketException如何才能更好的使用呢?这个就需要我们先要了解有关这个语言的相关问题.希望大家有所帮助.那么我们就来看看有关java.net.SocketExceptio ...
oc-18-继承
//Animal.h #import <Foundation/Foundation.h> @interface Animal : NSObject { int _age; // 不写@pu ...

使用jsoup进行网页内容抓取

使用jsoup进行网页内容抓取的更多相关文章

随机推荐

热门专题