java Jsoup 抓取页面数据

List<ImageBean> imgList = new ArrayList<ImageBean>();

        ImageBean image = null;

        String imageTime = "";

        String imageName = "";

        String url = "";

        for (Map.Entry<String, String> entry : map.entrySet()) {

            try {

                Document doc = Jsoup.connect(entry.getKey()).get();

                Elements scripts = doc.select("script");

                JSONObject obj = null;

                String[] datas = entry.getValue().split(this.split);

                for (int i = 0; i < scripts.size(); i++)

                {

                    Element script = scripts.get(i); // Get the script part

                    Pattern p = Pattern.compile(datas[3]); // 匹配图片链接地址的正则表达式

                    Matcher m = p.matcher(script.html()); // 匹配的字符串

                    while (m.find())

                    {

                        image = new ImageBean();

                        String matchStr = m.group(1);

                        obj = JSONObject.parseObject(matchStr);

                        url = datas[1] + obj.getString(datas[4]);

                        image.setUrl(url);

                        imageTime = getImageTime(url);

                        image.setName(imageTime);

                        image.setType(datas[3]);

                        image.setImageType(datas[5]);

                        imgList.add(image);

                    }

                }

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

<entry key="http://www.nmc.cn/publish/nwp/t639/ea/500hPa-hgt.html">

                    <value>高度场~http://image.nmc.cn~type~data.push\((\{*.*?\})\)~img_path~nmc_fore_t639_hgt</value>

                </entry>

java Jsoup 抓取页面数据的更多相关文章

iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
Jsoup抓取网页数据完成一个简易的Android新闻APP
前言:作为一个篮球迷,每天必刷NBA新闻.用了那么多新闻APP,就想自己能不能也做个简易的新闻APP.于是便使用Jsoup抓取了虎扑NBA新闻的数据,完成了一个简易的新闻APP.虽然没什么技术含量,但 ...
【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）
package 网络编程; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileOutpu ...
利用python抓取页面数据
1.首先是安装python(注意python3.X和python2.X是不兼容的,我们最好用python3.X) 安装方法:安装python 2.安装成功后,再进行我们需要的插件安装.(这里我们需要用 ...
js 抓取页面数据
数据抓取主要思路和原理在根节点document中监听所有需要抓取的事件在元素事件传递中,捕获阶段获取事件信息,进行埋点通过getBoundingClientRect() 方法可获取元素的大小和 ...
使用Jsoup 抓取页面的数据
需要使用的是jsoup-1.7.3.jar包如果需要看文档我下载请借一步到官网:http://jsoup.org/ 这里贴一下我用到的 Java工程的测试代码 package com.javen ...
Jsoup 抓取和数据页认识HTTP头
推荐一本书:黑客攻防技术宝典.Web实战篇 : 顺便留下一个疑问:能否通过jsoup大量并发訪问web或者小型域名server,使其瘫痪?其有用jsoup熟悉的朋友能够用它解析url来干 ...

随机推荐

tomcat 设置根目录访问
from http://nj-apple-tree.iteye.com/blog/1635953 1,设置跟路径时,三种方式在Tomcat默认安装后,tomcat的主目录是webapps/root目 ...
Linux_几个常用的命令
一.基本命令查看当前路径:pwd 切换文件夹:cd 查看当前用户: who/whoami 取文件前3行:head -3 文件取文件尾3行:tail -3 文件切换用户: su - [用户名] 查 ...
oracle中复制表和数据 && 多表插入语句
创建测试表和测试数据 create table test (id number,name varchar(10)); insert into test values(1,'liufang'); ...
HTTP协议 (七) Cookie
HTTP协议 (七) Cookie Cookie是HTTP协议中非常重要的东西, 之前拜读了Fish Li 写的[细说Cookie], 让我学到了很多东西.Fish的这篇文章写得太经典了. 所以我这篇 ...
Chrome开发，debug的使用方法。
怎样打开Chrome的开发者工具? 你可以直接在页面上点击右键,然后选择审查元素: 或者在Chrome的工具中找到: 或者,你直接记住这个快捷方式: Ctrl+Shift+I (或者Ctrl+Shif ...
dede新建模型中自定义联动类别调用及修改方法
搜索了好久,没找到一个好的方法,就凑活用这个方法吧.也许只有这个方法比较好先在后台的“联动类别管理”里新增“类别组”,“类别名”填中文,“缓存组名”填英文字母. 在“分类名称”后面增加分类然后 ...
python关于列表转为字典的两个小方法
1.现在有两个列表,list1 = ['key1','key2','key3']和list2 = ['1','2','3'],把他们转为这样的字典:{'key1':'1','key2':'2','ke ...
LoadRunner11.00入门教程
安装成功后,根据教程,有自带的应用程序供新手快速掌握Loadrunner的使用.测试应用是一个基于web的旅行社应用程序,也就是供用户在线预订机票的应用.根据教程和操作,重新总结一下测试流程以及遇到的 ...
faster with MyISAM tables than with InnoDB or NDB tables
http://dev.mysql.com/doc/refman/5.7/en/partitioning-limitations.html Performance considerations. So ...
使用windows资源管理器的排序规则
对于windows资源管理器 abc_1_def是要排到abc_10_def前面的而一般的排序规则, 都会吧_10_排到前面所以为了使用习惯, 最好用资源管理器的排序规则, windows有个AP ...

java Jsoup 抓取页面数据

java Jsoup 抓取页面数据的更多相关文章

随机推荐

热门专题