Java-如何挖取某个网站中的ajax请求信息

通常情况，通过网络爬虫挖取到的基本为网页静态内容，而动态ajax取数的内容是我个人暂时不知如何一次性把网站中的ajax获取

这里介绍的是某个网站中的某一个ajax多某个table刷新，期数据，并提供其他操作，如下载：

假设我们需挖取某一个网站：

例：某个网站中的那些pdf文件，并下载下来

首先：需要分析期网页组成结果；查看是通过什么方式读取处理的。这里结束ajax的方案（其它异同，ajax只是对数据进行一个一次数据的请求）

具体操作已案例介绍为主：

首先分析需要使用到的是ajax使用的请求url和请求中所需要的参数的含义，然后给定响应的参数

    /**

     * 获取某个请求的内容

     * @param url  请求的地址

     * @param code 请求的编码，不传就代表UTF-8

     * @return 请求响应的内容

     * @throws IOException

     */

    public static String fetch_url(String url, String code) throws IOException {

        BufferedReader bis = null;

        InputStream is = null;

        InputStreamReader inputStreamReader = null;

        try {

            URLConnection connection = new URL(url).openConnection();

            connection.setConnectTimeout(20000);

            connection.setReadTimeout(20000);

            connection.setUseCaches(false);

            connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11");

            is = connection.getInputStream();

            inputStreamReader = new InputStreamReader(is, code);

            bis = new BufferedReader(inputStreamReader);

            String line = null;

            StringBuffer result = new StringBuffer();

            while ((line = bis.readLine()) != null) {

                result.append(line);

            }

            return result.toString();

        } finally {

            if (inputStreamReader != null) {

                try {

                    inputStreamReader.close();

                } catch (IOException e) {

                    e.printStackTrace();

                }

            }

            if (bis != null) {

                try {

                    bis.close();

                } catch (IOException e) {

                    e.printStackTrace();

                }

            }

            if (is != null) {

                try {

                    is.close();

               } catch (IOException e) {

                    e.printStackTrace();

                }

            }

        }

    }

通过上面的url请求，观看响应的数据格式，这里响应的数据测试格式为json格式

    /**

     * 数据转化成json格式

     * @param s

     */

    public static void getJSON(String s) {

        JSONObject object = JSONObject.fromObject(s);

        JSONArray array = JSONArray.fromObject(object.get("disclosureInfos"));

        //System.out.println(array);

        String filePath = object.getString("filePath");//解析数据中的某一个值

        //System.out.println(array.size());

        List<String> listFilePath = getJSONArray(array,filePath);//将数据解析成条数

        /*System.out.println(listFilePath);

        System.out.println(listFilePath.size());*/

        writer(listFilePath);//根据数据的内容开始挖取下载

    }

很多个数据需要下载，一条一条的下载

    public static void writer(List<String> listFilePath) {

        for (String string : listFilePath) {

            downloadFile(string);

        }

    }

解析json数据从格式数据

    /**

     * 解析文件url

     * @param array

     * @return

     */

    public static List<String> getJSONArray(JSONArray array,String filePath) {

        List<String> listFilePath = new ArrayList<String>();

        for (Object object : array) {

            JSONObject ob = JSONObject.fromObject(object);

            filePath = filePath + ob.get("filePath").toString();

            // System.out.println(filePath);

            listFilePath.add(filePath);

        }

        return listFilePath;

    }

文件下载处理

    /* 下载 url 指向的网页 */

    public static String downloadFile(String url) {

        String filePath = null;

        /* 1.生成 HttpClinet 对象并设置参数 */

        HttpClient httpClient = new HttpClient();

        // 设置 Http 连接超时 5s

        httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(5000);

        /* 2.生成 GetMethod 对象并设置参数 */

        GetMethod getMethod = new GetMethod(url);

        // 设置 get 请求超时 5s

        getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT, 5000);

        // 设置请求重试处理

        getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER, new DefaultHttpMethodRetryHandler());

        /* 3.执行 HTTP GET 请求 */

        try {

            int statusCode = httpClient.executeMethod(getMethod);

            // 判断访问的状态码

            if (statusCode != HttpStatus.SC_OK) {

                System.err.println("Method failed: " + getMethod.getStatusLine());

                filePath = null;

            }

            /* 4.处理 HTTP 响应内容 */

            byte[] responseBody = getMethod.getResponseBody();// 读取为字节数组

            // 根据网页 url 生成保存时的文件名

            filePath = "e:\\spider\\";

            String fileName =  getFileNameByUrl(url, getMethod.getResponseHeader("Content-Type").getValue());

            saveToLocal(responseBody, filePath,fileName);

        } catch (HttpException e) {

            // 发生致命的异常，可能是协议不对或者返回的内容有问题

            System.out.println("Please check your provided http address!");

            e.printStackTrace();

        } catch (IOException e) {

            // 发生网络异常

            e.printStackTrace();

        } finally {

            // 释放连接

            getMethod.releaseConnection();

        }

        return filePath;

    }

确认文件名称和文件格式

    /**

     * 根据 url 和网页类型生成需要保存的网页的文件名 去除掉 url 中非文件名字符

     */

    public static String getFileNameByUrl(String url, String contentType) {

        // remove http://

        url = url.substring(7);

        // text/html类型

        if (contentType.indexOf("html") != -1) {

            url = url.replaceAll("[\\?/:*|<>\"]", "_") + ".html";

            return url;

        }

        // 如application/pdf类型

        else {

            return url.replaceAll("[\\?/:*|<>\"]", "_") + "." + contentType.substring(contentType.lastIndexOf("/") + 1);

        }

    }

保存文件地址写入

    /**

     * 保存网页字节数组到本地文件 filePath 为要保存的文件的相对地址

     */

    private static void saveToLocal(byte[] data, String fileDir,String fileName) {

        try {

            File fileNew=new File(fileDir+"\\"+fileName);//new 一个文件 构造参数是字符串

            File rootFile=fileNew.getParentFile();//得到父文件夹

            if( !fileNew.exists()) {

                rootFile.mkdirs();

                fileNew.createNewFile();

            }

            DataOutputStream out = new DataOutputStream(new FileOutputStream(fileNew));

            for (int i = 0; i < data.length; i++)

                out.write(data[i]);

            out.flush();

            out.close();

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

测试,这里写了个测试网址，网站地址和网址参数可能会改变，需适当调整

    public static void main(String[] args)  throws Exception{

        String s = fetch_url("http://www.neeq.cc/controller/GetDisclosureannouncementPage?type=7&key=&startDate=2015-05-20&endDate=2015-05-21&queryParams=0&page=1&_=1432187131769", "utf-8");

        //System.out.println(s);

        getJSON(s);

    }

完（欢迎转载）

Java-如何挖取某个网站中的ajax请求信息的更多相关文章

PHP--------TP中的ajax请求
PHP--------TP中的ajax请求以jQuery中的ajax为例: (1)引入jQuery 通过模板替换表示路径,我们可以自定义模板替换变量(在config中定义) /*自定义模板替换标签* ...
javascrpt 中的Ajax请求
回顾下javascript中的Ajax请求,写一个小例子: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN& ...
ASP.NET Core Razor中处理Ajax请求
如何ASP.NET Core Razor中处理Ajax请求在ASP.NET Core Razor(以下简称Razor)刚出来的时候,看了一下官方的文档,一直没怎么用过.今天闲来无事,准备用Rozor ...
HighCharts中的Ajax请求的2D折线图
HighCharts中的Ajax请求的2D折线图设计源码: <!DOCTYPE html> <html> <head> <meta charset=&quo ...
关于JQuery中的ajax请求或者post请求的回调方法中的操作执行或者变量修改没反映的问题
前段时间做一个项目,而项目中所有的请求都要用jquery 中的ajax请求或者post请求,但是开始处理一些简单操作还好,但是自己写了一些验证就出现问题了,比如表单提交的时候,要验证帐号的唯一性,所以 ...
[Web 前端] 如何在React中做Ajax 请求？
cp from : https://segmentfault.com/a/1190000007564792 如何在React中做Ajax 请求? 首先:React本身没有独有的获取数据的方式.实际上, ...
Struts2 在登录拦截器中对ajax请求的处理
前言: 由于ajax请求不像http请求,可以直接进行页面跳转,你返回的所有东西,ajax都只会识别为一个字符串. 之前尝试的方法是在拦截器中返回一个标识给ajax,然后再在每一个ajax请求成功之后 ...
React 中的 AJAX 请求：获取数据的方法
React 中的 AJAX 请求:获取数据的方法 React 只是使用 props 和 state 两处的数据进行组件渲染. 因此,想要使用来自服务端的数据,必须将数据放入组件的 props 或 st ...
jquery中的ajax请求用法以及参数详情
url: 要求为String类型的参数,(默认为当前页地址)发送请求的地址. type: 要求为String类型的参数,请求方式(post或get)默认为get.注意其他http请求方法,例如put和 ...

随机推荐

【Android Demo】通过WebService获取今日天气情况
因为本身是在搞.NET方面的东东,现在在学习Android,所以想实现Android通过WebService接口来获取数据,网上很多例子还有有问题的.参考:Android 通过WebService进行 ...
苹果手机微信调用百度地图Javascript API 频繁闪退问题
最近在网页中调用百度地图API js大众版,但是在IOS8系统中,缩放的时候频繁闪退,安卓手机没有这个问题! 在网上查询了下,有网友回答说不要频繁的去new marker,而是初始化话一定量的mark ...
UVALive 6470 Chomp --记忆化搜索
题意:给一个只有三行的方块阵(横向最多100个),然后p,q,r分别代表第1,2,3层的方格数,两人轮流去掉一个格子,此时这个格子的右上方都会被去掉,面临只剩最左下角的一个格子的状态的人输,问先手能否 ...
NGUI OnChange Event
那些组件有OnChange? 下面这些组件都有OnChange事件,当你点击,下拉选择时,就会触发它们. NGUI中对应的组件 PopupList (下拉列表) Toggle (复选框) Input ...
正则基础之——环视(Lookaround)
环视基础环视只进行子表达式的匹配,不占有字符,匹配到的内容不保存到最终的匹配结果,是零宽度的.环视匹配的最终结果就是一个位置. 环视的作用相当于对所在位置加了一个附加条件,只有满足这个条件,环视子表 ...
C语言百炼成钢1
//题目:有1.2.3.4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少? #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> ...
C语言百炼成钢9
//题目25:求1+2!+3!+...+20!的和 #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include<stdlib ...
log4j发送邮件乱码
Log4J发日志邮件给多个接收者及标题.正文乱码问题以前开发的系统没有单独的日志管理,所有的日志统一输出到tomcat后台一个文件里,不几天就是好几G,现在要整体增加一个Log4J管理日志的功能,其 ...
多个github帐号的SSH key切换
写在前面的话 github账号,工作有一个,自己有一个.但是默认下使用ssh key在git push时只有默认账号能免输入账号和密码. 如果想让另一个账号在代码push时免账号和密码,请看这篇文章h ...
抓包工具charles的使用
Charles是一款抓包修改工具,数据请求控制容易,操作简单. 下载和安装首先是工具下载和安装安装前需要先有Java的运行环境.下载到charles的破解版以后,正常安装.一般破解版里会有char ...

Java-如何挖取某个网站中的ajax请求信息

Java-如何挖取某个网站中的ajax请求信息的更多相关文章

随机推荐

热门专题