【Java】爬资源案例

也不知道为什么喜欢叫爬虫

搞明白原理之后原来就是解析网页代码获取关键字符串

现在的网页有很多解析出来就是JS了，根本不暴露资源地址

依赖一个JSOUP，其他靠百度CV实现

        <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->

        <dependency>

            <groupId>org.jsoup</groupId>

            <artifactId>jsoup</artifactId>

            <version>1.13.1</version>

        </dependency>

我爬取的资源页面代码结构是固定的，所以程序设计起来相对简单

查看网页源码之后就可以看这个标签是直接设有id值的，我们知道id属性是不可重复的，所以可以凭借这个属性来准确获取dom元素

得到元素之后再来获取src属性的值，再通过文件下载提供这个资源地址即可获取文件了

<source id="webmSource" src="https://xxx.com/xxx.webm" type="video/webm">

恰好我想得到的资源正好就是这么干的

下面就是代码了：

package cn.dzz;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import java.io.BufferedReader;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.URL;

import java.net.URLConnection;

public class Main {

    private static String resolving(String urlStr) {

        StringBuffer stringBuffer = new StringBuffer();

        URL url;

        try {

            // 通过提供的地址封装成网络对象

            url = new URL(urlStr);

            // 获取连接 目前的网站都不再允许没有HTTP请求头的请求访问，这里至少要设置一个头信息模拟浏览器访问

            // URLConnection urlConnection = url.openConnection();

            HttpURLConnection httpURLConnection = ((HttpURLConnection)url.openConnection());

            httpURLConnection.addRequestProperty("User-Agent", "Mozilla/4.0");

            // 获取输入流对象

            InputStream inputStream = httpURLConnection.getInputStream();

            // 创建输入流读取对象

            InputStreamReader inputStreamReader = new InputStreamReader(inputStream, "utf-8");

            // 创建缓冲流读取对象

            BufferedReader bufferedReader = new BufferedReader(inputStreamReader);

            String htmlCodeLine = "";

            // 遍历读取缓冲流读取对象的一行，字符串缓冲对象逐行追加，直至结束

            while ((htmlCodeLine = bufferedReader.readLine()) != null) {

                stringBuffer.append(htmlCodeLine);

            }

            // 得到完整的页面代码

            return stringBuffer.toString();

        } catch (Exception e) {

            e.printStackTrace();

        }

        return null;

    }

    private static String getSourceAddress(String completeHtmlCode) {

        // 先由JSOUP解析封装成Document对象

        Document document = Jsoup.parse(completeHtmlCode);

        Elements elementList = document.select("#webmSource");

        System.out.println(elementList);

        Element element = elementList.get(0);

        String src = element.attr("src");

        return src;

    }

    private static void downloadWebmVideo(String sourceAddress) {

        final String DIR_PATH = "D:/Porn/";

        String fileName;

        int byteSum = 0;

        int byteRead = 0;

        try {

            URL url = new URL(sourceAddress);

            fileName = sourceAddress.substring(sourceAddress.lastIndexOf("/") + 1);

            System.out.println(fileName);

            URLConnection urlConnection = url.openConnection();

            InputStream inputStream = urlConnection.getInputStream();

            FileOutputStream fileOutputStream = new FileOutputStream(DIR_PATH + fileName);

            byte[] bufferBytes = new byte[(int)Math.pow(2,10)]; //1024

            while ((byteRead = inputStream.read(bufferBytes)) != -1) {

                byteSum += byteRead;

                System.out.println(byteRead);

                fileOutputStream.write(bufferBytes, 0, byteRead);

            }

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

    public static void main(String[] args) {

        // downloadWebmVideo(getSourceAddress(resolving(args[0])));

        String url = "https://xxx/xxx/";

        downloadWebmVideo(getSourceAddress(resolving(url)));

    }

}

能够实现文件获取，但是比较简陋

【Java】爬资源案例的更多相关文章

java爬取并下载酷狗TOP500歌曲
是这样的,之前买车送的垃圾记录仪不能用了,这两天狠心买了好点的记录仪,带导航.音乐.蓝牙.4G等功能,寻思,既然有这些功能就利用起来,用4G听歌有点奢侈,就准备去酷狗下点歌听,居然都是需要办会员才能下 ...
Java爬取并下载酷狗音乐
本文方法及代码仅供学习,仅供学习. 案例: 下载酷狗TOP500歌曲,代码用到的代码库包含:Jsoup.HttpClient.fastJson等. 正文: 1.分析是否可以获取到TOP500歌单打开 ...
必备的 Java 参考资源列表(转）
包含必备书籍.站点.博客.活动等参考资源的完整清单级别: 初级 Ted Neward, 主管,ThoughtWorks, Neward & Associates 2009 年 3 月 02 日 ...
MinerHtmlThread.java 爬取页面线程
MinerHtmlThread.java 爬取页面线程 package com.iteye.injavawetrust.miner; import org.apache.commons.logging ...
MinerConfig.java 爬取配置类
MinerConfig.java 爬取配置类 package com.iteye.injavawetrust.miner; import java.util.List; /** * 爬取配置类 * @ ...
JAVA学习资源分享
JAVA学习资源分享最高端的JAVA架构师资源(来自龙果学院价值￥1399元).JAVA互联网分布式架构(龙果学院价值￥899元).Spring Boot(2017年最新包括源码原理分析) + ...
Java学习资源整理(超级全面)
这里整理一些自己平常搜集的比较好的关于Java的学习资源,主要包括博客站点.书籍.课程等. 了解Java最新资讯这部分主要是了解与Java相关的动态以及信息,能够拓展我们的视野以及寻找一些好的ide ...
你不可错过的Java学习资源清单（包含社区、大牛、专栏、书籍等）
学习Java和其他技术的资源其实非常多,但是我们需要取其精华去其糟粕,选择那些最好的,最适合我们的,同时也要由浅入深,先易后难.基于这样的一个标准,我在这里为大家提供一份Java的学习资源清单. 一: ...
Java爬取网络博客文章
前言近期本人在某云上购买了个人域名,本想着以后购买与服务器搭建自己的个人网站,由于需要筹备的太多,暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地 ...
Java爬取校内论坛新帖
Java爬取校内论坛新帖为了保持消息灵通,博主没事会上上校内论坛看看新帖,作为爬虫爱好者,博主萌生了写个爬虫自动下载的想法. 嗯,这次就选Java. 第三方库准备 Jsoup Jsoup是一款比较好 ...

随机推荐

MySQL入门到精通（十）：SQL优化第一篇（2021最新发布）
SQL优化 1. 对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,创建表时N ...
vant做城市列表
vant: https://youzan.github.io/vant/#/zh-CN/ 安装 cnpm i -S vant 按需加载配置 # 在 babel.config.js 中配置 module ...
Sqlite windows11 安装与使用
首先进入Sqlite官方网址: https://www.sqlite.org/download.html 然后下载下面框起来的两个压缩文件下载完成后解压接下来去配置环境变量,右键此电脑->属 ...
java datetime数据类型去掉时分秒
在Java中,如果我们想要表示一个日期而不包括时间(时分秒),我们通常会使用java.time包中的LocalDate类.LocalDate是一个不可变的日期对象,它只包含年.月.日三个字段. 1. ...
fastadmin的导出到excel功能
正常的excel导出没什么问题,最近一直头疼的是怎么导出数据中包含图片,并且图片还是数组?????by user 悦悦 https://www.cnblogs.com/nuanai 1.导出的exce ...
07-Linux文件权限管理
文件的类型 Linux的哲学思想:一切皆文件. Linux的文件分为多种类型. 可以通过ll命令查看文件的类型: ll #输出: -rw-------. 1 root root 1266 2月 29 ...
SpringBoot动态数据源配置
SpringBoot动态数据源配置序:数据源动态切换流程图如下: 1:pom.xml文件依赖声明 <dependency> <groupId>org.springfram ...
ZYNQ uboot 网络调试
背景使用 Vivado配置好网络,并在PetaLinux中构建了完整的uboot.kernel.rootfs以后,发现网络有问题. > ping 192.168.168.1 ethernet@ ...
使用Xilinx SDK生成设备树
章节描述: 介绍如何通过SDK生成设备树,以用于arm-Linux环境. 背景开发环境: Windows:Vivado 2018.3 Linux :ubuntu 16.04 介绍: Device T ...
Windows 7操作系统全面解析与实用技巧
Win7操作系统一.操作系统的概述 1.1操作系统的概念操作系统(operating system,简称OS)一组控制和管理计算机系统的硬件和软件资源.控制程序执行.改善人机界面.合理地组织计算机 ...

【Java】爬资源案例

【Java】爬资源案例的更多相关文章

随机推荐

热门专题