jsoup爬取网站图片


package com.ij34.JsoupTest;

import java.io.File;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.net.HttpURLConnection;

import java.net.URL;

import java.net.URLEncoder;

import java.text.SimpleDateFormat;

import java.util.Date;

import java.util.Random;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;  

public class JsoupTest {  

    public static void downImages(String filePath,String imgUrl) throws Exception {  

        //获取网址

        String beforeUrl = imgUrl.substring(0,imgUrl.lastIndexOf("/")+1);

        //图片url后面的图片名字

        String fileName = imgUrl.substring(imgUrl.lastIndexOf("/")+1);

        String newFileName = URLEncoder.encode(fileName, "UTF-8");

        //"+"替换为UTF-8中的空格

        newFileName = newFileName.replaceAll("\\+", "\\%20");

        //编码之后的url

        imgUrl = beforeUrl + newFileName;

         //创建文件目录

            File files = new File(filePath);

            if (!files.exists()) {

                files.mkdirs();

            }

            URL url = new URL(imgUrl);

            HttpURLConnection connection = (HttpURLConnection)url.openConnection();

            InputStream is = connection.getInputStream();

            Date day=new Date();

            SimpleDateFormat df = new SimpleDateFormat("yyyyMMddHHmmss");

            Random ra=new Random();

            int Num=ra.nextInt(11)+100;

            String fn=df.format(day)+Num;

            //去图片的格式例如.jpg .jpeg

            int lastIndex=fileName.lastIndexOf(".");

            String result=fileName.substring(lastIndex);

            File file = new File(filePath +fn+ result);

            FileOutputStream out = new FileOutputStream(file);

            int i = 0;

            while((i = is.read()) != -1){

                out.write(i);

            }  

    }  

    public static void main(String[] args) throws Exception {

        //int[] a=new int[]{};

          //for(int i=a.length-1;i>=0;i--){

          //爬取的网址

              String url = "http://www.ivsky.com/tupian/laohu_v45527";//+a[i];

            String savePath = "D://webmagic//";

            Document document = Jsoup.connect(url).get();

            Elements elements = document.getElementsByTag("img");

            for(Element element : elements){

                //图片的绝对路径

                String imgSrc = element.attr("abs:src");

                //取jpg格式

                if(imgSrc.contains(".jpg")){

                downImages(savePath, imgSrc);

                System.out.println(url+":"+imgSrc);

                }

            }

      //    }

    }

}

jsoup爬取网站图片的更多相关文章

使用Jsoup爬取网站图片
package com.test.pic.crawler; import java.io.File; import java.io.FileOutputStream; import java.io.I ...
Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
Day11 (黑客成长日记) 爬取网站图片
#导入第三方库# coding:utf-8import requests,re #找到需要爬取的网站'http://www.qqjia.com/sucai/sucai1210.htm' #1>获 ...
webmagic 二次开发爬虫爬取网站图片
webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫. webmagic介绍编写一个简单的爬虫 webmagic的使用文档:http://w ...
使用ajax爬取网站图片()
以下内容转载自:https://www.makcyun.top/web_scraping_withpython4.html 文章关于网站使用Ajaxj技术加载页面数据,进行爬取讲的很详细大致步骤如下 ...
【Python】爬取网站图片
import requests import bs4 import urllib.request import urllib import os hdr = {'User-Agent': 'Mozil ...
Jsoup爬取带登录验证码的网站
今天学完爬虫之后想的爬一下我们学校的教务系统,可是发现登录的时候有验证码.因此研究了Jsoup爬取带验证码的网站: 大体的思路是:(需要注意的是__VIEWSTATE一直变化,所以我们每个页面都需要重 ...
jsoup爬取某网站安全数据
jsoup爬取某网站安全数据 package com.vfsd.net; import java.io.IOException; import java.sql.SQLException; impor ...
Python爬虫学习（6）: 爬取MM图片
为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...

随机推荐

GraphQL-前端开发的利剑与桥梁
GraphQL-前端开发的利剑与桥梁基本概念 GraphQL GraphQL 是一种用于 API 的查询语言,由Facebook开发和开源,是使用基于类型系统来执行查询的服务端运行时(类型系统由你的 ...
Visual Studio 2017 怎么将自动生成属性设置为旧版格式
工具:Visual Studio 2017 1.点击工具,进入选项 2.选项窗口左侧找到C#--代码样式,点击 3.找到表达式首选项中:使用属性的表达式主体.使用索引器的表达式主体和使用访问器的表达式 ...
汇编语言实验14 访问CMOS RAM
汇编语言访问CMOS RAM CMOS RAM 是什么? 存放计算机开机必备的一些数据的硬件,由BIOS(Basic input/output system)调用其数据. 怎么用? 首先要理解端口的 ...
Zuul介绍
1. Zuul是什么 Zuul是所有从设备和web站点到Netflix流媒体应用程序后端请求的前门.作为一个边缘服务应用程序,Zuul被构建来支持动态路由.监视.弹性和安全性.它还可以根据需要将请求 ...
solr之环境配置二
安装配置Tomcat 下载Tomcat压缩包我下载的是7.0.55版本. 1.Tomcat 7.0 的免安装版的配置(假如将Tomcat 解压到C:\Program Files目录,目录结构为:C: ...
[linux]为阿里云ECS（CentOS7）配置IPv6地址
环境为:ECS"经典网络"类型步骤: 1. 编辑 /etc/sysctl.conf 文件,将其中三条禁用IPv6的设置更改为: net.ipv6.conf.all.disable ...
模拟实现 DBUtils 工具，技术原理浅析
申明:本文采用自己 C3P0 连接池工具进行测试自定义的 JDBCUtils 可以获取 Connection: package com.test.utils; import java.sql.Con ...
[解决方案]SystemError: Parent module '' not loaded, cannot perform relative import的解决方案
缺陷:__mian__不能使用相对导入 PEP 328 Relative Imports and __name__ 中说明: Relative imports use a module's __nam ...
[解决方案] Ubuntu 16.04 下 Qt 5.6 无法输入中文的问题
0. 环境系统:ubuntu 16.04 LTS 机子:dell xps13 1. 步骤 1.1 编译 fcitx-qt5 源码编译fcitx-qt需要cmake,安装cmake命令,如果已经安装 ...
Linux下Oracle client客户端安装
0.zip格式 (0)下载地址: a.Oracle官网 (1)安装过程: a.将zip文件分别解压到/software/下,放在同一个目录instandclient_11_2/下 b.在/softwa ...

jsoup爬取网站图片

jsoup爬取网站图片的更多相关文章

随机推荐

热门专题