Java--多线程读取网络图片并保存在本地

本例用到了多线程、时间函数、网络流、文件读写、正则表达式（在读取html内容response时，最好不要用正则表达式来抓捕html文本内容里的特征，因为服务器返回的多个页面的文本内容不一定使用相同的模式），是一个综合性的实例。

package javatest;

import java.io.BufferedReader;

import java.io.ByteArrayOutputStream;

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.URL;

import java.text.SimpleDateFormat;

import java.util.ArrayList;

import java.util.Date;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

class urlTest

{

    public static void main(String[] args) throws IOException

    {

        //String url = "http://www.ik6.com/meinv/10000/index.html";

        String dir = "d:\\result\\201601282";

        int base = 40624;

        // 多线程方法，从网上下载多个图片并保存

        ArrayList<Thread> threads = new ArrayList<Thread>();

        urlTest test=new urlTest();

        int threadCount=1;//开5个线程，用于下载

        int themePerThread=1;

        Date start=new Date();

        System.out.println("threads start..");

        for (int i = 0; i < threadCount; i++)

        {

            Thread t = new Thread(test.new workerThread(dir, base, themePerThread));

            threads.add(t);

            t.start();

            base+=themePerThread;

        }

        for (Thread t : threads)

        {

            try

            {

                t.join();//让主线程等待此子线程执行完毕

            }

            catch (InterruptedException e)

            {

                e.printStackTrace();

            }

        }

        System.out.println("threads complete..");

        Date end=new Date();

        //计算总耗时

        long diff = end.getTime() - start.getTime();

        String info=String.format("it takes %f seconds to run.", diff / 1000.00);

        System.out.println(info);

        //单线程方法

//         for (int themeCount = 0; themeCount < 200; themeCount++)

//         {

//         for (int pageIndex = 1; pageIndex <= 20; pageIndex++)

//         {

//         if (pageIndex==1)

//         {url = String.format(

//         "http://www.ik6.com/meinv/%d/index.html", base

//         + themeCount);

//         }

//         else

//         {

//         url = String.format(

//         "http://www.ik6.com/meinv/%d/index_%d.html", base

//         + themeCount, pageIndex);

//         }

//

//         String data = GetResponseText(url);

//         if (!IsContentPage(data))

//         break;

//         System.out.println(url);

//         ArrayList<String> imgUrls = GetImgUrls(data);

//         for (String imgUrl : imgUrls)

//         {

//         String imageSavedPath = String.format("%s\\%d_%d.jpg", dir,base+

//         themeCount,pageIndex);

//         RetrieveImg2(imgUrl, imageSavedPath);

//         }

//

//         }

//         }

    }

    public class workerThread implements Runnable

    {

        String dir = null;

        int base = 0;

        int themeCount = 0;

        int totalPage=0;

        int totalImg=0;

        public workerThread(String dir, int base, int themeCount)

        {

            this.dir = dir;

            this.base = base;

            this.themeCount = themeCount;

        }

        public void run()

        {

            String url=null;

            int pageNo=0;

            for (int themeIndex = 0; themeIndex < themeCount; themeIndex++)

            {

                for (int pageIndex = 1; pageIndex <= 50; pageIndex++)

                {

                    pageNo=base+ themeIndex;

                    if (pageIndex == 1)

                    {

                        url = String.format("http://www.ik6.com/meinv/%d/index.html", pageNo);

                    }

                    else

                    {

                        url = String.format(

                                "http://www.ik6.com/meinv/%d/index_%d.html",

                                pageNo, pageIndex);

                    }

                    String data = GetResponseText(url);

                    if (!IsContentPage(data))

                        break;

                    ArrayList<String> imgUrls = GetImgUrls(data);

                    for (String imgUrl : imgUrls)

                    {

                        String imageSavedPath = String.format("%s\\%d_%d.jpg",

                                dir, pageNo, pageIndex);

                        RetrieveImg2(imgUrl, imageSavedPath);

                    }

                }

            }

        }

    }

    //日期格式化

    public static String GetTimeString()

    {

        Date dt = new Date();

        SimpleDateFormat df = new SimpleDateFormat("yyyyMMddHHmmss");

        String s = df.format(dt);

        return s;

    }

    //通过特征判断

    public static boolean IsContentPage(String pageContent)

    {

        return pageContent.indexOf("<center>") != -1;

    }

    public static ArrayList<String> GetImgUrls(String srcStr)

    {

        // 利用正则表达式，读取页面中所有图片的url

        // Pattern p1 = Pattern.compile("<center.+\n?.+\n?</center>");

        // Pattern p2 = Pattern.compile("lazysrc=\"http\\:.+\\.jpg\"");

        // Matcher m = p2.matcher(srcStr);

        // ArrayList<String> imgUrls = new ArrayList<String>();

        // while (m.find())

        // {

        // String match = m.group();

        // imgUrls.add(match.substring(match.indexOf("\"")+1,match.lastIndexOf("\"")));

        // }

        // return imgUrls;

        // 仅读取主题图片的url，为何不能匹配center?

        // Pattern p1 = Pattern.compile("<center.+\n*.+\n*</center>");

        // Pattern p2 = Pattern.compile("lazysrc=\"http\\:.+\\.jpg\"");

        // Matcher m = p1.matcher(srcStr);

        // ArrayList<String> imgUrls = new ArrayList<String>();

        // if (m.find())

        // {

        // String matchCenter = m.group();

        // Matcher m2 = p2.matcher(matchCenter);

        // while (m2.find())

        // {

        // String matchImage = m2.group();

        // imgUrls.add(matchImage.substring(matchImage.indexOf("\"") + 1,

        // matchImage.lastIndexOf("\"")));

        // }

        // }

        // return imgUrls;

        // 用字符串的indexOf方法找出所有图片的url

        srcStr = srcStr.substring(srcStr.indexOf("<center"),

                srcStr.indexOf("</center>"));

        // Pattern p2 = Pattern.compile("lazysrc=http\\:.+\\.jpg");

        srcStr = srcStr.substring(srcStr.indexOf("src="));

        srcStr = srcStr.substring(srcStr.indexOf("http"),

                srcStr.indexOf(".jpg") + 4);

        ArrayList<String> imgUrls = new ArrayList<String>();

        imgUrls.add(srcStr);

        return imgUrls;

    }

    //通过url获取html页面

    public static String GetResponseText(String url)

    {

        String response = null;

        try

        {

            URL _url = new URL(url);

            HttpURLConnection urlcon = (HttpURLConnection) _url

                    .openConnection();

            // 获取连接

            InputStream is = urlcon.getInputStream();

            BufferedReader buffer = new BufferedReader(new InputStreamReader(

                    is, "utf-8"));

            StringBuffer sb = new StringBuffer();

            String line = null;

            while ((line = buffer.readLine()) != null)

            {

                sb.append(line).append('\n');

                // System.out.println(l);

            }

            response = sb.toString();

        }

        catch (Exception e)

        {

            e.printStackTrace();

        }

        return response;

    }

    //通过图片的url，获取图片并保存在本地.注意：此法有缺点

    public static void RetrieveImg(String imgURL, String savepath)

    {

        try

        {

            File file = new File(savepath);

            if (file.exists())

            {

                return;

            }

            else

            {

                file.createNewFile();

                URL _url = new URL(imgURL);

                HttpURLConnection urlcon = (HttpURLConnection) _url

                        .openConnection();

                // urlcon.setRequestMethod("GET");

                // 超时响应时间为5秒

                // urlcon.setConnectTimeout(3 * 1000);

                // 获取连接

                InputStream is = urlcon.getInputStream();

                byte[] buffer = new byte[1024];

                FileOutputStream out = new FileOutputStream(file);

                while (is.read(buffer) != -1)

                    ;

                out.write(buffer);// 为何不行

                is.close();

                out.close();

            }

        }

        catch (Exception e)

        {

            e.printStackTrace();

        }

    }

    //通过图片的url，获取图片并保存在本地

    public static void RetrieveImg2(String imgURL, String savepath)

    {

        try

        {

            File file = new File(savepath);

            if (file.exists())

            {

                return;

            }

            else

            {

                file.createNewFile();

                URL _url = new URL(imgURL);

                HttpURLConnection conn = (HttpURLConnection) _url

                        .openConnection();

                conn.setRequestMethod("GET");

                // 超时响应时间为5秒

                conn.setConnectTimeout(5 * 1000);

                // 通过输入流获取图片数据

                InputStream inStream = conn.getInputStream();

                byte[] data = readInputStream(inStream);

                // 写入到新文件当中

                FileOutputStream out = new FileOutputStream(file);

                out.write(data);

                out.close();

            }

        }

        catch (Exception e)

        {

            e.printStackTrace();

        }

    }

    //将输入流的内容写入内存保存起来，以便稍后写入到文件当中

    public static byte[] readInputStream(InputStream inStream) throws Exception

    {

        ByteArrayOutputStream outStream = new ByteArrayOutputStream();

        byte[] buffer = new byte[1024];

        int len = 0;// 关键，否则图片不完整，因为不知道写入多少

        while ((len = inStream.read(buffer)) != -1)

        {

            outStream.write(buffer, 0, len);

        }

        inStream.close();

        // 把outStream里的数据写入内存

        return outStream.toByteArray();

    }

}

Java--多线程读取网络图片并保存在本地的更多相关文章

Python配合BeautifulSoup读取网络图片并保存在本地
本例为Python配合BeautifulSoup读取网络图片,并保存在本地. BeautifulSoup可代替正则表达式,更好地解析Html文本,获取其中的指定内容,如Tag.Property等 # ...
JAVA 通过url下载图片保存到本地
//java 通过url下载图片保存到本地 public static void download(String urlString, int i) throws Exception { // 构造U ...
PHP获取网络图片并保存在本地目录
PHP获取网络图片并保存在本地目录思路: 代码如下: function file_exists_S3($url) { $state = @file_get_contents($url,0,null,0 ...
Python3 获取网络图片并且保存到本地
Python3 获取网络图片并且保存到本地 import requests from bs4 import BeautifulSoup from urllib import request impor ...
Java多线程读取大文件
前言今天是五一假期第一天,按理应该是快乐玩耍的日子,但是作为一个北漂到京师的开发人员,实在难想出去那玩耍.好玩的地方比较远,近处又感觉没意思.于是乎,闲着写篇文章,总结下昨天写的程序吧. 昨天下午朋 ...
java将base64解析图片保存到本地。
将base64解析图片保存到本地的两个方法 /** * base64转图片 * @param base64str base64码 * @param savePath 图片路径 * @return */ ...
Java从网络读取图片并保存至本地
package cn.test.net; import java.io.File; import java.io.FileOutputStream; import java.io.InputStrea ...
JAVA获取网络图片并保存到本地（随机图片接口）
import java.io.ByteArrayOutputStream; import java.io.File; import java.io.FileOutputStream; import j ...
Java 多线程读取文件并统计词频实例出神入化的《ThreadPoolExecutor》
重在展示多线程ThreadPoolExecutor的使用,和线程同步器CountDownLatch,以及相关CAS的原子操作和线程安全的Map/队列. ThreadPool主线程 1 import j ...

随机推荐

jQuery理解之（一）动画与特效
本节主要降级和学习jQuery的自动显隐,渐入渐出.飞入飞出.自定义动画等. 1.显示和隐藏hide()和show() 对于动画来说,显示和隐藏是最基本的效果之一,本节简单介绍jQuery的显示和隐藏 ...
RESTful WebService入门（转）
原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://lavasoft.blog.51cto.com/62575/229206 REST ...
iOS - 视频循环播放
录制完视频后,我们想在录制视频的预览层上无限循环播放我们的小视频,是不是很炫酷,这时候我们就有三中选择了:1.MPMoviePlayerController2.AVPlayer3.AVAssetRea ...
java日期处理总结
Java日期时间使用总结一.Java中的日期概述日期在Java中是一块非常复杂的内容,对于一个日期在不同的语言国别环境中,日期的国际化,日期和时间之间的转换,日期的加减运算,日期的展示格式 ...
xml_MathML的基本知识点__这东西要自己实践最好
1 : <mi> 一般的字符串 2: <mo> 操作字符串 <mo> ( </mo> <mo>∑</mo> 3:<mn&g ...
hdu1358 KMP
求循环节. #include<stdio.h> #include<string.h> #define maxn 1000010 int next[maxn]; char s[m ...
Spring MVC设计模式
MVC开始是存在于桌面程序中的,M是指业务模型,V是指用户界面,C则是控制器使用MVC的目的是将M和V的实现代码分离,从而使同一个程序可以使用不同的表现形式.比如一批统计数据可以分别用柱状图.饼图来 ...
【HTTP劫持和DNS劫持】腾讯的实际业务分析
简单介绍一下HTTP劫持和DNS劫持的概念,也就是运营商通过某些方式篡改了用户正常访问的网页,插入广告或者其他一些杂七杂八的东西. 首先对运营商的劫持行为做一些分析,他们的目的无非 ...
BZOJ-1003 物流运输trans SPFA+DP
傻逼错误耗我1h,没给全范围坑我1A.... 1003: [ZJOI2006]物流运输trans Time Limit: 10 Sec Memory Limit: 162 MB Submit: 529 ...
【长期更新】--神犇的BLOGS（各种高端讲解）
KMP字符串匹配算法: http://kb.cnblogs.com/page/176818/ http://blog.csdn.net/yutianzuijin/article/details/119 ...

Java--多线程读取网络图片并保存在本地

Java--多线程读取网络图片并保存在本地的更多相关文章

随机推荐

热门专题