Java 抓取网页中的内容【持续更新】

背景：前几天复习Java的时候看到URL类，当时就想写个小程序试试，迫于考试没有动手，今天写了下，感觉还不错

内容1. 抓取网页中的URL

知识点：Java URL+ 正则表达式

 import java.io.BufferedReader;

 import java.io.InputStreamReader;

 import java.net.URL;

 import java.util.regex.Matcher;

 import java.util.regex.Pattern;

 public class URLReader {

     public static void main(String[] args) throws Exception {

         System.out.println("开始！");

         Pattern pattern = Pattern.compile("http(s)?://([\\w-]+\\.)+[\\w-]+(/[\\w- ./?%&=]*)?");

         URL baidu = new URL("http://www.cnblogs.com/A--Q/");

         BufferedReader br = new BufferedReader(new InputStreamReader(baidu.openStream(), "utf-8"));

         String inputLine;

         while ((inputLine = br.readLine()) != null) {

             Matcher matcher = pattern.matcher(inputLine);

             while (matcher.find()) {

                 System.out.println(matcher.group(0));

             }

         }

         br.close();

         System.out.println("程序执行结束！");

     }

 }

效果：

内容2. 抓取网页中的图片

 import java.io.File;

 import java.io.FileOutputStream;

 import java.io.InputStream;

 import java.net.URL;

 import java.net.URLConnection;

 import java.util.ArrayList;

 import java.util.List;

 import java.util.regex.Matcher;

 import java.util.regex.Pattern;

 public class CatchImage {

     private static final String URL = "http://www.cnblogs.com/A--Q/p/5170713.html";

     private static final String ECODING = "UTF-8";

     private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";

     private static final String IMGSRC_REG = "http:\"?(.*?)(\"|>|\\s+)";

     public static void main(String[] args) throws Exception {

         System.out.println("start");

         CatchImage cm = new CatchImage();

         String HTML = cm.getHTML(URL);

         List<String> imgUrl = cm.getImageUrl(HTML);

         List<String> imgSrc = cm.getImageSrc(imgUrl);

         cm.Download(imgSrc);

         System.out.println("END");

     }

     private String getHTML(String url) throws Exception {

         URL uri = new URL(url);

         URLConnection connection = uri.openConnection();

         InputStream in = connection.getInputStream();

         byte[] buf = new byte[1024];

         int length = 0;

         StringBuffer sb = new StringBuffer();

         while ((length = in.read(buf, 0, buf.length)) > 0) {

             sb.append(new String(buf, ECODING));

         }

         in.close();

         return sb.toString();

     }

     private List<String> getImageUrl(String HTML) {

         Matcher matcher = Pattern.compile(IMGURL_REG).matcher(HTML);

         List<String> listImgUrl = new ArrayList<String>();

         while (matcher.find()) {

             listImgUrl.add(matcher.group());

         }

         return listImgUrl;

     }

     private List<String> getImageSrc(List<String> listImageUrl) {

         List<String> listImgSrc = new ArrayList<String>();

         for (String image : listImageUrl) {

             Matcher matcher = Pattern.compile(IMGSRC_REG).matcher(image);

             while (matcher.find()) {

                 listImgSrc.add(matcher.group().substring(0, matcher.group().length() - 1));

             }

         }

         return listImgSrc;

     }

     private void Download(List<String> listImgSrc) {

         try {

             for (String url : listImgSrc) {

                 String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());

                 URL uri = new URL(url);

                 InputStream in = uri.openStream();

                 FileOutputStream fo = new FileOutputStream(new File(imageName));

                 byte[] buf = new byte[1024];

                 int length = 0;

                 System.out.println("开始下载:" + url);

                 while ((length = in.read(buf, 0, buf.length)) != -1) {

                     fo.write(buf, 0, length);

                 }

                 in.close();

                 fo.close();

                 System.out.println(imageName + "下载完成");

             }

         } catch (Exception e) {

             System.out.println("下载失败");

         }

     }

 }

Java 抓取网页中的内容【持续更新】的更多相关文章

php抓取网页中的内容
以下就是几种常用的用php抓取网页中的内容的方法.1.file_get_contentsPHP代码代码如下:>>>>>>>>>>>&g ...
走过路过不要错过~教你用java抓取网页中你想要的东东~~
学习了正则之后,打算用java玩一玩,所以就决定用它来实现一个好玩的idea import java.io.BufferedReader; import java.io.IOException; im ...
java抓取网页数据，登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一 ...
Java抓取网页数据（原网页+Javascript返回数据）
有时候由于种种原因,我们需要采集某个网站的数据,但由于不同网站对数据的显示方式略有不同! 本文就用Java给大家演示如何抓取网站的数据:(1)抓取原网页数据:(2)抓取网页Javascript返回的数 ...
Java抓取网页数据（原来的页面+Javascript返回数据）
转载请注明出处! 原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006 有时候因为种种原因,我们须要採集某个站点的数据,但因为不同 ...
浅谈如何使用python抓取网页中的动态数据
我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到 ...
Python抓取网页中的图片到本地
今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: #!/usr/bin/env python # -*- coding:utf- -*- # Author: xixihuang # ...
python 解决抓取网页中的中文显示乱码问题
关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换.还包括一些如日文.韩文 .俄文.藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明. 网络爬虫出现乱码的原因源网页编码和爬取下来 ...
java 抓取网页图片
import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.io.Out ...

随机推荐

hadoop-2.7.1伪分布环境搭建
1.准备Linux环境 1.0 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet i ...
【msql】关于redo 和 undo log
InnoDB 有两块非常重要的日志,一个是undo log,另外一个是redo log,前者用来保证事务的原子性以及InnoDB的MVCC,后者用来保证事务的持久性.和大多数关系型数据库一样,Inno ...
ubuntu系统安装初始化脚本
ubuntu系统安装初始化脚本经常安装卸载ubuntu,每次系统安装完成后要安装好多软件,一个个命令输很麻烦浪费时间,一个sh文件全搞定! 1. flashplayer下载:点击这里 2. Auda ...
[No0000A1]人体排毒时间表，别再信了
经常可以看到有「人体排毒时间表」这样的说法,不同的媒体反复传播,大同小异.这些说法里,大多把人体的系统器官都给安排了一个特定的时段,认为在某时段是某器官的排毒时间,睡觉能排一切毒.事实上果真如此么?让 ...
js中typeOf用法
JS中的变量是松散类型(即弱类型)的,可以用来保存任何类型的数据. typeof 可以用来检测给定变量的数据类型,可能的返回值:1. 'undefined' --- 这个值未定义: 2. 'boole ...
搭建一套自己实用的.net架构(3)【ORM-Dapper+DapperExtensions】
现在成熟的ORM比比皆是,这里只介绍Dapper的使用(最起码我在使用它,已经运用到项目中,小伙伴们反馈还可以). 优点: 1.开源.轻量.小巧.上手容易. 2.支持的数据库还蛮多的, Mysql,S ...
[LeetCode] Paint Fence 粉刷篱笆
There is a fence with n posts, each post can be painted with one of the k colors. You have to paint ...
[LeetCode] Number of Digit One 数字1的个数
Given an integer n, count the total number of digit 1 appearing in all non-negative integers less th ...
C#工程引用自定义目录的DLL
在App.config里配置: <configuration> <runtime> <assemblyBinding xmlns="urn:schemas-mi ...
《UNIX环境高级编程》笔记——2.标准和实现
随着UNIX各种衍生版本不断发展壮大,标准化工作就十分必要.其实干啥事都是这样,玩的人多了,必须进行标准化. 一.UNIX标准 1.1 ISO C(ANSI C) ANSI:Amerocan Nato ...

Java 抓取网页中的内容【持续更新】

Java 抓取网页中的内容【持续更新】的更多相关文章

随机推荐

热门专题