Java 正则表达式

首先需要了解一些关于网络爬虫的基本知识:

网络爬虫: 所谓的爬虫就是一个应用程序, 这个应用程序会获取网络中的指定信息(网页数据).

例如百度: 启动这个爬虫程序会自动的将一些网页数据获取来存到百度的服务器上提高了搜索效率.

我们搜索的时候 , 其实搜索的不是网络中的内容, 而是百度中的内容, 而百度就将所有的互联网中的数据爬到它的服务器上边供人们搜索.

我们也可以写一个程序去获取网络中的指定资源.

例如: 获取网络中的邮箱(邮件地址), 用来发广告.
网络爬虫: 其实是一个应用程序, 获取网络中的指定信息(符合指定规则的信息). String regex

这个例子中需要用到的 Java 技术有: List 集合 Java 正则表达式 Java IO 流技术 Java 网络编程技术.

代码如下: 这段代码有一段时基于本地文件的, 我在爬网络上的资源时先试验了一下本地的文件.

     案例:  获取 网络中的 邮件 地址.

             // *** 无论是 文件 还是 网络 仅仅是 数据源 变了.

          */

         // *** 从 网页 的 那些 字符串中 去 获取 邮箱. find();

         File file = new File("tempfile\\mail.html");

         String regex = "\\w+@\\w+(\\.\\w+)+";   

         // *** 告诉 去哪里 爬 数据, 按照 什么 规则爬.

         // List<String> list = getMails(file,regex);  // *** 得到的 数据先 存到 集合中, 然后 遍历集合 再 存到 数据库中.

         String str_url = "http://bbs.tianya.cn/post-enterprise-401802-6.shtml";

         List<String> list = getMailsByNet(str_url, regex);

         for(String mail : list) {

             System.out.println("List: "  + mail);  // *** 应该 存到 数据库中.

         }

     }

     // *** 基于 网络.

     public static List<String> getMailsByNet(String str_url, String regex) throws IOException{

         // 1. 将 str_url 封装成 URL 对象, 由它来 帮我们解析.

         List<String> list = new ArrayList<String>();

         URL url = new URL(str_url);

         // 2. 打开连接.

         URLConnection conn = url.openConnection();

         // 3. 获取 读取流.

         InputStream in = conn.getInputStream();

         // *** 将 字节流 转换成 字符流, 加 高效, 一次 读一行, 因为 正则 表达式 只对 字符串 有效.

         BufferedReader bufIn = new BufferedReader(new InputStreamReader(in));

         // 4. 将 正则表达式 编译成 对象.

         Pattern p = Pattern.compile(regex);

         // 5. 读取数据.

         String line = null;

         while((line = bufIn.readLine()) != null) {

             Matcher m = p.matcher(line);

             while(m.find()) {

                 list.add(m.group());

             }

         }

          // *** 关闭资源.

         bufIn.close();

         // *** 返回集合.

         return list;

     }

     // *** 基于 本地文件.

     // *** List 可以 存 重复的, Set 集合 不可以 存重复的.

     public static List<String> getMails(File file, String regex) throws IOException {

         // *** 创建一个 集合 , 存取 爬 到的 邮箱 数据.

         List<String> list = new ArrayList<String>();

         // 1. 读取文件. 加 高效, 一次 读 一行.

         BufferedReader bufr = new BufferedReader( new FileReader(file));

         // 2. 将 正则 规则 编译成 对象.

         Pattern p = Pattern.compile(regex);

         String line = null;

         while((line = bufr.readLine())!=null) {

             Matcher m = p.matcher(line);  // *** 文本 和 正则 对象 关联.

             while(m.find()) { 

                 // System.out.println(m.group());  // *** 先存起来 , 创建 一个  集合.

                 list.add(m.group()); // *** 存到 集合中.

             }

         }

     //    System.out.println(line);

         // *** 一定要 关闭 资源.

         bufr.close();

         // *** 返回 集合.

         return list;

     }

 }

 // *** 疯狂爬 网页的实现,  只要保证 一点, 网址(URL) 一直在 变化, 可以 爬 到 网页中的  超链接 时, 修改 网址 进到 超链接的 网址, 如此下去 ,便是 疯狂爬.  挂一天,  哈哈!!!

 // *** 等 学习了 Javamail 程序 , 自己写 一个 邮件 发送的 程序, 将 爬来的 邮箱 逐个 发广告.

　　感谢毕

Java 正则表达式_网络爬虫的更多相关文章

Python 正则表达式 (python网络爬虫)
昨天 2018 年 01 月 31 日,农历腊月十五日.20:00 左右,152 年一遇的月全食.血月.蓝月将今晚呈现空中,虽然没有看到蓝月亮,血月.月全食也是勉强可以了,还是可以想像一下一瓶蓝月亮洗 ...
Apache Nutch v2.3 发布，Java实现的网络爬虫
http://www.oschina.net/news/59287/apache-nutch-2-3 Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本 ...
Java开发、网络爬虫、自然语言处理、数据挖掘简介
一.java开发 (1) 应用开发,即Java SE开发,不属于java的优势所在,所以市场占有率很低,前途也不被看好. (2) web开发,即Java Web开发,主要是基于自有或第三方成熟框架的系 ...
Java SE之网络爬虫①
一需求描述给一个url,将该url对应网页内的所有的链接查找出来,并补充完整为绝对路径简易版 /** * * @author Zen Johnny * @date 2018年4月29日下午11 ...
java 之webmagic 网络爬虫
webmagic简介: WebMagic是一个简单灵活的Java爬虫框架.你可以快速开发出一个高效.易维护的爬虫. http://webmagic.io/ 准备工作: Maven依赖(我这里用的Mav ...
黑马程序员：Java编程_网络编程
=========== ASP.Net+Android+IOS开发..Net培训.期待与您交流!=========== 网络编程就是两个(或多个)设备(例如计算机)之间的数据传输,更具体的说,网络编程 ...
Java丨jsoup网络爬虫模拟登录思路解析
直奔主题: 本篇文章是给有jsoup抓包基础的人看的...... 今天小编给大家写一篇对于jsoup抓包时需要输入验证码的解决方法之一.大神就绕道,嘿嘿~ 任何抓包的基础都是基于Http协议来进行这个 ...
基于 Java 的开源网络爬虫框架 WebCollector
原文:https://www.oschina.net/p/webcollector
学 Java 网络爬虫，需要哪些基础知识？
说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬 ...

随机推荐

JS基础-作用域
作用域相关问题下面的代码打印什么内容,为什么? // 情况 1 // 情况 2 var b = 10; var c = function b() { b = 20; console.log(b) } ...
201871010119-帖佼佼《面向对象程序设计（java）》第十周学习总结
博文正文开头格式:(2分) 项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.co ...
Elasticsearch系列---初识搜索
概要本篇主要介绍搜索的报文结构含义.搜索超时时间的处理过程,提及了一下多索引搜索和轻量搜索,最后将精确搜索与全文搜索做了简单的对比. 空搜索搜索API最简单的形式是不指定索引和类型的空搜索,它将返 ...
Python 库打包分发、setup.py 编写、混合 C 扩展打包的简易指南（转载）
转载自:http://blog.konghy.cn/2018/04/29/setup-dot-py/ Python 有非常丰富的第三方库可以使用,很多开发者会向 pypi 上提交自己的 Python ...
Sqlite—删除语句(Delete)
SQLite 的 DELETE 语句用于删除表中已有的记录.可以使用带有 WHERE 子句的 DELETE 查询来删除选定行,否则所有的记录都会被删除. SQLite 要清空表记录,只能使用Delet ...
linux 定时备份数据库
说明检查Crontab是否安装若没有需要先安装Crontab定时工具安装定时工具参考(https://www.cnblogs.com/shaohuixia/p/5577738.html) 需要 ...
微软与阿里云合作推出“开放应用模型(OAM)”
英文原文:Announcing the Open Application Model (OAM) 原文标题:微软与阿里云合作推出“开放应用模型(OAM)” 用于 Kubernetes 及更多平台的应用 ...
VS2019 开发Django（六）------Admin中图片上传
导航:VS2019开发Django系列该篇继续完善在Django的管理界面上传图片,因为LazyOrders小程序中菜单需要展示图片,而不是一个文本路径,所以我们还需要继续改造一下. 1)安装pil ...
Hive初步认识，理解Hive（一）
Hive初步认识,理解Hive(一) 用了有一段时间的Hive了,之前一直以为hive是个数据库,类似Mysql.Oracle等数据库一样,其实不然. Hive是实现Hadoop 的MapReduce ...
IT兄弟连 HTML5教程 CSS3属性特效定义省略文本的处理方式
text-overflow属性仅是注解,当文本溢出时是否显示省略标记,并不具备其它的样式属性定义.我们想要实现溢出时产生省略号的效果.还必须定义:强制文本在一行内显示(white-space:nowr ...

Java 正则表达式_网络爬虫

Java 正则表达式_网络爬虫的更多相关文章

随机推荐

热门专题