简单的Java网络爬虫（获取一个网页中的邮箱）

 import java.io.BufferedReader;

 import java.io.FileNotFoundException;

 import java.io.FileReader;

 import java.io.IOException;

 import java.io.InputStreamReader;

 import java.net.URL;

 import java.util.ArrayList;

 import java.util.List;

 import java.util.regex.Matcher;

 import java.util.regex.Pattern;

 import java.io.*;

 public class SpiderTest {

     public static void main(String[] args) throws IOException {

         // TODO 自动生成的方法存根

         List<String> list =Search();

    for(String mail:list)

    {

        System.out.println(mail);

    }

     }

  public static List<String> Search() throws IOException{

         @SuppressWarnings("resource")

       //要抓取的网页

         URL url =new URL("http://tieba.baidu.com/p/2314539885");

       //获取网页html文件中的信息

         BufferedReader buf=new BufferedReader(new InputStreamReader(url.openStream()));

       //创建一个list来保存数据

         List<String> list =new ArrayList<String>();

       //使用正则表达式来匹配邮箱

        String main_regex="\\w+@\\w+(\\.\\w+)+";

         Pattern p= Pattern.compile(main_regex);

        String line=null;

        while((line=buf.readLine())!=null)

        {

            Matcher m=p.matcher(line);

            while(m.find()){

                list.add(m.group());

            }

        }

      return list;

  }

 }

一个简单的网络爬虫基本上有这几步：

获取网页中的数据
匹配符合正则表达式的数据，将数据加入List
将数据输出到文件中或打印输出

我写的这个爬虫是来抓取百度贴吧里留邮箱的一个页面中的所有的邮箱。（图片没打码不知道会不会有侵犯隐私的嫌疑）

简单的Java网络爬虫（获取一个网页中的邮箱）的更多相关文章

Java 网络爬虫获取网页源代码原理及实现
Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...
Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接，并下载这些URL链接的源代码
通过正则表达式来获取一个网页中的所有的 URL链接,并下载这些 URL链接的源代码使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 ...
Java 网络爬虫获取页面源代码
原博文:http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971893.html 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网 ...
如何使用JAVA语言抓取某个网页中的邮箱地址
现实生活中咱们常常在浏览网页时看到自己需要的信息,但由于信息过于庞大而又不能逐个保存下来. 接下来,咱们就以获取邮箱地址为例,使用java语言抓取网页中的邮箱地址实现思路如下: 1.使用Java.n ...
Java中利用正则表达式获取一个网页中的所有邮箱地址
package cn.tms.ui; import java.io.BufferedReader; import java.io.File; import java.io.FileWriter; im ...
java网络爬虫----------简单抓取慕课网首页数据
© 版权声明:本文为博主原创文章,转载请注明出处一.分析 1.目标:抓取慕课网首页推荐课程的名称和描述信息 2.分析:浏览器F12分析得到,推荐课程的名称都放在class="course- ...
Java 网络爬虫，就是这么的简单
这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看学 Java 网络爬虫,需要哪些基础知识.第一篇是关于 Java 网络爬虫入门内容,在该篇中我们以采集虎扑 ...
学 Java 网络爬虫，需要哪些基础知识？
说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬 ...
java网络爬虫基础学习（一）
刚开始接触java爬虫,在这里是搜索网上做一些理论知识的总结主要参考文章:gitchat 的java 网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好. 一.爬虫介绍网络爬虫是一个自动提 ...

随机推荐

window 发布已编译好的ASP文件到IIS
1.进入window 7的控制面板,点击程序,选择程序和功能中的打开或关闭Windows功能.安装IIS
tomcat------->简单配置
主机名:www.snowing.com 域名:snowing.com http://主机+服务器端口号/path(web应用)/xxx.html 例: http://localhost:8080/it ...
Netty处理TCP拆包、粘包
Netty实践(二):TCP拆包.粘包问题-学海无涯心境无限-51CTO博客 http://blog.51cto.com/zhangfengzhe/1890577 2017-01-09 21:56: ...
Object-Detection中常用的概念解析
常用的Region Proposal Selective Search Edge Boxes Softmax-loss softmax-loss层和softmax层计算大致是相同的,softmax是一 ...
005-maven坐标和依赖
1.何为Maven坐标 groupId.artifactId.version.packaging.classifier 中央仓库:http://repol.maven.org/maven22.坐标详解 ...
nodejs waterfall的使用
waterfall(tasks, [callback]) (多个函数依次执行,且前一个的输出为后一个的输入) 按顺序依次执行多个函数.每一个函数产生的值,都将传给下一个函数.如果中途出错,后面的函数将 ...
sql 区分大小写
sql server默认是不区分大小写的. 要查看sqlserver数据库是否区分大小写,我么可以查看系统存储过程sys.sp_server_info exec sys.sp_server_info ...
使用python操作文件实现购物车程序
使用python操作文件实现购物车程序题目要求如下: 实现思路始终维护一张字典,该字典里保存有用户账号密码,购物车记录等信息.在程序开始的时候读进来,程序结束的时候写回文件里去.在登录注册的部分, ...
linux mysql备份
许多备份方案: http://blog.jobbole.com/14012/ 采用的: mysqldump ---user admin ---password=password mydatabase ...
Zen Cart屏蔽中文语言浏览器
在根目录下的index.php前面加上以下这段代码即可: if(preg_match("/zh-cn/is",$_SERVER['HTTP_ACCEPT_LANGUAGE'])){ ...

简单的Java网络爬虫（获取一个网页中的邮箱）

简单的Java网络爬虫（获取一个网页中的邮箱）的更多相关文章

随机推荐

热门专题