java实现抓取某公司官网新闻

　　做项目时，并没有合作公司的获取新闻的接口，但是项目又急着上线，所以总监就让我来做一个简单的抓取，现将主要的工具类NewsUtil.java贴出来供大家参考。

NewsUtil.java

 package org.news.util;

 import java.io.BufferedReader;

 import java.io.IOException;

 import java.io.InputStream;

 import java.io.InputStreamReader;

 import java.net.URL;

 import java.net.URLConnection;

 import java.util.ArrayList;

 import java.util.regex.Matcher;

 import java.util.regex.Pattern;

 /**

  * 抓取新闻内容的辅助类

  * @author geenkDC

  * @time 2015-07-28 15:15:04

  */

 public class NewsUtil {

     /**

      * 通过提交的URL来抓取出新闻的链接

      * @param url

      * @return

      * @throws Exception

      */

     public static ArrayList<String> findUrlByUrl(String url) throws Exception

     {

         URL url0=new URL(url);

         ArrayList<String> urlList=new ArrayList<String>();

         URLConnection con;

         BufferedReader br=null;

         try {

             con = url0.openConnection();

             InputStream in=con.getInputStream();

             br=new BufferedReader(new InputStreamReader(in));

             String str="";

             while((str=br.readLine())!=null)

             {

                 urlList.addAll(findUrl(str));

             }

         } catch (IOException e) {

             throw new RuntimeException("URL读写错误:"+e.getMessage());

         }

         if(br!=null)

         {

             try {

                 br.close();

             } catch (IOException e) {

                 throw new RuntimeException("URL流关闭异常:"+e.getMessage());

             }

         }

         return urlList;

     }

     /**抓取新闻URL的真正实现类

      * @param str

      * @return

      */

     public static ArrayList<String> findUrl(String str)

     {

         ArrayList<String> urlList=new ArrayList<String>();

         //匹配新闻的URL

         String regex="http://[a-zA-Z0-9_\\.:\\d/?=&%]+\\.jhtml";

         Pattern p=Pattern.compile(regex);

         Matcher m=p.matcher(str);

         //找符合正则匹配的字串

         while(m.find())

         {

             String subStr=m.group().substring(m.group().lastIndexOf("/")+1, m.group().lastIndexOf(".jhtml"));

             try {

                 if (subStr.matches("[0-9]*")) {

                     urlList.add(m.group());

                 }

             } catch (Exception e) {

                 throw new RuntimeException("匹配新闻URL出错:"+e.getMessage());

             }

         }

         return urlList;

     }

     /**

      * 根据URL找到其的新闻内容

      * @param url

      * @return

      * @throws Exception

      */

     public static ArrayList<String> findContentByUrl(String url) throws Exception {

         URL url1=new URL(url);

         ArrayList<String> conList=new ArrayList<String>();

         URLConnection con;

         BufferedReader br=null;

         try {

             con = url1.openConnection();

             InputStream in=con.getInputStream();

             InputStreamReader isr=new InputStreamReader(in, "utf-8");

             br=new BufferedReader(isr);

             String str="";

             StringBuffer sb=new StringBuffer();

             while((str=br.readLine())!=null)

             {

                 sb.append(str);

             }

             conList.addAll(findContent(sb.toString()));

         } catch (IOException e) {

             throw new RuntimeException("URL读写错误:"+e.getMessage());

         }

         if(br!=null)

         {

             try {

                 br.close();

             } catch (IOException e) {

                 throw new RuntimeException("URL流关闭异常:"+e.getMessage());

             }

         }

         return conList;

     }

     /**

      * 抓取新闻内容的真正实现类

      * @param str

      * @return

      */

     public static ArrayList<String> findContent(String str) {

         ArrayList<String> strList=new ArrayList<String>();

         //匹配新闻内容div

         String regex="<div class=\"con_box\">([\\s\\S]*)</div>([\\s\\S]*)<div class=\"left_con\">";

         Pattern p=Pattern.compile(regex);

         Matcher m=p.matcher(str);

         //找符合正则匹配的字串

         while(m.find())

         {

             try {

                 strList.add(new String(m.group()));

             } catch (Exception e) {

                 throw new RuntimeException("抓取新闻内容出错:"+e.getMessage());

             }

         }

         return strList;

     }

 }

功能简单说明：

　　只要输入网站首页的url，程序会自动获取匹配的新闻条目的url,再根据每个新闻条目的url抓取该新闻的左右内容。

java实现抓取某公司官网新闻的更多相关文章

iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
如何使用JAVA语言抓取某个网页中的邮箱地址
现实生活中咱们常常在浏览网页时看到自己需要的信息,但由于信息过于庞大而又不能逐个保存下来. 接下来,咱们就以获取邮箱地址为例,使用java语言抓取网页中的邮箱地址实现思路如下: 1.使用Java.n ...
如何从sun公司官网下载java API文档（转载）
相信很多同人和我一样,想去官网下载一份纯英文的java API文档,可使sun公司的网站让我实在很头疼,很乱,全是英文!所以就在网上下载了别人提供的下载!可是还是不甘心!其实多去看看这些英文的技术网站 ...
java网页抓取
网页抓取就是,我们想要从别人的网站上得到我们想要的,也算是窃取了,有的网站就对这个网页抓取就做了限制,比如百度直接进入正题 //要抓取的网页地址 String urlStr = "http ...
Java数据抓取经验【转载】
本人担任职友集的java工程师五年,其中抓取数据占主要的一部分,抓取的信息只要有两部分,职位和简历,其中职位的抓取量为日均插入量为30万,更新量为60万,抓取全国300多个人才网站.职友集(现在改名 ...
【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）
package 网络编程; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileOutpu ...
java爬虫抓取腾讯漫画评论
package com.eteclab.wodm.utils; import java.io.BufferedWriter; import java.io.File; import java.io.F ...
网络爬虫Java实现抓取网页内容
package 抓取网页; import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream; ...

随机推荐

转：MVC 下导航超链接本页面高亮的一种解决方案
前言导航高亮一直是一个让大家头疼的问题. 纯 Javascript 的话可以判断当前页面的地址和链接地址是否有关系. 这样的弊端就是自由度太低,MVC 下会出一定的问题 (MVC 下有默认的 Con ...
I.MX6 android 设置默认动态桌面
/************************************************************************ * I.MX6 android 设置默认动态桌面 ...
poj 1780 Code
//题目描述:KEY公司开发出一种新的保险箱.要打开保险箱,不需要钥匙,但需要输入一个正确的.由n位数字组成的编码.这种保险箱有几种类型,从给小孩子玩的玩具(2位数字编码)到军用型的保险箱(6位数字编 ...
Nosql释义
NoSQL不是产品,是一项运动 ---->NoSQL(NoSQL = Not Only SQL ),意即反SQL运动,是一项全新的数据库革命性运动,早期就有人提出,发展至2009年 ...
【unity3D】鼠标控制camera的移动、放大（俯视浏览效果、LOL摄像机移动效果）
在Unity开发中,用鼠标滚轮来实现摄像机的视野范围,鼠标左键拖拉控制摄像机的移动,代码如下: 1.俯视浏览效果 using UnityEngine; using System.Collections ...
RubyWin32Api Win32OLE
#ruby提供了多种运行外部程序的方法 #1.%x %x不需要使用引号包含. #2. system方法 #3.exec类似system但是会中断当前的代码执行 #system和exec不能捕获执行程序 ...
link 参数
-all-static do not do any dynamic linking at all -avoid-version do not add a version suffix if possi ...
Android下载速度计算
long startTime = System.currentTimeMillis(); // 开始下载时获取开始时间 long curTime = System.currentTimeMillis( ...
双nginx(主备、主主)反向代理tomcat实现web端负载均衡
经过以前做完的产品,受前公司几位前辈技术大拿指点,来自己动手实现并总结一下web端的负载解决方法,高手请略过,个人认知有限,请各位指正错误. 下面是结构图: 我的系统环境是Fedora22(适用rea ...
Designing Evolvable Web API with ASP.NET 随便读，随便记 “The Internet,the World Wide Web,and HTTP”
1982年,诞生了 Internet; 1989年,诞生了World Wide Web . "World Wide Web"的构造为主要由三部分构成: resources 资源 ...

java实现抓取某公司官网新闻

java实现抓取某公司官网新闻的更多相关文章

随机推荐

热门专题