java 使用正则表达式从网页上提取网站标题

如何从网页上抓取有价值的东西？看懂了下面的程序(非常简单)，想从网页上抓取什么信息(标题、内容、Email、价格等)就能抓取什么信息。

package catchhtml;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.MalformedURLException;

import java.net.URL;

import java.util.ArrayList;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class GetHtmlTitle {

    public GetHtmlTitle(String htmlUrl){

        System.out.println("/n------------开始读取网页(" + htmlUrl + ")-----------");

        String htmlSource = "";

        htmlSource = getHtmlSource(htmlUrl);//获取htmlUrl网址网页的源码

        System.out.println("------------读取网页(" + htmlUrl + ")结束-----------/n");

        System.out.println("------------分析(" + htmlUrl + ")结果如下-----------/n");

        String title = getTitle(htmlSource);

        System.out.println("网站标题： " + title);

    }

    /**

     * 根据网址返回网页的源码

     * @param htmlUrl

     * @return

     */

    public String getHtmlSource(String htmlUrl){

        URL url;

        StringBuffer sb = new StringBuffer();

        try{

            url = new URL(htmlUrl);

            BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream(), "UTF-8"));//读取网页全部内容

            String temp;

            while ((temp = in.readLine()) != null)

            {

                sb.append(temp);

            }

            in.close();

        }catch (MalformedURLException e) {

            System.out.println("你输入的URL格式有问题！请仔细输入");

        }catch (IOException e) {

            e.printStackTrace();

        }

        return sb.toString();

    }

    /**

     * 从html源码(字符串)中去掉标题

     * @param htmlSource

     * @return

     */

    public String getTitle(String htmlSource){

        List<String> list = new ArrayList<String>();

        String title = "";

        //Pattern pa = Pattern.compile("<title>.*?</title>", Pattern.CANON_EQ);也可以

        Pattern pa = Pattern.compile("<title>.*?</title>");//源码中标题正则表达式

        Matcher ma = pa.matcher(htmlSource);

        while (ma.find())//寻找符合el的字串

        {

            list.add(ma.group());//将符合el的字串加入到list中

        }

        for (int i = 0; i < list.size(); i++)

        {

            title = title + list.get(i);

        }

        return outTag(title);

    }

    /**

     * 去掉html源码中的标签

     * @param s

     * @return

     */

    public String outTag(String s)

    {

        return s.replaceAll("<.*?>", "");

    }

    public static void main(String[] args) {

        String htmlUrl = "http://www.157buy.com";

        new GetHtmlTitle(htmlUrl);

    }

}

java 使用正则表达式从网页上提取网站标题的更多相关文章

Java使用正则表达式取网页中的一段内容(以取Js方法为例)
关于正则表达式: 表1.常用的元字符代码说明 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串 ...
【转】Python编程: 多个PDF文件合并以及网页上自动下载PDF文件
1. 多个PDF文件合并1.1 需求描述有时候,我们下载了多个PDF文件, 但希望能把它们合并成一个PDF文件.例如:你下载的数个PDF文件资料或者电子发票,你可以使用python程序合并成一个PDF ...
写Seo网站标题应该注意什么
http://www.wocaoseo.com/thread-11-1-1.html 最近看了群里一些朋友讨论关于网站优化标题应该注意哪些?各种说法五花八门,好的seo优化标题是可以给网站带来不错的流 ...
如何上传网站程序（文件浏览器上传网页、FileZilla上传网站程序）
问题场景: 网页制作完成后,程序需上传至虚拟主机. 注意事项: Windows系统的主机请将全部网页文件直接上传到FTP根目录,即 / . Linux系统的主机请将全部网页文件直接上传到 /htdoc ...
我为开源做贡献，网页正文提取——Html2Article
为什么要做正文提取一般做舆情分析,都会涉及到网页正文内容提取.对于分析而言,有价值的信息是正文部分,大多数情况下,为了便于分析,需要将网页中和正文不相干的部分给剔除.可以说正文提取的好坏,直接影响了 ...
Java与正则表达式
Java与正则表达式标签: Java基础正则正如正则的名字所显示的是描述了一个规则, 通过这个规则去匹配字符串. 学习正则就是学习正则表达式的语法规则正则语法普通字符字母, 数字, 汉字, ...
关于如何在Android、Java等非微软平台上建立高信任的SharePoint应用程序
关于如何在非微软平台上建立高信任的SharePoint应用程序原文 :http://blogs.msdn.com/b/kaevans/archive/2014/07/14/high-trust-sh ...
Java和WebSocket开发网页聊天室
小编心语:咳咳咳,今天又是聊天室,到现在为止小编已经分享了不下两个了,这一次跟之前的又不大相同,这一次是网页聊天室,具体怎么着,还请各位看官往下看~ Java和WebSocket开发网页聊天室一.项 ...
Java 网络爬虫获取网页源代码原理及实现
Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...

随机推荐

java反射温习一下
public class LoveReflect { public static class Demo implements Serializable{ } public static void ma ...
Java简单算法--求100以内素数
package cn.magicdu.algorithm; /** * 打印素数 * * @author xiaoduc * */ public class Prim { public static ...
DEVMODE 结构体
typedef struct _devicemode { TCHAR dmDeviceName[CCHDEVICENAME]; //打印机(显示设备)名称 WORD dmSpecVersion; WO ...
Mysql 冷备份批处理
@Rem Generate today date @echo wscript.echo dateadd("d",0,date)>GetOldDate.vbs @for /f ...
string[] 和 arraylist互转及问题解决
1,String 数组转成 list<String> String[] s={"1","2","3","5" ...
wpf ListBox或ListView等数据控件绑定数据，最简单的方式
在网上很难找最简单的案例,都是一大片,看着都头疼: 试试举一反三,如果把结果赋给DataContext这个属性,那就前台需要绑定ItemsSource="{Binding}",请注 ...
【mysql】【分组】后取每组的top2
DROP TABLE IF EXISTS `tb1`; CREATE TABLE `tb1` ( `id` ) NOT NULL AUTO_INCREMENT, `a` ) DEFAULT NULL, ...
C++ Txt文档写入
void writefile(student *s,int n,string filepath){ ofstream myfile; if(!myfile)//有错误 { exit(1); }else ...
此一生一个纯js的ajax
/** * 得到ajax对象 */ function getajaxHttp() { var xmlHttp; try { // Firefox, Opera 8.0+, Safari xmlHttp ...
Pulltorefresh使用中碰到的问题
第一在使用XScrollView布局是,无法在该布局.xml文件,放置内容布局控件,假如放置了会报错, <com.markmao.pulltorefresh.widget.XScrollVie ...

java 使用正则表达式从网页上提取网站标题

java 使用正则表达式从网页上提取网站标题的更多相关文章

随机推荐

热门专题