【搜索引擎Jediael开发4】V0.01完整代码

lujinhong 2024-08-29 12:02:44 原文

截止目前，已完成如下功能：

1、指定某个地址，使用HttpClient下载该网页至本地文件

2、使用HtmlParser解释第1步下载的网页，抽取其中包含的链接信息

3、下载第2步的所有链接指向的网页至本地文件

下一步需要完成的功能：

1、创建用于保存种子URL的配置文件及其数据结构

2、创建用于保存Todo信息（未下载URL）的数据结构

3、创建用于保存Visited信息（已下载的URL）的数据结构

4、下载网页时同步更新Tode与Visited。

5、从上述第3步下载的网页抽取链接并继续下载，直到Todo列表为空。

主要有以下类：

1、主类MyCrawler

2、网页下载类PageDownloader

3、网页内容分类类HtmlParserTool

4、接口Filter

完整代码可见归档代码 Jediael_v0.01

或者

https://code.csdn.net/jediael_lu/daopattern/tree/d196da609baa59ef08176322ca61928fbfbdf813

或者

http://download.csdn.net/download/jediael_lu/7382011

1、主类MyCrawler

package org.ljh.search;

import java.io.IOException;

import java.util.Iterator;

import java.util.Set;

import org.htmlparser.Parser;

import org.ljh.search.downloadpage.PageDownloader;

import org.ljh.search.html.HtmlParserTool;

import org.ljh.search.html.LinkFilter;

public class MyCrawler {	

	public static void main(String[] args) {

		String url = "http://www.baidu.com";

		LinkFilter linkFilter = new LinkFilter(){

			@Override

			public boolean accept(String url) {

				if(url.contains("baidu")){

					return true;

				}else{

					return false;

				}

			}

		};

		try {

			PageDownloader.downloadPageByGetMethod(url);

			Set<String> urlSet = HtmlParserTool.extractLinks(url, linkFilter);

			Iterator iterator = urlSet.iterator();

			while(iterator.hasNext()){

				PageDownloader.downloadPageByGetMethod((String) iterator.next());

			}

		} catch (Exception e) {

			e.printStackTrace();

		}

	}

}

2、网页下载类PageDownloader

package org.ljh.search.downloadpage;

import java.io.FileNotFoundException;

import java.io.IOException;

import java.io.InputStream;

import java.io.PrintWriter;

import java.io.Writer;

import java.util.Scanner;

import org.apache.http.HttpEntity;

import org.apache.http.HttpStatus;

import org.apache.http.client.ClientProtocolException;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

//本类用于将指定url对应的网页下载至本地一个文件。

public class PageDownloader {

	public static void downloadPageByGetMethod(String url) throws IOException {

		// 1、通过HttpGet获取到response对象

		CloseableHttpClient httpClient = HttpClients.createDefault();

		// 注意，必需要加上http://的前缀，否则会报：Target host is null异常。

		HttpGet httpGet = new HttpGet(url);

		CloseableHttpResponse response = httpClient.execute(httpGet);

		InputStream is = null;

		if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {

			try {

				// 2、获取response的entity。

				HttpEntity entity = response.getEntity();

				// 3、获取到InputStream对象，并对内容进行处理

				is = entity.getContent();

				String fileName = getFileName(url);

				saveToFile("D:\\tmp\\", fileName, is);

			} catch (ClientProtocolException e) {

				e.printStackTrace();

			} finally {

				if (is != null) {

					is.close();

				}

				if (response != null) {

					response.close();

				}

			}

		}

	}

	//将输入流中的内容输出到path指定的路径，fileName指定的文件名

	private static void saveToFile(String path, String fileName, InputStream is) {

		Scanner sc = new Scanner(is);

		Writer os = null;

		try {

			os = new PrintWriter(path + fileName);

			while (sc.hasNext()) {

				os.write(sc.nextLine());

			}

		} catch (FileNotFoundException e) {

			e.printStackTrace();

		} catch (IOException e) {

			e.printStackTrace();

		} finally {

			if (sc != null) {

				sc.close();

			}

			if (os != null) {

				try{

				os.flush();

				os.close();

				}catch(IOException e){

					e.printStackTrace();

					System.out.println("输出流关闭失败！");

				}

			}

		}

	}

	// 将url中的特殊字符用下划线代替

	private static String getFileName(String url) {

		url = url.substring(7);

		String fileName = url.replaceAll("[\\?:*|<>\"/]", "_") + ".html";

		return fileName;

	}

}

3、网页内容分类类HtmlParserTool

package org.ljh.search.html;

import java.util.HashSet;

import java.util.Set;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters.NodeClassFilter;

import org.htmlparser.filters.OrFilter;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;

//本类创建用于HTML文件解释工具

public class HtmlParserTool {

	// 本方法用于提取某个html文档中内嵌的链接

	public static Set<String> extractLinks(String url, LinkFilter filter) {

		Set<String> links = new HashSet<String>();

		try {

			// 1、构造一个Parser，并设置相关的属性

			Parser parser = new Parser(url);

			parser.setEncoding("gb2312");

			// 2.1、自定义一个Filter，用于过滤<Frame >标签，然后取得标签中的src属性值

			NodeFilter frameNodeFilter = new NodeFilter() {

				@Override

				public boolean accept(Node node) {

					if (node.getText().startsWith("frame src=")) {

						return true;

					} else {

						return false;

					}

				}

			};

			//2.2、创建第二个Filter，过滤<a>标签

			NodeFilter aNodeFilter = new NodeClassFilter(LinkTag.class);

			//2.3、净土上述2个Filter形成一个组合逻辑Filter。

			OrFilter linkFilter = new OrFilter(frameNodeFilter, aNodeFilter);

			//3、使用parser根据filter来取得所有符合条件的节点

			NodeList nodeList = parser.extractAllNodesThatMatch(linkFilter);

			//4、对取得的Node进行处理

			for(int i = 0; i<nodeList.size();i++){

				Node node = nodeList.elementAt(i);

				String linkURL = "";

				//如果链接类型为<a />

				if(node instanceof LinkTag){

					LinkTag link = (LinkTag)node;

					linkURL= link.getLink();

				}else{

					//如果类型为<frame />

					String nodeText = node.getText();

					int beginPosition = nodeText.indexOf("src=");

					nodeText = nodeText.substring(beginPosition);

					int endPosition = nodeText.indexOf(" ");

					if(endPosition == -1){

						endPosition = nodeText.indexOf(">");

					}

					linkURL = nodeText.substring(5, endPosition - 1);

				}

				//判断是否属于本次搜索范围的url

				if(filter.accept(linkURL)){

					links.add(linkURL);

				}

			}

		} catch (ParserException e) {

			e.printStackTrace();

		}

		return links;

	}

}

4、接口Filter

package org.ljh.search.html;

//本接口所定义的过滤器，用于判断url是否属于本次搜索范围。

public interface LinkFilter {

	public boolean accept(String url);

}

【搜索引擎Jediael开发4】V0.01完整代码的更多相关文章

【搜索引擎Jediael开发4】V0.01完整代码分类： H_HISTORY 2014-05-21 21:35 470人阅读评论(0) 收藏
截止目前,已完成如下功能: 1.指定某个地址,使用HttpClient下载该网页至本地文件 2.使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息 3.下载第2步的所有链接指向的网页 ...
【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
详细可参考 (1)书箱:<这就是搜索引擎><自己动手写网络爬虫><解密搜索引擎打桩实践> (2)[搜索引擎基础知识1]搜索引擎的技术架构 (3)[搜索引擎基础知识2 ...
【搜索引擎Jediael开发笔记】v0.1完整代码
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记】v0.1完整代码 2014-05-26 15:17 463人阅读评论(0) 收藏
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记】V0.1完整代码 2014-05-26 15:16 443人阅读评论(0) 收藏
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
关于HtmpParser的基本内容请见 HtmlParser基础教程本文示例用于提取HTML文件中的链接 package org.ljh.search.html; import java.util. ...
【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件
本文使用HttpClient根据url进行网页下载.其中 (1)HttpClient的相关知识请参见HttpClient基础教程 (2) package org.ljh.search.download ...
VM架构设计文档初稿v0.01
VM架构设计文档初稿v0.01 文档介绍本文档是经过讨论,作为VM新架构设计开发中的重要依据.对该架构的整个系统的结构进行详实细致的描述.阐述框架结构,说明该架构所采取的设计策略和所有技术,并对相关 ...
【5】TensorFlow光速入门-图片分类完整代码
本文地址:https://www.cnblogs.com/tujia/p/13862364.html 系列文章: [0]TensorFlow光速入门-序 [1]TensorFlow光速入门-tenso ...

随机推荐

POJ2533：Longest Ordered Subsequence(LIS)
Description A numeric sequence of ai is ordered if a1 < a2 < ... < aN. Let the subsequence ...
js常用设计模式
组合使用构造函数模式和原型模式.其中,构造函数模式用于定义实例属性,而原型模式用于定义方法和共享属性. 例子: <script> function Person(name,age,job) ...
WAMPSERVER2.2 无法启动的解决！
转: PHP版本:5.3.10 XDEBG插件:php_xdebug-2.1.2-5.3-vc9.dll WAMPServer2.2用的是VC9编译的,并且需要VC9运行库支持. 此问题解决方法: 下 ...
Laravel 实现 Facades 功能
使用过Laravel的同学都知道Facades 的强大,下面就让我们一起创建一个Facades 实例.如有不正确的地方,还请不吝赐教. 1. 实现Laravel的自动加载功能首先建立目录app/li ...
socket.setNoDelay([noDelay]) 用的是Nagle算法
Nagle算法是以他的发明人John Nagle的名字命名的,它用于自动连接许多的小缓冲器消息:这一过程(称为nagling)通过减少必须发送包的个数来增加网络软件系统的效率.Nagle算法于1984 ...
ubuntu下安装fiddler
因为工作中需要用到fiddler工具现在工作环境迁移到ubuntu14 下发现fiddler只支持windows网上也有很多推荐号称可以代替fiddler 但因为功能使用上比较习惯并 ...
IOS开发UI篇-NavigationController的基本使用
一.简介一个iOS的app很少只由一个控制器组成,除非这个app极其简单当app中有多个控制器的时候,我们就需要对这些控制器进行管理有多个view时,可以用一个大的view去管理1个或者多个小v ...
USB系列之六：基于DOSUSB的简单U盘驱动程序
首先要说明的是,该驱动程序仅实现了部分块设备的功能,如果作为成品软件使用,会感觉性能比较差,而且有些功能(比如FORMAT)是不能完成的,发表此驱动程序的目的旨在说明USB的编程原理以及DOS下驱动程 ...
web service c# 互调 java （转）
一:简介本文介绍了Java与.NET开发的Web Services相互调用的技术.本文包括两个部分,第一部分介绍了如何用.NET做客户端调用Java写的Web Services,第二部分介绍了如何用 ...
UVA_Rotation Game<旋转游戏> UVA 1343
The rotation game uses a # shaped board, which can hold 24 pieces of square blocks (see Fig.1). The ...