截止目前,已完成如下功能: 1.指定某个地址,使用HttpClient下载该网页至本地文件 2.使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息 3.下载第2步的所有链接指向的网页至本地文件 下一步需要完成的功能: 1.创建用于保存种子URL的配置文件及其数据结构 2.创建用于保存Todo信息(未下载URL)的数据结构 3.创建用于保存Visited信息(已下载的URL)的数据结构 4.下载网页时同步更新Tode与Visited. 5.从上述第3步下载的网页抽取链接并继续下载…
截止目前,已完成如下功能: 1.指定某个地址,使用HttpClient下载该网页至本地文件 2.使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息 3.下载第2步的所有链接指向的网页至本地文件 下一步需要完成的功能: 1.创建用于保存种子URL的配置文件及其数据结构 2.创建用于保存Todo信息(未下载URL)的数据结构 3.创建用于保存Visited信息(已下载的URL)的数据结构 4.下载网页时同步更新Tode与Visited. 5.从上述第3步下载的网页抽取链接并继续下载…
详细可参考 (1)书箱:<这就是搜索引擎><自己动手写网络爬虫><解密搜索引擎打桩实践> (2)[搜索引擎基础知识1]搜索引擎的技术架构 (3)[搜索引擎基础知识2]网络爬虫的介绍 (一)搜索引擎的开发一般可分为以下三大部分 1.数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi 2.数据分析处理层:将从互联网上获取到的数据进行提取归类.分词.语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene 3.视图层:也用户的交互界面,如…
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码 或 https://code.csdn.net/jediael_lu/jediael/tree/10991c839c51d32f825708b09451b2618a20ee94 或 http://download.csdn.net/detail/jediael_lu/7402827 本版本完成以下功能: (1)创建用于保存种子URL的配置文件及其数据结构 (2)创建用于保存Todo信息(未下载URL)的数据结…
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码 或 https://code.csdn.net/jediael_lu/jediael/tree/10991c839c51d32f825708b09451b2618a20ee94 或 http://download.csdn.net/detail/jediael_lu/7402827   本版本完成以下功能:   (1)创建用于保存种子URL的配置文件及其数据结构 (2)创建用于保存Todo信息(未下载URL)…
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码 或 https://code.csdn.net/jediael_lu/jediael/tree/10991c839c51d32f825708b09451b2618a20ee94 或 http://download.csdn.net/detail/jediael_lu/7402827   本版本完成以下功能:   (1)创建用于保存种子URL的配置文件及其数据结构 (2)创建用于保存Todo信息(未下载URL)…
关于HtmpParser的基本内容请见 HtmlParser基础教程 本文示例用于提取HTML文件中的链接 package org.ljh.search.html; import java.util.HashSet; import java.util.Set; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filte…
本文使用HttpClient根据url进行网页下载.其中 (1)HttpClient的相关知识请参见HttpClient基础教程 (2) package org.ljh.search.downloadpage; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import java.io.PrintWriter; import java.io.Writer;…
VM架构设计文档初稿v0.01 文档介绍 本文档是经过讨论,作为VM新架构设计开发中的重要依据.对该架构的整个系统的结构进行详实细致的描述.阐述框架结构,说明该架构所采取的设计策略和所有技术,并对相关内容作出统一的约定.为设计,编码,测试提供可以参考的模板和帮助.提高设计变更开发的效率,将头脑风暴的结果进行的具体的书面呈现. 架构设计思想 该架构VM以微服务思想为核心进行衍化,兼容DevOps作为主要基础,并使用DDD领域驱动设计思想作为设计过程中的指导思想及方法论. 架构体系描述 以分层体系作…
本文地址:https://www.cnblogs.com/tujia/p/13862364.html 系列文章: [0]TensorFlow光速入门-序 [1]TensorFlow光速入门-tensorflow开发基本流程 [2]TensorFlow光速入门-数据预处理(得到数据集) [3]TensorFlow光速入门-训练及评估 [4]TensorFlow光速入门-保存模型及加载模型并使用 [5]TensorFlow光速入门-图片分类完整代码 [6]TensorFlow光速入门-python模…