最近,因为未来工作的需要,我尝试安装部署了分布式爬虫系统Nutch,并配置了伪分布式的Hadoop来存储爬取的网页结果,用solr来对爬下来的网页进行搜索.我主要通过参考网上的相关资料进行安装部署的.但网上的资料很多比较乱,我也走了一些弯路.下面将我的安装过程记录下来,供大家参考.不足之处,请大家批评指正.环境:操作系统是Ubuntu10.04,jdk是openjdk-7-jdk. 一.安装nutch1.6    我曾直接下载部署nutch1.6的二进制文件,虽然可以成功爬取网页,但用solr来…
因为课业要求,搭建一个简单的搜索引擎,找了一些相关资料并进行了部分优化(坑有点多) 一.数据 数据是网络上爬取的旅游相关的攻略页面 这个是travels表,在索引中主要用到id和url两个字段. 页面中文文章内容的爬取用了newspaper3k这个包(如果页面里面文章字数过多,需要设置一下超时时间,不然会报错) def article(url): try: a=Article(url,language="zh") a.download() a.parse() return a.text…
本文我们来用 TensorFlow 来实现一个深度学习模型,用来实现验证码识别的过程,这里识别的验证码是图形验证码,首先我们会用标注好的数据来训练一个模型,然后再用模型来实现这个验证码的识别. 1.验证码准备 这里我们使用 python 的 captcha 库来生成即可,这个库默认是没有安装的,所以这里我们需要先安装这个库,另外我们还需要安装 pillow 库 安装好之后,我们就可以用如下代码来生成一个简单的图形验证码 可以看到图中的文字正是我们所定义的内容,这样我们就可以得到一张图片和其对应的…
首先安装hexo mkdir hexo #创建一个文件夹 cd hexo #切换到hexo目录下面 npm install -g hexo-cli npm install hexo --save 然后部署hexo,在git shell中输入 hexo init hexo_em1 此时初始化了一个文件夹hexo_em1,会自动生成一些基础文件和目录 然后 npm install 安装hexo一些必要的组件,接下来文件夹目录 ├── _config.yml 站点配置文件,很多全局配置都在这个文件中…
1:新建项目后 2:Flask web 项目重要的就是app 所有每个都需要app app=Flask(__name__)   3:Flask 的路径是有app.route('path')装饰决定, 区别于django 将@app.route('path') 装饰在函数上即可由路径访问到函数 @app.route('/') def index(): return 'xxxx' 4:启动web 在启动的py文件中运行 if __name__ == '__main__': app.run() pyt…
一.系统的启动(各历史节点) 在最开始的时候,计算机的启动实际上依靠一段二进制码,可以这么理解,他并不是一个真正的计算机启动一道程序.计算机在开始加电的时候几乎是没有任何用处的,因为RAM芯片中包括的都是一些没有意义的随机数据,此时没有操作系统在运行.在开始启动的时候,一个特殊的硬件电路在CPU的引脚上产生一个RESET复位信号,就是那个复位信号,就好比我们重启老式电子词典时候后面那个小按键要用到笔芯去按一下.在这个信号产生之后,就会把处理器的一些寄存器设置成固定的值,并执行物理地址0xffff…
基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎 网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项.由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索. 搜 索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩.高可用.对大量信息的索引与搜索都可以在近 乎实时…
本文简单地记录了发布一个简单npm包的过程,以便后续参考使用. 初始化npm init 通过npm init创建一个package.json文件 D:\robin\lib\weapp-utils>npm init This utility will walk you through creating a package.json file. It only covers the most common items, and tries to guess sensible defaults. Se…
我把代码和爬好的数据放在了git上,欢迎大家来参考 https://github.com/linyi0604/linyiSearcher 我是在 manjaro linux下做的, 使用python3 语言, 爬虫部分涉及到 安装ChromeDriver 可以参考我之前写的博文. 建立索引部分参考: https://baijiahao.baidu.com/s?id=1597426056496128414&wfr=spider&for=pc 检索过程,衡量文档相似度使用了余弦相似度,参考:h…
距离之前的三篇日志已经很久啦,今天终于完成了一个比较完整的自动化报表搭建过程 基于公司数据保密原则,样板就不放到网上来了,简单说一下背景: 这次access实现的功能包括: 1)为部门整体搭建了一个员工基本资料数据库,里面包括从各个系统里获得的员工信息,如Zhang San,一个系统里叫San Zhang,一个系统叫sazhang,一个系统叫sun Zhang.这些信息汇总后,存在部门共享盘里,包括此次的Access,都是直接链接到这个总access表里,这样,有新员工来的时候,只需要更新一个a…