【Alpha版本发布】爬虫队长正在待命!
一、基础功能简介
本团队的爬虫能够从网上搜索相关内容, 并归类,把所爬到的网页或各种类型的文档下载到本地上。
上届团队Beta版本爬虫的主要功能如下:
a)可爬取网页,问答页并进行问答文件分类。
b)设计了一个较为完善的UI界面,可显示爬取的进度:
c) 声称能够专门爬取pdf,ppt,doc等文档。
d) 能够对爬取的结果进行分析。
二、更新内容
1.新增功能
1.1 新添了用户自定义关键词的分类功能:
其中腾讯、百度等分类关键词皆由用户自定义设置。
1.2 真正实现了pdf,ppt,doc等文档文件的专门爬取:
以爬取pdf为例。上届团队的pdf爬取仅仅是对种子网页的pdf进行爬取,其实就是单纯的单次扫描种子页面,没有真正体现爬虫的功能。我们对此进行了极大的升级,专门爬取pdf功能和网页爬取类似,能够进行多级链接的深层pdf爬取,存在专门的pdf文件夹中。升级后的功能爬取效率更高,数目更大。
1.3 UI界面的升级:
a) 考虑到我们的爬虫需要能够同时为多个用户服务,我们为爬虫设置了一个连接到数据库的验证界面。这样我们通过不同服务器的验证方式就可以连接上不同的数据库,而不是仅为单一服务器进行爬取了。如果没输入验证就点击确认,就会出现如下情况:
b) 考虑到界面的简洁与使用性,我们把爬取进度显示表和基础设置分开。在没有开始爬取时仅显示基础设置界面,开始爬取后自动显示爬取进度界面。除此以外,我们还对界面的按钮进行了重新排版,使之更符合大多数人的使用习惯。
1.4搭建了一个全新的数据库,对数据库的相关操作进行了优化,提高爬取效率。
2.bug修复
2.1 修复了一个多线程Bug,该Bug会导致爬取的网页数超出用户所要求的网页数。
解决前:
解决后:
2.2 修复了一个Bug,该Bug会导致只要网址中出现pdf字符串就判断当前页为pdf类型。
2.3 修复了一个Bug,该Bug会导致文档专门性爬取无法开始。
2.4 修复了一个Bug,该Bug会导致用户选择通用爬取时爬虫只识别html和pdf型文件。
3.相关优化
3.1 优化了对数据库数据的统计操作,使得Analyze响应时间更快。
3.2 优化了进行爬取时对进度显示以及对数据库操作的方法,使得单位时间爬取的网页数目更多(详情见测试报告)。
3.3 优化了爬取方式,把网页、pdf、ppt等各文档文件的爬取和下载功能充分联系到一起,提高了爬取效率。同时删减了相应的代码文件,减少了代码量。
三、环境要求
操作系统要求 | windows XP、windows 7、windows 8 |
运行环境要求 | 最新版本的JRE |
数据库要求 | Sql Server 2008及以上 |
四、安装方法
把jar可执行文件复制到本地即可。
五、已知的缺陷与限制
以下缺陷和限制将在Beta版本完善:
a)在运行过程中有时会出现线程异常。
b)尚不支持动态爬取。
c)界面的功能键会因不规范操作而导致卡死。
六、发布方式和发布地址
该版本爬虫部署在服务器10.2.26.60上,可自行拷贝试用。
【Alpha版本发布】爬虫队长正在待命!的更多相关文章
- Alpha版本发布
Alpha版本发布 Part1.基本介绍 作业所属课程 课程链接 作业要求 要求链接 团队名称 Typhoon 作业目标 通过本次团队项目,体验通过使用软件工程来研发项目的 ...
- 评论alpha版本发布
讲解顺序: 1. 新蜂:俄罗斯方块 俄罗斯方块已经完成了核心的游戏部分,可以流畅的进行游戏,经验值功能也已经完成,目前进度很好:不足之处主要有:后续的显示内容还没完成,所以界面空出来很多板块,alp ...
- 英语词典Alpha版本发布说明
Alpha版本发布说明 功能: ·简洁的应用界面,不被无良的广告弹窗影响 ·功能直接,在需要查词时及时出现,没有每日一句精选文章等杀了你的流量,在学习过程中更加专注! ·采用金山词霸API,提供发音 ...
- Alpha版本发布时间安排
Alpha版本发布截止时间:2014年11月23日 第一轮迭代M1报告时间:2014年11月27日课上 - 每个团队5分钟时间汇报,5分钟时间提问 第一轮迭代M1事后分析报告时间:2014年11月29 ...
- Pipeline组Alpha版本发布说明
Pipeline组Alpha版本发布说明 项目名称 Pipeline 项目版本 Alpha版本 负责人 北京航空航天大学计算机学院 ILoveSE 联系方式 http://www.cnblogs.co ...
- GP工作室—Alpha版本发布2
GP工作室-Alpha版本发布2 一.简介 1.1作业要求 这个作业属于哪个课程 https://edu.cnblogs.com/campus/xnsy/GeographicInformationSc ...
- GP工作室—Alpha版本发布1
目录 GP工作室-Alpha版本发布1 一.简介 1.1作业要求 1.2团队成员 二.软件下载安装说明 五.项目总结 @(Gold Point团队の项目计划) GP工作室-Alpha版本发布1 一.简 ...
- play ball小游戏-Alpha版本发布说明
Alpha版本发布说明 一.功能介绍 本团队所做的微信小程序是一款小球经碰撞后最终到达目的位置通关的休闲益智类游戏.Alpha版本具有的功能大体如下: 1. 闯关模式 多达12关普通竖屏关卡.4关特殊 ...
- Visual Lab Online —— Alpha版本发布声明
Visual Lab Online -- Alpha版本发布声明 项目 内容 班级:北航2020春软件工程 博客园班级博客 作业:Alpha阶段发布声明 发布声明 目录 Visual Lab Onli ...
- 团队作业——项目Alpha版本发布
---恢复内容开始--- https://edu.cnblogs.com/campus/xnsy/SoftwareEngineeringClass1 https://edu.cnblogs.com ...
随机推荐
- 拥抱.NET Core系列:MemoryCache 缓存过期 (转载)
阅读目录 MSCache项目 MSCache提供的过期方式 绝对时间到期 滑动时间到期 自定义过期策略 过期策略组合拳 缓存过期回调 写在最后 在上一篇”拥抱.NET Core系列:MemoryCac ...
- Linux下onvif客户端获取ipc摄像头 GetServices:获取媒体地址(有的h265摄像头必须要这个接口)
GetServices:获取媒体地址(有些h265的摄像头必须用到这个接口,得到获取能力时没获取到的另一个媒体地址) 鉴权:但是在使用这个接口之前是需要鉴权的.ONVIF协议规定,部分接口需要鉴权,部 ...
- JQuery的ajax函数执行失败,alert函数弹框一闪而过
先查看<form>标签是否有action属性,如果没有,并且最后<button>标签的type属性为'submit‘时,默认提交位置就是当前页面 如果在页面右键检查,点击网络, ...
- uniapp开发踩坑记录
数组绑定class的问题 版本:v1.5.4 自定义了一个icon的组件,部分代码如下 <template> <text :class="[name, icon]" ...
- STM32中EXTI和NVIC的关系
(1)NVIC(嵌套向量中断):NVIC是Cortex-M3核心的一部分,关于它的资料不在<STM32的技术参考手册>中,应查阅ARM公司的<Cortex-M3技术参考手册>C ...
- day91 DjangoRestFramework学习三之认证组件、权限组件、频率组件、url注册器、响应器、分页组件
DjangoRestFramework学习三之认证组件.权限组件.频率组件.url注册器.响应器.分页组件 本节目录 一 认证组件 二 权限组件 三 频率组件 四 URL注册器 五 响应器 六 分 ...
- CTF-Bugku-分析-信息提取
CTF-Bugku-分析-信息提取 最近刷题的时候看到了这道比较有趣的题.而且网上也没找到wp,所以分享一下我的思路. 信息提取: 题目链接:http://ctf.bugku.com/challeng ...
- matlab2016b配置libsvm的各中坑及解决办法
Q1:matlab2016b不能自动关联m文件! A1: (1)首先准备好工具,工具链接:pan.baidu.com/s/1t_KaFZNOFln9m57sMBTrkQ:提取码:x49w. (2)下载 ...
- Matlab中的“prod”函数
B = prod(A)将A矩阵不同维的元素的乘积返回到矩阵B. 如果A是向量,prod(A)返回A向量的乘积.如果A是矩阵,prod(A)将A看作列向量,返回每一列元素的乘积并组成一个行向量B.如果A ...
- mssqlserver的md5函数
参考:https://www.cnblogs.com/JuneZhang/p/6396896.html?utm_source=itdadao&utm_medium=referral 简单说明: ...