数据获取以及处理系统 --- 功能规格说明书V2.0
产品规格说明书:
版本号: V2.0
版本说明:
Version 1.0 | 简单得需求分析以及构思,初稿形成 |
Version 2.0 | 细化beta阶段设计,增加典型用户尝尽以及功能罗列 |
1. 引言
1.1. 编写目的
此规格说明书编写的目的是明确本项目的详细需求,供用户确认项目的功能和性能,和用户形成一致的理解和确认,帮助实际用户以及潜在用户更好的理解本产品,同时也帮助我们在开发过程拥有更加明确的目的。
1.2. 项目背景
项目名称:Xueba网上教学问答系统后台数据获取和处理系统
项目面向用户:Xueba网上教学系统前端团队
项目开发者:北京航空航天大学软件工程 龙威零式 小组
2. 总体描述
2.1. 项目背景
在网上有许多关于某门学科 (例如计算机科学) 的许多知识和问答,这些问答散落在网上课件,维基百科,论坛,校园BBS,技术文档,教学视频… 中。许多网上大学也有很多相关内容。一个新手 (例如大学生) 往往要花许多时间搜索这些问题的答案。事实上,无数的师兄师姐们已经问过,答过这样的问题了。 为了方便刚接触新的技术领域的人可以尽快的进入某一领域,最大程度的解决相关的技术问题,那么一个可以将相关信息整合起来的系统就变得很有必要,整个系统的目的是要把高质量的内容都聚合起来 (在遵守相关知识产权规定的前提下),让用户能系统地浏览、搜索、编辑、评论; 同时也支持用户继续通过提问/回答完善这些内容。数据的来源是整个项目的基础,本数据处理系统的作用就是从网上最大程度的收集整合信息,同时将数据处理过后以供网页展示出来。
2.2. 项目目标
依据一定的搜索种子,从网上搜索相关的网站,从网站上爬取有用的信息:包含html、word、pdf、MP4等,其中还有问答对形式的网页。系统将这些信息保存下来,并且进行分类整合。针对html、word、pdf文件,系统会提取里卖弄的文本文档,并且从中提取关键信息以供检索,同时还会提取作者、编辑时间等相关信息。最终将所有的信息上传到solr里面。同时,项目还提供一个后台管理网页,可以控制爬虫程序以及处理程序的开始以及暂停,线程数量,数据库链接,solr管理,同时可以从网页上看到当前的处理进度。
2.3. 典型用户场景:
本产品基本上只有一个用户,那就是xueba网站前端开发管理人员姬大神:
名字 | 姬某 |
---|---|
性别 | 男 |
职业 | 某校某学院某学生 |
专业能力 | geek |
动机 | 需要为广大的学生群体造福,完成一个专业辅助性质的网站,同时完成某课程的课程要求 |
目的 | 需要人来完成后台数据的获取以及处理,并且最好可以依据一定的格式,按照我的需求来获得相关信息,供我的前台网页获取以及展示 |
困难 | 精力主要放在前端程序交互的搭建,所以没有足够的精力去专注在数据的获取以及处理 |
用户偏好 | 与前端接合完美,数据覆盖面广,数量充足 |
用户比例 | 约占本产品用户的100% |
典型场景 | 登陆本系统的后台管理网页,启动数据获取以及处理程序,等这些处理好了就立马可以在前台展示出来,惬意且轻松 |
典型描述 | 有人帮我搞后台,真实不能更好了! |
2.4. 典型用户需求说明
- 希望可以最主要的解决基本类型形式的数据获取功能,同时可以将关键词等信息提取出来
- 数据可以按照希望的形式排列,储存到solr里面方便读取
- 关键词需要准确
- 最好可以获取视频教学文件
- 问答对形式的内容可以专门提取出来
- 提供手动修改关键词等接口
- 可以直观的看到当前的处理进度
2.5. 运行环境要求
程序后台运行在服务器上,管理网页将基本支持主流浏览器,因为只是后台管理网页,所以功能完善的前提下,对于网页排版没有特别要求。
2.6. 产品前景
在满足当前用户的前提之下,可以对用户限制进行缩小,可以使得一般的网络用户也可以通过这个系统获取网页上的相关信息,作为一般小型系统的数据来源。并且可以进行管理,在接口做一些细小的变动之后,便可以拓展本系统的用户群体。
3. 功能描述
3.1. 数据来源个性化
系统提供选项可以让用户输入爬取数据起始网址,这样就允许用户自定义数据来源,例如百度、知乎、知网甚至国外的相关学术网站等数据来源。同时还可以通过输入的关键词进行筛选,只有包含关键词的信息才会被保存下来,所有的爬取的数据会放在服务器上的数据库里面。
3.2. 获取标签数据
对于初始保存下来的数据:包括html、doc、pdf文件等可以进行数据处理,提取出来里面的文本内容,并且可以根据里面的内容进行关键词、作者、生成时间等相关信息提取并保存。在关键词提取的时候,应该尽可能的避免冠词等没有实际意义的词汇。
3.3. 可视化当前处理进度
可以通过后台管理网页进行系统的开始停止设定,并且查看当前处理进度:有多少待处理以及已处理等。
3.4. 处理目标配置
对于处理结果的输出位置可以进行设置,例如是否需要输出到固定的solr服务器里面,同时可以在后台管理网页上面手动将数据从服务器数据库上上传到solr里面。同时可以允许用户选择是否即时将新处理的数据上传到solr里面。
3.5. 信息修改
对于关键词提取不准确的情况,应该可以通过接口对于已经存入的关键词信息进行矫正,新增,删除。
4. 界面原型设计
描述:
这个作为主页面,直观的看到我们的系统的处理的进度,包含所有的数据信息
同时还有两个子页面用于更详细的设置。
“来源配置”:弹出爬虫控制页面
“输出配置”:弹出输出控制页面
“开始处理”:启动数据处理程序,可以看到进度条开始走动
描述:
爬虫配置网页,可以分类别看到爬取的进度,如果没有启动则数据为缺省,可以手动添加seed,关键词,目标数量信息。
“开始”:从后台启动一个爬虫线程并且即时的更新数据在页面上
“暂停”:将后台的爬虫线程停止。
描述:
输出配置页面,可以手动设置目标存放信息的内容。
“确认”:确认当前的设置,返回上一层
5. 系统功能描述 验收标准 Check List
测试功能 | 测试项 | 效果描述 | 完成情况 |
管理页面 | 处理程序启动 | 点击“开始”按钮可以让处理程序开始处理 | |
打开爬虫管理页面 | 点击“来源配置”弹出爬虫管理页面 | ||
打开输出目标配置页面 | 点击“输出配置”弹出输出配置页面 | ||
爬虫功能 | 爬虫爬取信息seed增加 | 可以在爬虫管理页面手动增加爬取信息来源网站 | |
爬虫关键词筛选 | 可以增加关键字在爬取信息的时候筛选内容 | ||
爬虫多线程启动 | 可以自定义启动几个爬取线程,并且可以看到各个线程的运行情况 | ||
爬虫信息展示 | 可以看到此处运行爬虫的信息,运行时间、爬取到的文件数 | ||
爬虫爬取网站数量限制 | 可以自定义爬虫爬取网站数,如果缺省则一致爬下去 | ||
爬虫文件信息保存 | 从网上爬下的信息可以按照格式保存在数据库里面,可以从数据库看到数据更新 | ||
数据处理功能 | 数据处理启动控制 | 可以在网站上管理当前数据处理线程的启动与暂停 | |
doc数据文本信息获取 | 从doc文件中提取文本信息出来 | ||
doc关键信息提取 | 从doc文件中提取关键信息并且保存 | ||
html数据文本获取 | 从html提取去噪后的文本 | ||
html关键信息提取 | 从html文件提取关键信息 | ||
pdf数据文本获取 | 从pdf文件提取文本信息 | ||
pdf关键信息提取 | 从pdf文件中提取关键词 | ||
问答对网站信息提取 | 从问答网站提取问题以及优质答案 | ||
拓展功能 | 配置链接的solr账户 | 可以手动配置需要链接的solr数据库 | |
自定义上传 | 允许用户进行solr索引删除以及重建选项 | ||
提供修改关键词接口 | 提供修改关键词接口以及访问方法 | ||
登陆账户 | 提供登陆界面,使用固定账号才可以登陆到管理界面里面 | |
数据获取以及处理系统 --- 功能规格说明书V2.0的更多相关文章
- 学霸系统UI部分功能规格说明书
发布人员:软件工程实践小队 发布内容:学霸系统UI部分功能规格说明书 版本:学霸V1.1版本 ◆Part 1:引言 1.1目的 本功能规格说明书的目的在于明确 ...
- 学霸系统PipeLine功能规格说明书
学霸系统PipeLine功能规格说明书共分为以下三部分: 1.产品面向用户群体 2.用户使用说明 3.产品功能具体实现 1.产品面向用户群体 我们这组的项目并不是传统意义上能发布并进行展示的项目,因此 ...
- 【BUAA软工】Visual Lab Online——功能规格说明书
项目 内容 班级:北航2020春软件工程 博客园班级博客 作业:明确和撰写软件的功能规格说明书 功能规格说明书 当前版本:v1.0 修订历史: 版本号 修订时间 修订说明 v1.0 2020/04/0 ...
- BugPhobia进阶篇章:功能规格说明书
0x01 :特别鸣谢 首先特别鸣谢<构建之法>中并没有给出固定化格式的功能规格说明书的样例,因此在此次的说明书中将尽可能用生动形象的例子展示软件交互阐释 因此受到它本身的启发,此次团队功能 ...
- (Alpha)Let's-典型用户和场景&功能规格说明书
典型用户和场景 Personal/典型用户 名字 阿王 性别.年龄 男.20 职业 学生 收入 无 知识层次和能力 大学学生,善于乐于使用电脑.手机 生活/工作情况 上学 动机.目的.困难 感到大学生 ...
- No.11_功能规格说明书
功能规格说明书 • 基本目标 为用户提供更加便捷和人性化的闹钟提醒服务,以群组为单位规划时间安排与分配,对于个人用户,实现个人的设置闹钟,取消闹钟的操作,这些操作将会上传至数据库,并被同步到所有的客户 ...
- [软件工程基础]PhyLab 功能规格说明书
前言 Sigma 团队想要在 PhyLab 上做的增量改进见需求分析.六个功能中只有题库和图文流程需要对界面进行大的改动,剩下的功能在用户看来仅仅是在原有界面上有内容上的扩充,因此不在功能规格说明书的 ...
- 【Alpha】功能规格说明书
更新说明:从用户需求分析中剥离有关用户场景分析部分,加入功能规格说明书. Github地址:https://github.com/buaase/Phylab-Web/blob/master/docs/ ...
- [V1-Team] WEDO创意论坛功能规格说明书
项目功能规格说明书 版本说明 版本 内容 时间 V1.0 描述总体目标,用户使用场景,界面原型.功能设计及验收 2019.3.28 附Github仓库:WEDO 正文 1.目标 规范指导整个项目设计与 ...
随机推荐
- 插件框架(Plugin Framework)
HOW TO MAKE PLUGIN FRAMEWORK 插件系统构建 Dissect Eclipse Plugin Framework
- bootstrapt model 的多罩层,禁用罩层
选项 有一些选项可以用来定制模态窗口(Modal Window)的外观和感观,它们是通过 data 属性或 JavaScript 来传递的.下表列出了这些选项: 选项名称 类型/默认值 Data 属性 ...
- centos apache源码安装过程记录
1.下载相关源文件 wget http://mirror.bjtu.edu.cn/apache/httpd/httpd-2.4.18.tar.gzwget http://mirrors.hust.ed ...
- ImportError: No module named MySQLdb
ImportError: No module named MySQLdb 该错误是源于我们没有安装Python连接MySQL所需的MySQLdb库而引起. python3.5下的解决方法ubuntu系 ...
- table表格中实现tbody部分可滚动,且thead部分固定
1.想要实现表格的thead部分固定切tbody部分可滚动,就需要将thead与tbody进行分离,具体做法是 1.设置thead,tbody都为display:block: 2.设置th与td的宽度 ...
- Android开发--ScrollView的应用
1.简介 当内容无法全部显示时,需要采取滚动的方式获取其与内容.其中,ScrollView为垂直滚动控件,HorizontalScrollView为水平滚动控件. 2.构建
- WinForm窗体更新程序
流程介绍: 打包参阅:WinForm程序打包说明 图一 图二 图三 实现步骤: 主程序 1.检测是否连上ftp服务器 1.1 连接不上,不检测. 1.2 连接上,如果有更新进程, ...
- 源代码tfs to git
TFSàgit可以保留完整历史记录,方法: https://github.com/git-tfs/git-tfs 系统变量的path里加上: ;C:\Program Files (x86)\Git\b ...
- IOS开发UI篇—导航控制器属性和基本使用
IOS开发UI篇—导航控制器属性和基本使用 一.导航控制器的一些属性和基本使用 1.把子控制器添加到导航控制器中的四种方法 (1) 1.创建一个导航控制器 UINavigationController ...
- Python、PIP环境变量的配置
Python安装的路径:D:\Python35 pip的环境变量 Python和pip的PATH: PIP下载链接:https://pypi.python.org/pypi/pip 随意解压好,然后C ...