数据获取以及处理系统 --- 功能规格说明书V2.0

产品规格说明书：

版本号: V2.0

版本说明：

Version 1.0	简单得需求分析以及构思，初稿形成
Version 2.0	细化beta阶段设计，增加典型用户尝尽以及功能罗列

1. 引言

1.1. 编写目的
　　此规格说明书编写的目的是明确本项目的详细需求，供用户确认项目的功能和性能，和用户形成一致的理解和确认，帮助实际用户以及潜在用户更好的理解本产品，同时也帮助我们在开发过程拥有更加明确的目的。

1.2. 项目背景
项目名称：Xueba网上教学问答系统后台数据获取和处理系统
项目面向用户：Xueba网上教学系统前端团队

项目开发者：北京航空航天大学软件工程龙威零式小组

2. 总体描述

2.1. 项目背景
　　在网上有许多关于某门学科 (例如计算机科学) 的许多知识和问答，这些问答散落在网上课件，维基百科，论坛，校园BBS，技术文档，教学视频… 中。许多网上大学也有很多相关内容。一个新手 (例如大学生) 往往要花许多时间搜索这些问题的答案。事实上，无数的师兄师姐们已经问过，答过这样的问题了。为了方便刚接触新的技术领域的人可以尽快的进入某一领域，最大程度的解决相关的技术问题，那么一个可以将相关信息整合起来的系统就变得很有必要，整个系统的目的是要把高质量的内容都聚合起来 (在遵守相关知识产权规定的前提下)，让用户能系统地浏览、搜索、编辑、评论；同时也支持用户继续通过提问/回答完善这些内容。数据的来源是整个项目的基础，本数据处理系统的作用就是从网上最大程度的收集整合信息，同时将数据处理过后以供网页展示出来。

2.2. 项目目标

　　依据一定的搜索种子，从网上搜索相关的网站，从网站上爬取有用的信息：包含html、word、pdf、MP4等，其中还有问答对形式的网页。系统将这些信息保存下来，并且进行分类整合。针对html、word、pdf文件，系统会提取里卖弄的文本文档，并且从中提取关键信息以供检索，同时还会提取作者、编辑时间等相关信息。最终将所有的信息上传到solr里面。同时，项目还提供一个后台管理网页，可以控制爬虫程序以及处理程序的开始以及暂停，线程数量，数据库链接，solr管理，同时可以从网页上看到当前的处理进度。

2.3. 典型用户场景：

　　本产品基本上只有一个用户，那就是xueba网站前端开发管理人员姬大神：

名字	姬某
性别	男
职业	某校某学院某学生
专业能力	geek
动机	需要为广大的学生群体造福，完成一个专业辅助性质的网站，同时完成某课程的课程要求
目的	需要人来完成后台数据的获取以及处理，并且最好可以依据一定的格式，按照我的需求来获得相关信息，供我的前台网页获取以及展示
困难	精力主要放在前端程序交互的搭建，所以没有足够的精力去专注在数据的获取以及处理
用户偏好	与前端接合完美，数据覆盖面广，数量充足
用户比例	约占本产品用户的100%
典型场景	登陆本系统的后台管理网页，启动数据获取以及处理程序，等这些处理好了就立马可以在前台展示出来，惬意且轻松
典型描述	有人帮我搞后台，真实不能更好了！

2.4. 典型用户需求说明

希望可以最主要的解决基本类型形式的数据获取功能，同时可以将关键词等信息提取出来
数据可以按照希望的形式排列，储存到solr里面方便读取
关键词需要准确
最好可以获取视频教学文件
问答对形式的内容可以专门提取出来
提供手动修改关键词等接口
可以直观的看到当前的处理进度

2.5. 运行环境要求

　　程序后台运行在服务器上，管理网页将基本支持主流浏览器，因为只是后台管理网页，所以功能完善的前提下，对于网页排版没有特别要求。

2.6. 产品前景

　　在满足当前用户的前提之下，可以对用户限制进行缩小，可以使得一般的网络用户也可以通过这个系统获取网页上的相关信息，作为一般小型系统的数据来源。并且可以进行管理，在接口做一些细小的变动之后，便可以拓展本系统的用户群体。

3. 功能描述

3.1. 数据来源个性化
　　系统提供选项可以让用户输入爬取数据起始网址，这样就允许用户自定义数据来源，例如百度、知乎、知网甚至国外的相关学术网站等数据来源。同时还可以通过输入的关键词进行筛选，只有包含关键词的信息才会被保存下来，所有的爬取的数据会放在服务器上的数据库里面。

3.2. 获取标签数据

　　对于初始保存下来的数据：包括html、doc、pdf文件等可以进行数据处理，提取出来里面的文本内容，并且可以根据里面的内容进行关键词、作者、生成时间等相关信息提取并保存。在关键词提取的时候，应该尽可能的避免冠词等没有实际意义的词汇。

3.3. 可视化当前处理进度

　　可以通过后台管理网页进行系统的开始停止设定，并且查看当前处理进度：有多少待处理以及已处理等。

3.4. 处理目标配置

　　对于处理结果的输出位置可以进行设置，例如是否需要输出到固定的solr服务器里面，同时可以在后台管理网页上面手动将数据从服务器数据库上上传到solr里面。同时可以允许用户选择是否即时将新处理的数据上传到solr里面。

3.5. 信息修改

　　对于关键词提取不准确的情况，应该可以通过接口对于已经存入的关键词信息进行矫正，新增，删除。

4. 界面原型设计

描述：

这个作为主页面，直观的看到我们的系统的处理的进度，包含所有的数据信息

同时还有两个子页面用于更详细的设置。

“来源配置”：弹出爬虫控制页面

“输出配置”：弹出输出控制页面

“开始处理”：启动数据处理程序，可以看到进度条开始走动

描述：

爬虫配置网页，可以分类别看到爬取的进度，如果没有启动则数据为缺省，可以手动添加seed，关键词，目标数量信息。

“开始”：从后台启动一个爬虫线程并且即时的更新数据在页面上

“暂停”：将后台的爬虫线程停止。

描述：

输出配置页面，可以手动设置目标存放信息的内容。

“确认”：确认当前的设置，返回上一层

5. 系统功能描述验收标准 Check List

测试功能	测试项	效果描述	完成情况
管理页面	处理程序启动	点击“开始”按钮可以让处理程序开始处理
	打开爬虫管理页面	点击“来源配置”弹出爬虫管理页面
	打开输出目标配置页面	点击“输出配置”弹出输出配置页面
爬虫功能	爬虫爬取信息seed增加	可以在爬虫管理页面手动增加爬取信息来源网站
	爬虫关键词筛选	可以增加关键字在爬取信息的时候筛选内容
	爬虫多线程启动	可以自定义启动几个爬取线程，并且可以看到各个线程的运行情况
	爬虫信息展示	可以看到此处运行爬虫的信息，运行时间、爬取到的文件数
	爬虫爬取网站数量限制	可以自定义爬虫爬取网站数，如果缺省则一致爬下去
	爬虫文件信息保存	从网上爬下的信息可以按照格式保存在数据库里面，可以从数据库看到数据更新
数据处理功能	数据处理启动控制	可以在网站上管理当前数据处理线程的启动与暂停
	doc数据文本信息获取	从doc文件中提取文本信息出来
	doc关键信息提取	从doc文件中提取关键信息并且保存
	html数据文本获取	从html提取去噪后的文本
	html关键信息提取	从html文件提取关键信息
	pdf数据文本获取	从pdf文件提取文本信息
	pdf关键信息提取	从pdf文件中提取关键词
	问答对网站信息提取	从问答网站提取问题以及优质答案
拓展功能	配置链接的solr账户	可以手动配置需要链接的solr数据库
	自定义上传	允许用户进行solr索引删除以及重建选项
	提供修改关键词接口	提供修改关键词接口以及访问方法
	登陆账户	提供登陆界面，使用固定账号才可以登陆到管理界面里面

数据获取以及处理系统 --- 功能规格说明书V2.0的更多相关文章

学霸系统UI部分功能规格说明书
发布人员:软件工程实践小队发布内容:学霸系统UI部分功能规格说明书版本:学霸V1.1版本 ◆Part 1:引言 1.1目的本功能规格说明书的目的在于明确 ...
学霸系统PipeLine功能规格说明书
学霸系统PipeLine功能规格说明书共分为以下三部分: 1.产品面向用户群体 2.用户使用说明 3.产品功能具体实现 1.产品面向用户群体我们这组的项目并不是传统意义上能发布并进行展示的项目,因此 ...
【BUAA软工】Visual Lab Online——功能规格说明书
项目内容班级:北航2020春软件工程博客园班级博客作业:明确和撰写软件的功能规格说明书功能规格说明书当前版本:v1.0 修订历史: 版本号修订时间修订说明 v1.0 2020/04/0 ...
BugPhobia进阶篇章：功能规格说明书
0x01 :特别鸣谢首先特别鸣谢<构建之法>中并没有给出固定化格式的功能规格说明书的样例,因此在此次的说明书中将尽可能用生动形象的例子展示软件交互阐释因此受到它本身的启发,此次团队功能 ...
(Alpha)Let's-典型用户和场景&功能规格说明书
典型用户和场景 Personal/典型用户名字阿王性别.年龄男.20 职业学生收入无知识层次和能力大学学生,善于乐于使用电脑.手机生活/工作情况上学动机.目的.困难感到大学生 ...
No.11_功能规格说明书
功能规格说明书 • 基本目标为用户提供更加便捷和人性化的闹钟提醒服务,以群组为单位规划时间安排与分配,对于个人用户,实现个人的设置闹钟,取消闹钟的操作,这些操作将会上传至数据库,并被同步到所有的客户 ...
[软件工程基础]PhyLab 功能规格说明书
前言 Sigma 团队想要在 PhyLab 上做的增量改进见需求分析.六个功能中只有题库和图文流程需要对界面进行大的改动,剩下的功能在用户看来仅仅是在原有界面上有内容上的扩充,因此不在功能规格说明书的 ...
【Alpha】功能规格说明书
更新说明:从用户需求分析中剥离有关用户场景分析部分,加入功能规格说明书. Github地址:https://github.com/buaase/Phylab-Web/blob/master/docs/ ...
[V1-Team] WEDO创意论坛功能规格说明书
项目功能规格说明书版本说明版本内容时间 V1.0 描述总体目标,用户使用场景,界面原型.功能设计及验收 2019.3.28 附Github仓库:WEDO 正文 1.目标规范指导整个项目设计与 ...

随机推荐

Intellij自动下载导入框架包
忽然发现intellij尽然可以自动导入框架所需的包,而且可以选择jar包版本,瞬间发现Maven,gradle管理jar包还得写配置文件弱爆了. 以Hibernate为例: 1.ProjectSt ...
[luogu2982][USACO10FEB]慢下来Slowing down(树状数组+dfs序)
题目描述 Every day each of Farmer John's N (1 <= N <= 100,000) cows conveniently numbered 1..N mov ...
[Prodinner项目]学习分享_第三部分_Service层(业务逻辑层)
前两节讲到怎样生成一个Model和怎样将Model映射到数据库,这一节将讲到业务逻辑层,也就是Service层. 1.Prodinner架构已经构建好的,基本的增删改查. 假设,我现在想操作第二节中讲 ...
UART总线（异步）
UART用一条传输线将数据一位位地顺序传送,以字符为传输单位通信中两个字符间的时间间隔多少是不固定的, 然而在同一个字符中的两个相邻位间的时间间隔是固定的数据传送速率用波特率来表示, 指单位时间内载 ...
JavaScript学习笔记及知识点整理_1
一.js的基础部分 1.==和===的区别:==在判断是否相等的时候会进行类型转换,有时会得到非常奇怪的结果,因此一般情况下都是用===判断是否相等2.strict模式:在js中,如果一个变量没有用v ...
[原创] RT7 Lite win7旗舰版精简方案
[原创] RT7 Lite win7旗舰版精简方案墨雪SEED 发表于 2016-1-26 21:23:54 https://www.itsk.com/thread-362912-1-5.html ...
Linux Socket编程（不限Linux）
"一切皆Socket!" 话虽些许夸张,但是事实也是,现在的网络编程几乎都是用的socket. --有感于实际编程和开源项目研究. 我们深谙信息交流的价值,那网络中进程之间如何通信 ...
图片延迟加载（用jq自己写的方法）
$(function() { $("img.lazy").attr("src","2.jpg"); show(); $(window).sc ...
javasrcipt中的for in 循环
function myFunction(){ var x; //声明变量x: var txt=""; //声明变量txt并赋值为空: var person={fname:&qu ...
基于TF-IDF值的汉语语义消歧算法
RT,学校课题需要233,没了话说,窝直接做个链接的集合好了,方便以后查找特征值提取之 -- TF-IDF值的简单介绍汉语语义消歧之 -- 句子相似度汉语语义消歧之 -- 词义消歧简介 c++ ...

数据获取以及处理系统 --- 功能规格说明书V2.0

数据获取以及处理系统 --- 功能规格说明书V2.0的更多相关文章

随机推荐

热门专题