1.需求(Need)

随着社会的发展,互联网产业得到了飞速的发展,如今,互联网在各个领域都取得了至关重要的作用,随之而来的数量庞大的数据也让我们每个人在学习生活中倍感压力,如何才能在这些数据中找到自己需要的,如何才能更快捷的,更方便的在大海般的数据中找到自己需要的那一部分。这一切的一切,都是在考验IT工作者对于数据处理的能力。

必须需求:

为了使用户使用更加简单,理解更加容易,为此发展出来关键词抽取以及Tagging这些技术。

  • 所谓关键词,百度百科上这么说:特指单个媒体在制作使用索引时,所用到的词汇。是图书馆学中的词汇。关键词搜索是网络搜索索引主要方法之一,就是希望访问者了解的产品、服务和公司等的具体名称用语。而在我们的学霸网站上,就是是为了文献标引工作, 从报告、论文中选取出来用以表示全文主题内容信息的单词或术语。关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词, 也称作关键词自动标引, 在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。关键词可以为文档提供一个简短的概括, 使读者能够在短时间内了解文档的大概内容。关键词还是信息检索系统中对文档进行索引、聚类等操作的基础。

  • 所谓Tag,百度百科上这么定义:Tag在中国并没有统一的中文名称,有的称之为“分类”,也有的称之为“开放分类”或“大众分类”,还有的称之为“标签”。Tag(标签)是一种更为灵活、有趣的日志分类方式,可以为每篇日志添加一个或多个Tag(标签),然后可以看到BlogBus上所有和您使用了相同Tag的日志,并且由此和其他用户产生更多的联系和沟通。由此可见,Tag是一种由用户自定义的、用于描述信息的关键词。Tagging是用户为信息赋予Tag的行为。

杀手功能:

  • 从我们小组对目前项目的了解来看,整个网站中登陆,上传文件,翻译文件等显示界面均由wpf设计编写而成,也就是所谓的客户端,而我们要实现网站的全面网页化。

外围功能:

  • 良好的UI设计

  • 可扩展性:可以无需破坏底层的结构而增强功能

辅助功能

  • 提供一系列皮肤,以便用户更加喜欢
  • 提供背景音乐,以便用户在听觉上得到放松。

2.做法 (Approach)

一、 良好的关键词抽取&Tagging算法有利于提高用户体验

  • 为了使得实现算法尽肯能简单而且效果又好,也就是性价比高。我们沿用去年的算法,采用TF-IDF的方法。
  • TFIDF 的主要思想是:如果某个词或短语在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF

    实际上是:TF×IDF,TF 词频(Term Frequency),IDF 反文档频率(Inverse Document Frequency)。TF 表示词条 t 在文档 d中出现的频率。
  • IDF一般为log(N/n),其中, N 为全部文档数, n 表示包含词条 t 的文档数量。为了使反文档频率更加平滑, 我们做了一些优化, 让IDF=log(N/n+0.01) , 其中某一类中包含词条 t 的文档数为 m。
  • IDF 的主要思想是:如果包含词条 t 的文档越少,也就是 n 越小,IDF 越大,则说明词条 t 具有很好的类别区分能力。如果某一类
    Ci中包含词条 t 的文档数为 m,而其它类包含 t 的文档总数为 k,显然所有包含 t 的文档数 n=m+k,当 m大的时候,n 也大,按照
    IDF 公式得到的 IDF 的值会小,就说明该词条 t
    类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是
    IDF 的不足之处。
  • Tagging的主要思想是:我们有两种算法,一种是相关信息加权的自适应多标签分类算法,一种是基于TF-IDF关键词抽取后的标签算法。如果时间不是特别紧迫,我们会采用第一种算法,以得到最佳效果。

二、良好的交互是用户极致体验的基础

  • 界面设计是网站带给用户的第一体验,良好的用户设计,会使我们的网站形成无形的价值,用户界面设计的三大原则是:置界面于用户的控制之下;减少用户的记忆负担;保持界面的一致性。因此,我们将遵循这三大原则,设计出好的,便于用户使用的界面。
  • 通过对产品的界面和行为进行交互设计,让产品和它的使用者之间建立一种有机关系,从而可以有效达到使用者的目标,这就是交互设计的目的。无论是个性化界面、音乐版块的设置、问题的分类、问题的反馈等等,都是为了创造更加舒适的用户体验。

3.好处 (Benefit)

  我们的产品受众用户以在校学习的学生为主,为学生群体提供查询相关问题信息的服务,不同于其他面向普通大众的搜索网站,将大量关联性较低的信息简单的铺张给用户,我们的产品会将爬好的文本进行数据处理,获取到有效的关键词和标签Tag,除此之外我们还提供中英对照翻译,这些功能对于学生群体来说更具有现实意义。

  对于我们,我们计划在产品成熟后与教育机构间进行合作,一方面我们可以从教育机构初获得更大量、更有价值的教学资料,一方面我们帮助教育机构在学习网站进行商业推广,基于我们的用户中学生群体占据的高百分比,推广的有效性和成功率将会大大的提高。在于教育结构的合作中形成互利双赢的商业运用模式。

4.竞争 (Competitor)

  当前类似本平台的产品种类繁多,各大主流搜索引擎也都推出了相关的产品,例如比较有名的“百度知道”、“360搜索问答”等等。除了这些搜索巨头,一些主流论坛也推出了相关的搜索服务,相比之下我们的产品技术远不够他们成熟,但是我们也有着自己的竞争优势,使我们有理由相信在另据竞争激烈的市场中分一杯羹。

  一、面向用户群体专一,领域针对性强,专业程度高。

  网站采用会员制,通过账户绑定用户,成为会员的用户多为在校人员或者相关领域的专业人员,在问答和丰富网站内容上将会更有专业参考性和学术严谨性,同时系统内部收录相关的专业信息,为问题的解答提供专业的解答。

  二、产品规模小,易于修改,可塑性高,灵活性强

  相比于目前的搜索引擎巨头,我们的服务群体规模小,针对性强,我们得到的用户反馈反应时间短,反馈速度快,能够快速的对网站的功能和结构存在的问题提供及时有效的解决办法。

  三、辅助功能和个性化设计

  本产品附加辅助功能,例如音乐版块、用户自定义主页背景、个性化皮肤等功能,让用户在网站学习知识的同时,在视觉和听觉上得到放松。

5 . 交付 (Delivery)

  宣传途径依靠学生间宣传为主,以网络宣传为辅。

  首先是打开市场,将网站通过QQ群、微信群、微博等主流网络社交软件上发布出去,先从周围同学开始,推荐尝试使用我们的产品,对于每个注册过的用户,将会根据ID生成专属的邀请码,通过传播邀请码而注册的用户,可以获得一些专属的奖励,而成功发布出邀请信息的用户也会获得正向的奖励反馈机制。学生间通过互相推荐来获得用户量,根据社会计算学的理论,学生的社交圈群体成分比较单一,以其他学生为主,所以这种同学间的相互推荐有效性强,成功率高,传播速度快,发展形式丰富。

  其次是通过和其他网站合作,获取其页面上的广告位,相互宣传达到增大彼此用户量的互利共赢的合作模式。

发布位置:

  我们所做的产品,初步打算先发布在北航内部,以同学为主要成员的QQ群、微信群、微博等社交网络软件上发布,然后发到好友学校的同学群中,将我们的产品推广到其他高校中,扩展用户群体,加快用户量发展速度,再之后计划在CSDN、Github等重要的IT平台上,多多益善,进一步推广我们的产品。

  预计用户:

  通过小组成员的宣传,预计用户人数在500左右。

学霸网站之NABCD的更多相关文章

  1. 学霸网站-Beta版本发布说明

    项目名称 学霸网站 项目版本 Beta 项目团队 ourteam 发布日期 2015-1-5 一.Alpha版本实现功能简介: 1.匿名提问 2.匿名回答 3.采纳功能 4.登录.注册失败后,用户名等 ...

  2. 学霸网站---Alpha+版本测试报告

    说明:由于老师前几天要求交测试报告,本测试报告只针对当时完成的功能进行测试,并不是几天之后要发布的BETA版本,不会有很多差别,但是BETA版本会包含对其中BUG的修复. 学霸网站测试报告 一.引言 ...

  3. 学霸网站之NABC

    1.Need 本次学霸系统的设计是基于学长的版本,在此基础上,我们准备进一步完善已有版块,在用户信息管理.提问.搜索.分类.评论.个性化界面.用户反馈.娱乐.积分获取等方面加入新的功能. 一.用户信息 ...

  4. 学霸网站-Alpha版本发布说明

    项目名称 学霸网站 项目版本 Alpha 项目团队 ourteam 发布日期 2014-11-23 一.版本的新功能 1.匿名提问 用户提问的时候可以选择匿名提问,这样在问题的详细信息不会显示提出者的 ...

  5. 团队博客作业Week4 --- 学霸网站--NABC

    1.需求(Need) 伴随着经济的发展,科学技术取得了飞速的发展,互联网在各行各业的发展中取得了广泛的应用.随着这些事物的发展,我们每个人都会接触到相当庞大的数据.如何在这些数据中找到自己需要的,如何 ...

  6. Alpha版本项目展示

    成员简介 谷大鑫: 热爱编程,技术狂魔,可以对感兴趣的技术钻研到茶饭不思,队伍的技术中坚.标签:整个队伍里最靠谱的人. 个人博客:http://www.cnblogs.com/nrm1/ 杨金键: 未 ...

  7. 学霸系统PipeLine功能规格说明书

    学霸系统PipeLine功能规格说明书共分为以下三部分: 1.产品面向用户群体 2.用户使用说明 3.产品功能具体实现 1.产品面向用户群体 我们这组的项目并不是传统意义上能发布并进行展示的项目,因此 ...

  8. 数据获取以及处理Beta版本展示

    产品描述 这个产品的目的是为了学霸网站提供后台数据获取以及处理操作.在alpha阶段基本调通的基础至上,我们希望在bate版本中加入对于问答对的处理,图片的获取等功能. 预期目标 在alpha阶段,我 ...

  9. Beta版本测试报告

    爬虫测试: 由于爬虫是整个系统的数据来源,十分的重要,但是由于引用了jar包并且运行复杂,这里主要做功能性测试,通过增加seed,运行爬虫,可以在后台控制台看到日志的不断刷新以及数据库条目的不断增加, ...

随机推荐

  1. IT公司100题-21-输入n和m,和等于m

    问题描述: 输入两个整数n 和m,从数列1,2,3,…,n 中随意取几个数, 使其和等于m,将所有可能的组合都打印出来.   分析: 利用递归的思路,对于1,2,3,…,n 中的任意一个数,要么选,要 ...

  2. WP8.1 Study2:MapControl控件的应用

    总的界面布局如下:

  3. 元数据和DbUtils

    使用元数据可以在jdbc中获取数据库的定义,例如:数据库.表.列的定义信息. 在jdbc中可以使用: 数据库元数据.参数元数据.结果集元数据. 1.DataBaseMetaData对象 Connect ...

  4. C语言中输入输出函数

    1.1.1 格式化输入输出函数Turbo C2.0 标准库提供了两个控制台格式化输入. 输出函数printf() 和scanf(), 这两个函数可以在标准输入输出设备上以各种不同的格式读写数据.pri ...

  5. OpenCV之响应鼠标(四):在图像上绘制出矩形并标出起点的坐标

    涉及到两方面的内容:1. 用鼠标画出矩形.2.在图像上绘制出点的坐标 用鼠标绘制矩形,涉及到鼠标的操作,opencv中有鼠标事件的介绍.需要用到两个函数:回调函数CvMouseCallback和注册回 ...

  6. Visual Studio安装卸载模板

    Visual Studio中有两种类型的模板:项目模板和项模板 一.已安装模板: 默认情况下,与产品一起安装的模板位于以下位置: ①\<Visual Studio 安装目录>\Common ...

  7. Javascript之clipBoard操作

    1.clipBoard 是网页上剪贴板,可以获取剪切板上值,可能类似物键-值对这种模式取值\赋值,如果在copy网上的某篇博客时,往往会带有“转载自xxxx地方 http://www.xxx.com/ ...

  8. js 中 setInterval 的返回值问题

    var i = 0; var timer = setInterval(function() { i++ console.log(i); //alert(1); }, 2000); alert( typ ...

  9. hdoj-2024

    #include "cstdio"#include "cstring"int compare(char s[]);int main(){ int i,n,j;  ...

  10. php大力力 [035节] 先记录一些链接

    [IT名人堂]专访百分点研发总监:不止于平台,大数据操作系统重磅来袭! [2015-8-11 14:17:04] [IT名人堂]专访1号店技术总监:大型电商网站的IT架构 [2015-8-25 15: ...