学霸网站之NABCD
1.需求(Need)
随着社会的发展,互联网产业得到了飞速的发展,如今,互联网在各个领域都取得了至关重要的作用,随之而来的数量庞大的数据也让我们每个人在学习生活中倍感压力,如何才能在这些数据中找到自己需要的,如何才能更快捷的,更方便的在大海般的数据中找到自己需要的那一部分。这一切的一切,都是在考验IT工作者对于数据处理的能力。
必须需求:
为了使用户使用更加简单,理解更加容易,为此发展出来关键词抽取以及Tagging这些技术。
所谓关键词,百度百科上这么说:特指单个媒体在制作使用索引时,所用到的词汇。是图书馆学中的词汇。关键词搜索是网络搜索索引主要方法之一,就是希望访问者了解的产品、服务和公司等的具体名称用语。而在我们的学霸网站上,就是是为了文献标引工作, 从报告、论文中选取出来用以表示全文主题内容信息的单词或术语。关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词, 也称作关键词自动标引, 在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。关键词可以为文档提供一个简短的概括, 使读者能够在短时间内了解文档的大概内容。关键词还是信息检索系统中对文档进行索引、聚类等操作的基础。
所谓Tag,百度百科上这么定义:Tag在中国并没有统一的中文名称,有的称之为“分类”,也有的称之为“开放分类”或“大众分类”,还有的称之为“标签”。Tag(标签)是一种更为灵活、有趣的日志分类方式,可以为每篇日志添加一个或多个Tag(标签),然后可以看到BlogBus上所有和您使用了相同Tag的日志,并且由此和其他用户产生更多的联系和沟通。由此可见,Tag是一种由用户自定义的、用于描述信息的关键词。Tagging是用户为信息赋予Tag的行为。
杀手功能:
- 从我们小组对目前项目的了解来看,整个网站中登陆,上传文件,翻译文件等显示界面均由wpf设计编写而成,也就是所谓的客户端,而我们要实现网站的全面网页化。
外围功能:
良好的UI设计
可扩展性:可以无需破坏底层的结构而增强功能
辅助功能
- 提供一系列皮肤,以便用户更加喜欢
- 提供背景音乐,以便用户在听觉上得到放松。
2.做法 (Approach)
一、 良好的关键词抽取&Tagging算法有利于提高用户体验
- 为了使得实现算法尽肯能简单而且效果又好,也就是性价比高。我们沿用去年的算法,采用TF-IDF的方法。
- TFIDF 的主要思想是:如果某个词或短语在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF
实际上是:TF×IDF,TF 词频(Term Frequency),IDF 反文档频率(Inverse Document Frequency)。TF 表示词条 t 在文档 d中出现的频率。 - IDF一般为log(N/n),其中, N 为全部文档数, n 表示包含词条 t 的文档数量。为了使反文档频率更加平滑, 我们做了一些优化, 让IDF=log(N/n+0.01) , 其中某一类中包含词条 t 的文档数为 m。
- IDF 的主要思想是:如果包含词条 t 的文档越少,也就是 n 越小,IDF 越大,则说明词条 t 具有很好的类别区分能力。如果某一类
Ci中包含词条 t 的文档数为 m,而其它类包含 t 的文档总数为 k,显然所有包含 t 的文档数 n=m+k,当 m大的时候,n 也大,按照
IDF 公式得到的 IDF 的值会小,就说明该词条 t
类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是
IDF 的不足之处。 - Tagging的主要思想是:我们有两种算法,一种是相关信息加权的自适应多标签分类算法,一种是基于TF-IDF关键词抽取后的标签算法。如果时间不是特别紧迫,我们会采用第一种算法,以得到最佳效果。
二、良好的交互是用户极致体验的基础
- 界面设计是网站带给用户的第一体验,良好的用户设计,会使我们的网站形成无形的价值,用户界面设计的三大原则是:置界面于用户的控制之下;减少用户的记忆负担;保持界面的一致性。因此,我们将遵循这三大原则,设计出好的,便于用户使用的界面。
- 通过对产品的界面和行为进行交互设计,让产品和它的使用者之间建立一种有机关系,从而可以有效达到使用者的目标,这就是交互设计的目的。无论是个性化界面、音乐版块的设置、问题的分类、问题的反馈等等,都是为了创造更加舒适的用户体验。
3.好处 (Benefit)
我们的产品受众用户以在校学习的学生为主,为学生群体提供查询相关问题信息的服务,不同于其他面向普通大众的搜索网站,将大量关联性较低的信息简单的铺张给用户,我们的产品会将爬好的文本进行数据处理,获取到有效的关键词和标签Tag,除此之外我们还提供中英对照翻译,这些功能对于学生群体来说更具有现实意义。
对于我们,我们计划在产品成熟后与教育机构间进行合作,一方面我们可以从教育机构初获得更大量、更有价值的教学资料,一方面我们帮助教育机构在学习网站进行商业推广,基于我们的用户中学生群体占据的高百分比,推广的有效性和成功率将会大大的提高。在于教育结构的合作中形成互利双赢的商业运用模式。
4.竞争 (Competitor)
一、面向用户群体专一,领域针对性强,专业程度高。
网站采用会员制,通过账户绑定用户,成为会员的用户多为在校人员或者相关领域的专业人员,在问答和丰富网站内容上将会更有专业参考性和学术严谨性,同时系统内部收录相关的专业信息,为问题的解答提供专业的解答。
二、产品规模小,易于修改,可塑性高,灵活性强
相比于目前的搜索引擎巨头,我们的服务群体规模小,针对性强,我们得到的用户反馈反应时间短,反馈速度快,能够快速的对网站的功能和结构存在的问题提供及时有效的解决办法。
三、辅助功能和个性化设计
本产品附加辅助功能,例如音乐版块、用户自定义主页背景、个性化皮肤等功能,让用户在网站学习知识的同时,在视觉和听觉上得到放松。
5 . 交付 (Delivery)
宣传途径依靠学生间宣传为主,以网络宣传为辅。
首先是打开市场,将网站通过QQ群、微信群、微博等主流网络社交软件上发布出去,先从周围同学开始,推荐尝试使用我们的产品,对于每个注册过的用户,将会根据ID生成专属的邀请码,通过传播邀请码而注册的用户,可以获得一些专属的奖励,而成功发布出邀请信息的用户也会获得正向的奖励反馈机制。学生间通过互相推荐来获得用户量,根据社会计算学的理论,学生的社交圈群体成分比较单一,以其他学生为主,所以这种同学间的相互推荐有效性强,成功率高,传播速度快,发展形式丰富。
其次是通过和其他网站合作,获取其页面上的广告位,相互宣传达到增大彼此用户量的互利共赢的合作模式。
发布位置:
我们所做的产品,初步打算先发布在北航内部,以同学为主要成员的QQ群、微信群、微博等社交网络软件上发布,然后发到好友学校的同学群中,将我们的产品推广到其他高校中,扩展用户群体,加快用户量发展速度,再之后计划在CSDN、Github等重要的IT平台上,多多益善,进一步推广我们的产品。
预计用户:
通过小组成员的宣传,预计用户人数在500左右。
学霸网站之NABCD的更多相关文章
- 学霸网站-Beta版本发布说明
项目名称 学霸网站 项目版本 Beta 项目团队 ourteam 发布日期 2015-1-5 一.Alpha版本实现功能简介: 1.匿名提问 2.匿名回答 3.采纳功能 4.登录.注册失败后,用户名等 ...
- 学霸网站---Alpha+版本测试报告
说明:由于老师前几天要求交测试报告,本测试报告只针对当时完成的功能进行测试,并不是几天之后要发布的BETA版本,不会有很多差别,但是BETA版本会包含对其中BUG的修复. 学霸网站测试报告 一.引言 ...
- 学霸网站之NABC
1.Need 本次学霸系统的设计是基于学长的版本,在此基础上,我们准备进一步完善已有版块,在用户信息管理.提问.搜索.分类.评论.个性化界面.用户反馈.娱乐.积分获取等方面加入新的功能. 一.用户信息 ...
- 学霸网站-Alpha版本发布说明
项目名称 学霸网站 项目版本 Alpha 项目团队 ourteam 发布日期 2014-11-23 一.版本的新功能 1.匿名提问 用户提问的时候可以选择匿名提问,这样在问题的详细信息不会显示提出者的 ...
- 团队博客作业Week4 --- 学霸网站--NABC
1.需求(Need) 伴随着经济的发展,科学技术取得了飞速的发展,互联网在各行各业的发展中取得了广泛的应用.随着这些事物的发展,我们每个人都会接触到相当庞大的数据.如何在这些数据中找到自己需要的,如何 ...
- Alpha版本项目展示
成员简介 谷大鑫: 热爱编程,技术狂魔,可以对感兴趣的技术钻研到茶饭不思,队伍的技术中坚.标签:整个队伍里最靠谱的人. 个人博客:http://www.cnblogs.com/nrm1/ 杨金键: 未 ...
- 学霸系统PipeLine功能规格说明书
学霸系统PipeLine功能规格说明书共分为以下三部分: 1.产品面向用户群体 2.用户使用说明 3.产品功能具体实现 1.产品面向用户群体 我们这组的项目并不是传统意义上能发布并进行展示的项目,因此 ...
- 数据获取以及处理Beta版本展示
产品描述 这个产品的目的是为了学霸网站提供后台数据获取以及处理操作.在alpha阶段基本调通的基础至上,我们希望在bate版本中加入对于问答对的处理,图片的获取等功能. 预期目标 在alpha阶段,我 ...
- Beta版本测试报告
爬虫测试: 由于爬虫是整个系统的数据来源,十分的重要,但是由于引用了jar包并且运行复杂,这里主要做功能性测试,通过增加seed,运行爬虫,可以在后台控制台看到日志的不断刷新以及数据库条目的不断增加, ...
随机推荐
- 如何在windows上搭建ftp服务器
FTP(File Transfer Protocol)是TCP/IP网络上两台计算机传送文件的协议,使得主机间可以共享文件.目前有很多软件都能实现这一功能,然而windows自带的IIS就可以帮助你搭 ...
- ModuleWorks免费下载使用方法大全
ModuleWorks为模拟机器的工具运转及(或)机床和车床材料的搬运提供了一整套解决方案. 模拟技术可以识别潜在的碰撞问题,允许在NC代码生成前进行除错检查,并且渐渐成为CAM处理方面必不可少的解决 ...
- (转)UIApplication sharedApplication详细解释-IOS
iPhone应用程序是由主函数main启动,它负责调用UIApplicationMain函数,该函数的形式如下所示: int UIApplicationMain ( int argc, char *a ...
- ThinkPHP查询数据与CURD
一.创建连接 在配置文件中使用如下配置: /* 数据库设置 */ 'DB_TYPE' => 'mysql', // 数据库类型 'DB_HOST' => 'localhost', // 服 ...
- Oracle 中批量导入大量测试数据的方法
执行如下批处理命令: declare maxrecords constant int := 100000; i int := 1;begin for i in 1 .. 20000 loop ...
- win7下利用笔记本无线网卡创建AP 组建无线局域网(可以连魔兽,TCP、UDP也没问题)
转自:http://blog.163.com/fghok_018/blog/static/122599670201072773924530/ 近一个月,宿舍的好多同学都买了笔记本电脑,当然,我也买了, ...
- Ubuntu 14.10 下Ganglia监控Hadoop集群
前提是已经安装好Ganglia和Hadoop集群 1 Master节点配置hadoop-metrics2.properties # syntax: [prefix].[source|sink|jmx] ...
- mysql 创建存储过程注意
最近在利用navicat创建存储过程时,总是报1064语法错误,而且每次都是指向第一行,百思不得姐,如下图: 后来发现,原来是输入参数没有定义长度导致,所以以后真要注意 加上入参长度即可:IN `sT ...
- Android Launcher 详解
(1) Launcher的定义:Android系统启动后,加载的第一个程序,是其他应用程序的入口. (2) Launcher的构成:HomeScreen(1.workspace(A ...
- 【LEETCODE OJ】Binary Tree Preorder Traversal
Problem Link: http://oj.leetcode.com/problems/binary-tree-preorder-traversal/ Even iterative solutio ...