团队博客作业Week4 --- 学霸网站--NABC
1.需求(Need)
伴随着经济的发展,科学技术取得了飞速的发展,互联网在各行各业的发展中取得了广泛的应用。随着这些事物的发展,我们每个人都会接触到相当庞大的数据。如何在这些数据中找到自己需要的,如何给这些数据分门别类,如何做中英对照扩展用户量......这一切的一切,都是在考验IT工作者对于数据处理的能力。
必须需求:
为了使用户使用更加简单,理解更加容易,为此发展出来关键词抽取&Tagging这些技术。
所谓关键词,就是是为了文献标引工作, 从报告、论文中选取出来用以表示全文主题内容信息的单词或术语。关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词, 也称作关键词自动标引, 在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用[1]。关键词可以为文档提供一个简短的概括, 使读者能够在短时间内了解文档的大概内容。关键词还是信息检索系统中对文档进行索引、聚类等操作的基础[2]。这在浩如烟海的文本信息中,迅速定位和理解所需要的信息显得尤为重要。
所谓Tag,是一种由用户自定义的、用于描述信息 [3]的关键词。Tagging是用户为信息赋予Tag的行为。Delicious,Flikr等Web2.0网站的发展促进了它的流行,使之成为社会化书签、相册服务、博客等网站的常见功能。但Tagging对用户来说是一种脑力负担不轻的行为:要将信息分类尚属不易,勿论描述信息。对一条信息而言,应该Tag类目还是属性?范畴应该更宽还是更窄?Tag越多越好、还是控制在一定数量内?尤其困难的是,由于并非事前规划,无法很好预计被Tag内容的发展,入门、维护并不轻松。但从目前网络发展形势而言——个人自生成内容(博文、图片、视频等)迅速增加,各类信息海量涌来——Tag可谓信息管理的强大利器。
杀手功能:
- 我们打算在翻译这块下功夫,以便提供可靠的翻译效果。现在很多学习系统都需要中英对照,我们这款学霸系统更应如此。这可能不是大多数用户的需求,但是做好这一点将有利于赢得更多的用户。
外围功能:
良好的UI设计
可移植性:系统能够在多平台上面使用
可扩展性:可以无需破坏底层的结构而增强功能
辅助功能
- 提供一系列皮肤,以便用户更加喜欢
2.做法 (Approach)
一、 良好的关键词抽取&Tagging算法有利于提高用户体验
- 为了使得实现算法尽肯能简单而且效果又好,也就是性价比高。我们采用TF-IDF的方法。
- TFIDF 的主要思想是:如果某个词或短语在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF
实际上是:TF×IDF,TF 词频(Term Frequency),IDF 反文档频率(Inverse Document Frequency)。TF 表示词条 t 在文档 d中出现的频率。 - IDF一般为log(N/n),其中, N 为全部文档数, n 表示包含词条 t 的文档数量。为了使反文档频率更加平滑, 我们做了一些优化, 让IDF=log(N/n+0.01) , 其中某一类中包含词条 t 的文档数为 m。
- IDF 的主要思想是:如果包含词条 t 的文档越少,也就是 n 越小,IDF 越大,则说明词条 t 具有很好的类别区分能力。如果某一类 Ci中包含词条 t 的文档数为 m,而其它类包含 t 的文档总数为 k,显然所有包含 t 的文档数 n=m+k,当 m大的时候,n 也大,按照 IDF 公式得到的 IDF 的值会小,就说明该词条 t 类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是 IDF 的不足之处。
- Tagging的主要思想是:我们有两种算法,一种是相关信息加权的自适应多标签分类算法[4],一种是基于TF-IDF关键词抽取后的标签算法。如果时间不是特别紧迫,我们会采用第一种算法,以得到最佳效果。
二、良好的交互是用户极致体验的基础
- 好的UI设计不仅是让软件变得有个性有品味,还要让软件的操作变得舒适简单、自由,充分体现软件的定位和特点。界面设计是网站带给用户的第一体验,良好的用户设计,会使我们的网站形成无形的价值,用户界面设计的三大原则是:置界面于用户的控制之下;减少用户的记忆负担;保持界面的一致性。
- 如果我们将来要建网站,就一定要把握好人机交互,在第一时间赢得客户。通过对产品的界面和行为进行交互设计,让产品和它的使用者之间建立一种有机关系,从而可以有效达到使用者的目标,这就是交互设计的目的。无论是个性化界面、音乐版块的设置、问题的分类、问题的反馈等等,都是为了创造更加舒适的用户体验。
三、准确的中英翻译效果有利于提升用户体验
- 一种简单的办法就是用把文章放到有道词典、Google翻译、百度翻译等翻译系统上面,选择最佳的翻译作为中英对照。
- 通过网上的开源的翻译源码,进行翻译。
3.好处 (Benefit)
我们当前的产品并非涵盖所有问题的相关信息,主要服务于学生群体。我们是在爬好了的文本中进行数据处理,从而有效的得到关键词和Tag,同时我们还提供中英对照翻译,让学生有更好的学习平台。
4.竞争 (Competitor)
类似本平台的产品种类繁多,不乏主流的搜索巨头推出的相关产品,如“百度知道”,“360问答”,“天涯问答”,“新浪爱问达人”。其次还有一些主流的论坛也提供相关的搜索功能。可以说,我们的这个模块只是这些产品内小的组成部分,但是我们拥有自己的优势。
一、规模较小,灵活性高。
对比百度之类的大型搜索网站,我们的服务群体相对而言规模较小,我们可以根据用户的反馈建议快速的调整相应版块。
二、领域单一,专业程度高
由于网站是会员制的,即通过账户绑定用户,所以自愿加入的用户多数为相关领域的人员,所以问答方面会有更多的专业参考性,同时还有系统收录的相关专业信息,为问题的解答提供专业的解答。
三、个性化设计
本产品附加了一些个性化功能,如音乐版块,用户自定义主页背景等功能。让用户能在分享专业知识的同时保持愉悦的身心。
发布位置:
我们所做的是学霸网站的子模块,初步打算先发布在北航内部,然后发到CSDN、Github等重要的IT平台上,当然越多越好,毕竟这能够提高面向用户的数量量,当然等项目逐步完善之后,我会申请域名和空间发布到外网。
预计用户:
通过小组成员的宣传,预计用户人数在300左右。
参考文献:
[1] 索红光, 刘玉树, 等.一种基于词汇链的关键词抽取方法 [J].中文信息学报, 2006, 20(6)
[2] 刘佳宾, 陈超, 等.基于机器学习的科技文摘关键词自动抽取方法[J].计算机工程与应用, 2007, 43(14)
[3]Ames, M., and Naaman, M. (2007). Why We Tag: Motivations for Annotation in Mobile and Online Media.Proceedings of the SIGCHI conference on Human factors in computing systems
[4]周浩,李翔,刘功申. 相关信息加权的自适应多标签分类算法[J].计算机应用软件,2015,32(1)
团队博客作业Week4 --- 学霸网站--NABC的更多相关文章
- 团队博客作业Week1 --- 团队成员简介
团队博客作业Week1 团队作业1 我们团队是一个以功能团队模式组建而成的团队,我们总共有5位队员,分别是:李剑锋.陈谋.卢惠明.潘成鼎.仉伯龙. 中间的那位就是李剑锋,我们的PM(项目经理).性格热 ...
- 团队博客作业- Week3
成员介绍 韩青长 测试 我是韩青长,技术小白,抱着对软工的好奇和对未来工作的憧憬选了这门课.暂时选择了测试的工作,也对开发和UI有一定兴趣.从前上帝创造了我们,现在轮到我们来创造自己的软件了~ 陈彦 ...
- 团队博客作业Week3 --- 项目选择&&需求疑问
项目选择 经过团队内所有成员一致探讨,我们团队选择完善和改进之学霸系统的第二个子模块,即:网站内容结构定义和数据处理.具体的要求如下:(摘自Xueba系统项目需求) 网站内容结构定义和数据处理(Con ...
- 团队博客作业week1——成员介绍
我们小组的成员由六人组成,其中包括一名七班的韩国同学. 1.玉钟焕同学 玉钟焕是七班的同学.由于老师为了让我们尽早体验与不熟悉的同学共同工作的环境而提出团队需要跨行政班.于是我们便邀请钟焕同学加入我们 ...
- 团队博客作业Week2 --- 学长学姐访谈录
## 团队作业2 ## ### 团队一 ### 这个团队中组员是位研一的学姐,她的软件工程老师是姚淑珍,当时她们团队总共有4个人,而且她们都很努力,但是可能是最后团队的作品不太理想,她们的软件并没有上 ...
- 团队博客作业Week1
Study the projects done by previous student groups - View their blog site, use their software, email ...
- 团队博客作业Week1 Team Homework #3软件工程在北航
这次我们采访了一位大四的学姐,让她简单地谈了谈去年学习软件工程的经历和感受. 在完成软件工程大作业的过程中,由于计划安排与实际脱节,导致时间前松后紧,平均每周花在这门课上的时间大约有8个小时. 项目完 ...
- week3 团队博客作业
团队自我介绍地址: http://www.cnblogs.com/liuliudashun/p/5919555.html
- 团队博客作业Week5 --- 团队贡献分--分配规则
团队会议 时间:公元2015年10月26日22时3分20秒 地点:宿舍楼716房间 与会人员:陈谋,李剑锋,卢惠民,刘夕霆,仉伯龙,潘成鼎. 会议内容:今天的组会主要讨论的是项目团队贡献分的计算方式, ...
随机推荐
- p标签不自动换行原因
前言:发现以前写的就像是笔记,哪像博客啊,这里再次修改. 问题描述: 在固定宽度的p元素里(任何块级元素同理),长单词不自动换行,中文字符会自动换行,效果如:http://codepen.io/ali ...
- 【10.21总结】一个渗透测试练习实例——发现未知的漏洞(Race condition)
Write-up地址:Exploiting an unknown vulnerability 作者:Abhishek Bundela 这篇文章跟我之前看到的文章不太一样,作者是按照一个练习的方式简单描 ...
- angularjs compile vs link
https://docs.angularjs.org/guide/directive https://docs.angularjs.org/api/ng/service/$compile https: ...
- innodb_flush_log_at_trx_commit
innodb_flush_log_at_trx_commit innodb_buffer_pool_size如 果用Innodb,那么这是一个重要变量.相对于MyISAM来说,Innodb对于bu ...
- iOS开发-通过正则表达式判断字符串是否为纯阿拉伯数字
iOS开发-通过正则表达式判断字符串是否为纯阿拉伯数字 简述:NSString * regex_0 = @"\\d{1,}"; /*允许首位为0*/ NSString * re ...
- noip2017 PJ AK记
嗨小朋友们大家好,还记得我是谁吗?我就是为RE代言的蒟蒻--xzz day1 蛤?四楼只有一个考场???在逗我 然后解压 蛤?空军68年????我怎么不知道???huaji 蛤?T1这么sb?切掉 蛤 ...
- intellIJ IDEA配置maven相关问题记录
IntellIJ IDEA 配置 Maven 以及 修改 默认 Repository 参考:https://www.cnblogs.com/phpdragon/p/7216626.html non-m ...
- 亿级PV请求的三种负载均衡技术
在互联网+不断渗透到生活中的今天,各种各样的网络服务存在在我们身边,他们的访问流量也是大得惊人.一个大型网站(百万PV以上)想要正常访问,单单靠一台服务器是不可能提供稳定服务的.这时候就需要用负载均衡 ...
- js中哈希表的几种用法总结
本篇文章只要是对js中哈希表的几种用法进行了总结介绍,需要的朋友可以过来参考下,希望对大家有所帮助 1. <html> <head> <script type=" ...
- python 利用urllib 获取办公区公网Ip
import json,reimport urllib.requestdef GetLocalIP(): IPInfo = urllib.request.urlopen("http://ip ...