在信息时代,公司和个人的成功越来越依赖于迅速有效地将大量数据转化为可操作的信息.无论是每天处理数以千计的个人电子邮件消息,还是从海量博客文章中推测用户的意图,都需要使用一些工具来组织和增强数据. 这其中就蕴含着 机器学习领域以及本文章所介绍项目的前景:Apache Mahout(见 参考资料). 机器学习是人工智能的一个分支,它涉及通过一些技术来允许计算机根据之前的经验改善其输出.此领域与数据挖掘密切相关,并且经常需要使用各种技巧,包括统计学.概率论和模式识别等.虽然机器学习并不是一个新兴领域,…
来源:http://www.ibm.com/developerworks/cn/java/j-lo-mahout/index.html 推荐引擎简介 推荐引擎利用特殊的信息过滤(IF,Information Filtering)技术,将不同的内容(例如电影.音乐.书籍.新闻.图片.网页等)推荐给可能感兴趣的用户.通常情况下,推荐引擎的实现是通过将用户 的个人喜好与特定的参考特征进行比较,并试图预测用户对一些未评分项目的喜好程度.参考特征的选取可能是从项目本身的信息中提取的,或是基于用户所在的社…
基于 Apache Mahout 构建社会化推荐引擎 http://www.ibm.com/developerworks/cn/views/java/libraryview.jsp 推荐引擎利用特殊的信息过滤(IF,Information Filtering)技术,将不同的内容(例如电影.音乐.书籍.新闻.图片.网页等)推荐给可能感兴趣的用户.通常情况下,推荐引擎的实现是通过将用户 的个人喜好与特定的参考特征进行比较,并试图预测用户对一些未评分项目的喜好程度.参考特征的选取可能是从项目本身的信息…
http://www.ibm.com/developerworks/cn/java/j-mahout-scaling/ 在软件的世界中,两年就像是无比漫长的时光.在过去两年中,我们看到了社交媒体的风生水起.大规模集群计算的商业化(归功于 Amazon 和 RackSpace 这样的参与者),也看到了数据的迅猛增长以及我们诠释这些数据的能力的显著提升.“Apache Mahout 简介” 最初在 developerWorks 上发表也已经是两年之前的事情.这之后,Mahout 社区(以及项目的代码…
Mahout简介 一.mahout是什么 Apache Mahout是ApacheSoftware Foundation (ASF)旗下的一个开源项目,提供了一些经典的机器学习的算法,皆在帮助开发人员更加方便快捷地创建智能应用程序.目前已经有了三个公共发型版本,通过ApacheMahout库,Mahout可以有效地扩展到云中.Mahout包括许多实现,包括聚类.分类.推荐引擎.频繁子项挖掘. Apache Mahout的主要目标是建立可伸缩的机器学习算法.这种可伸缩性是针对大规模的数据集而言的.…
  机器学习 101 Mahout 简介 建立一个推荐引擎 使用 Mahout 实现集群 使用 Mahout 实现内容分类 结束语 下载资源 相关主题   在信息时代,公司和个人的成功越来越依赖于迅速有效地将大量数据转化为可操作的信息.无论是每天处理数以千计的个人电子邮件消息,还是从海量博客文章中推测用户的意图,都需要使用一些工具来组织和增强数据. 这其中就蕴含着 机器学习领域以及本文章所介绍项目的前景:Apache Mahout(见 参考资料). 机器学习是人工智能的一个分支,它涉及通过一些技…
一.Mahout简介 查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了... 附logo: (就是他,骑在象头上的那个Mahout) 步入正文啦:        Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现.分类.聚类等.Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升…
Netty学习——Apache Thrift 简介和下载安装 Apache Thrift 简介 本来由Facebook开发,捐献给了Apache,成了Apache的一个重要项目 可伸缩的,跨语言的服务开发,他将融合了软件栈和代码生成引擎. IDL:Interface Description LanguageAndroid:AIDL:Android interface description language 下载安装Thrift,加载Thrift的依赖安装thrift编译器(安装稍微麻烦一些,因…
Apache使用简介 1.全局配置配置信 1) 配置持久连接 KeepAlive <On|Off>             #是否开启持久连接功能 MaxKeepAliveRequest 100     #一次持久连接最大的请求个数 KeepAliveTimeout 15            #持久连接的超时时间 2) 配置监听IP和端口 Listen [IP:]Port                  #设置监听的IP地址以及端口,本选项可以指定多个,以支持监听多个IP及端口 3) 模块…
Apache Storm简介 Storm是一个分布式的,可靠的,容错的数据流处理系统.Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt, bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt.一个Storm集群就是在一连串的bolt之间转换spout传过来的数据. Storm组件 在Storm集群中,有两类节点:主节点master node和工作节点worker nodes.主节点运行Nimbus守护进程,这个守护进程负责在集群中分发代码,为工…