HAMA

从BSP模型到Apache Hama

一.什么是BSP模型概述 BSP(Bulk Synchronous Parallel,整体同步并行计算模型)是一种并行计算模型,由英国计算机科学家Viliant在上世纪80年代提出.Google发布的一篇论文(<Pregel: A System for Large-Scale Graph Processing>)使得这一概念被更多人所认识,据说在Google 80%的程序运行在MapReduce上,20%的程序运行在Pregel上.和MapReduce一样,Google并没有开源Pregel…

Apache Hama安装部署

安装Hama之前,应该首先确保系统中已经安装了hadoop,本集群使用的版本为hadoop-2.3.0 一.下载及解压Hama文件下载地址:http://www.apache.org/dyn/closer.cgi/hama,选用的是目前最新版本:hama0.6.4.解压之后的存放位置自己设定. 二.修改配置文件在hama-env.sh文件中加入JAVA_HOME变量(分布式情况下,设为机器的值) 配置hama-site.xml(分布式情况下,所有机器的配置相同) bsp.master.add…

http://hama.apache.org/run_examples.html http://www.binospace.com/ http://57832638.iteye.com/blog/2021512 http://blog.csdn.net/john_f_lau/article/details/18899335 https://blogs.apache.org/hbase/entry/coprocessor_introduction OpenTSDB http://blog.sina…

Hama学习总结

Hama学习笔记 1. Hama定义 Hama是基于HDFS上的BSP模型实现,其执行不须要MapReduce. 例证例如以下: 在单点调试的Hama系统上,仅仅执行NameNode.DataNode.BSPMasterRunner.GroomServerRunner和 ZooKeeperRunner进程.就可以执行PageRank程序. 2. MapReduce与BSP差别运行机制:MapReduce是一个数据流模型,每一个任务仅仅是对输入数据进行处理,产生的输出数据作…

基于Hama并联平台Finding a Maximal Independent Set 设计与实现算法

笔者:白松 NPU学生. 转载请注明出处:http://blog.csdn.net/xin_jmail/article/details/32101483. 本文參加了2014年CSDN博文大赛,假设您认为此文对您有所帮助.就请为我投上您宝贵的一票,不胜感激. 投票地址:http://vote.blog.csdn.net/Article/Details?articleid=32101483 . 本文目的:解说并行Finding a Maximal Independent Set(寻找最大独立集问题…

Hama顶点编程

Hama是基于HDFS上的BSP模型实现. Apache Hame是Google Pregel的开源实现 Pregel是Google提出的一个面向大规模图计算的通用编程模型.许多实际应用中都涉及到大型的图算法,典型的如网页链接关系.社交关系.地理位置图.科研论文中的引用关系等,有的图规模可达数十亿的顶点和上万亿的边.Pregel编程模型就是为了对这种大规模图进行高效计算而设计. Pregel的设计思想来自BSP(Bluk Synchronous Parallel)模型.BSP模型包括三部分:BS…

Hama安装及示例运行

Hama介绍 Apache Hama是一个纯BSP(Bulk Synchronous Parallel)计算框架,模仿了Google的Pregel.用来处理大规模的科学计算,特别是矩阵和图计算. BSP概念由Valiant(2010图灵奖获得者)在1990年提出,具体参看wikipedia.Google在2009年发表了<Pregel: A System for Large-Scale Graph Processing>论文,在分布式条件下实现了BSP模型. Hama安装安装环境: OS:…

运行Hama实例PageRank

…

安装Hama的基本过程

…

PayPal高级工程总监：读完这100篇论文就能成大数据高手（附论文下载）

100 open source Big Data architecture papers for data professionals. 读完这100篇论文就能成大数据高手作者白宁超 2016年4月16日13:38:49 摘要:本文基于PayPal高级工程总监Anil Madan写的大数据文章,其中涵盖100篇大数据的论文,涵盖大数据技术栈(数据存储层.键值存储.面向列的存储.流式.交互式.实时系统.工具.库等),全部读懂你将会是大数据的顶级高手.作者通过引用Anil Madan原文和CS…

Mahout推荐算法API详解

转载自:http://blog.fens.me/mahout-recommendation-api/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年…

从源代码剖析Mahout推荐引擎

转载自:http://blog.fens.me/mahout-recommend-engine/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始…

Hadoop学习路线图

Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无一不向Ha…

Blog List

Blog List Spark Spark官方文档 - 中文翻译 Spark快速入门 - Spark 1.6.0 Spark SQL 官方文档-中文翻译 Spark SQL 之 Migration Guide Spark SQL 之 Performance Tuning & Distributed SQL Engine Spark SQL 之 Data Sources Spark SQL 之 DataFrame Spark基本工作流程及YARN cluster模式原理 Spark调度管理 Spa…

转：Eclipse Search Tips

from: https://github.com/ajermakovics/eclipse-instasearch/wiki/Eclipse-search-tips Eclipse Search Tips A few search shortcuts: Ctrl+J - Incremental Find in the current file. Pressing again takes to next match Ctrl+O - Quick Outline for the current c…

Spark入门实战系列--9.Spark图计算GraphX介绍及实例

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求. 众所周知·,社交网络中人与人之间有很多关系链,例如Twitter.Facebook.微博和微信等,这些都是大数据产生的地方都需要图计算,现在的图处理基本都是分布式的图处理,而并非单机处理.Spark G…

资源list：Github上关于大数据的开源项目、论文等合集

Awesome Big Data A curated list of awesome big data frameworks, resources and other awesomeness. Inspired byawesome-php, awesome-python, awesome-ruby, hadoopecosystemtable & big-data. Your contributions are always welcome! Awesome Big Data Frameworks…

对于spark以及hadoop的几个疑问(转)

Hadoop是啥?spark是啥? spark能完全取代Hadoop吗? Hadoop和Spark属于哪种计算计算模型(实时计算.离线计算)? 学习Hadoop和spark,哪门语言好? 哪里能找到比较全的学习资料? 1 Hadoop是啥?spark是啥? (1)先来了解下Hadoop历史渊源 Doug Cutting是Apache Lucene创始人, Apache Nutch项目开始于2002年,Apache Nutch是Apache Lucene项目的一部分.2005年Nutch所有主要算…

Hadoop家族路线图（转）

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无一…

Hive学习路线图(转)

Hadoophivehqlroadmap学习路线图 1 Comment Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,…

UI中经常出现的下拉框下拉自动筛选效果的实现

小需求是当你在第一个下拉框选择了国家时,会自动更新第二个省份的下拉框,效果如下两个下拉选择Html如下: <select id="country_select"> <option> All Countries</option> <option> Afghanistan</option> <option> Albania</option> <option> Algeria</optio…

PayPal 高级工程总监：读完这 100 篇文献，就能成大数据高手

原文地址开源(Open Source)对大数据影响,有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用:另一方面,开源也给大数据技术构建了一个异常复杂的生态系统.每一天,都有一大堆"新"框架."新"类库或"新"工具涌现,乱花渐欲"迷"人眼.为了掌控住这些"新玩意",数据分析的达人们不得不"殚精竭虑"地"学而时习之…

【云计算】mesos生态系统

以 Apache Mesos 计算的开源数据中心数据中心易云 · 2015-09-15 16:53 Apache Mesos 是一个管理器,它通过分布式的应用或框架提供了一种高效的资源隔离和共享.Mesos最初是由加州大学的伯克利分校开发的开源软件.它处于应用层和操作系统之间,使其易于部署,并使得在大规模集群环境中部署应用变得更高效.它可以在一个节点动态共享的池中运行很多应用.Mesos的突出用户包括 Twitter.Airbnb.MediaCrossing.Xogito 以及 Categ…

Hadoop学习（1）-- 入门介绍

Hadoop是Apache基金会开发的一个分布式系统基础架构,是时下最流行的分布式系统架构之一.用户可以在不了解分布式底层的情况下,在Hadoop上快速进行分布式应用的开发,并利用集群的计算和存储能力,完成海量数据的处理. 一.Hadoop特点 1.扩容能力(Scalable):能可靠地存储和处理千兆(PB)字节数据. 2.成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据,群集规模可达数千节点. 3.高效率(Efficient):通过分发数据,hadoop可以在数…

100 open source Big Data architecture papers for data professionals

zhuan :https://www.linkedin.com/pulse/100-open-source-big-data-architecture-papers-anil-madan Big Data technology has been extremely disruptive with open source playing a dominant role in shaping its evolution. While on one hand it has been disruptiv…

转】从源代码剖析Mahout推荐引擎

原博文出自于: http://blog.fens.me/mahout-recommend-engine/ 感谢! 从源代码剖析Mahout推荐引擎 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigto…

转】Mahout分步式程序开发聚类Kmeans

原博文出自于: http://blog.fens.me/hadoop-mahout-kmeans/ 感谢! Mahout分步式程序开发聚类Kmeans Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bi…

转】Mahout分步式程序开发基于物品的协同过滤ItemCF

原博文出自于: http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/ 感谢! Posted: Oct 14, 2013 Tags: HadoopitemCFMahoutMapReducemr Comments: 52 Comments Mahout分步式程序开发基于物品的协同过滤ItemCF Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Z…

转】Mahout推荐算法API详解

原博文出自于: http://blog.fens.me/mahout-recommendation-api/ 感谢! Posted: Oct 21, 2013 Tags: itemCFknnMahoutrecommendationSlope OneTree ClusterUserCF Comments: 35 Comments Mahout推荐算法API详解 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, M…

转】用Maven构建Mahout项目

原博文出自于: http://blog.fens.me/hadoop-mahout-maven-eclipse/ 感谢! 用Maven构建Mahout项目 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, B…

【HAMA】的更多相关文章