0.简介 TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N个,这个结果是可以接受的并不会造成性能瓶颈. 这个TopN算法在map阶段将使用TreeMap来实现排序,以到达可伸缩的目的. 当然算法有两种,一种是唯一键,就是说key的类型是唯一的(是指在比较的实际阶段),比如本篇就是唯一键的TopN实现: 另一种就是非唯一键,比如key值可能会有A.B.C三种,然后分别对他们求TopN,当然,我们假设数据是混在一起的,非唯一键…
简介 TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N个,这个结果是可以接受的并不会造成性能瓶颈. 这个TopN算法在map阶段将使用TreeMap来实现排序,以到达可伸缩的目的. 当然算法有两种,一种是唯一键,就是说key的类型是唯一的(是指在比较的实际阶段),比如本篇就是唯一键的TopN实现: 另一种就是非唯一键,比如key值可能会有A.B.C三种,然后分别对他们求TopN,当然,我们假设数据是混在一起的,非唯一键方面…
对于Hadoop和Spark的开发,最常用的还是Eclipse以及Intellij IDEA. 其中,Eclipse是免费开源的,基于Eclipse集成更多框架配置的还有MyEclipse.Intellij分为Community版和Ultimate版,前者免费,后者付费.付费版同样是集成了更多的框架便于开发,主要是针对web开发人员.这里我们讲述两个IDE的配置方法,并推荐使用Intellij完成配置.首先需要明确的是,本文的配置是基于Java语言,基于Scala语言配置Spark开发环境在In…
hadoop之Spark强有力竞争者Flink,Spark与Flink:对比与分析 Spark是一种快速.通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个节点上,可以被并行操作.而Flink是可扩展的批处理和流式数据处理的数据处理平台. Apache Flink,apache顶级项目,是一个高效.分布式.基于Java实现的通用大数据分析引擎,它具有分布式 MapReduce一类平台的高效性.灵活性和扩展性以及并行数据库查询优化方案…
先看这篇文章:http://www.huochai.mobi/p/d/3967708/?share_tid=86bc0ba46c64&fmid=0 直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠. 比如说,Spark没有文件管理功能,因而必须依赖Hadoop分布式文件系统(HDFS)或另外某种解决方案. Hadoop框架的主要模块包括如下: Hadoop Common Hadoop分布式文件系统(HDFS) Hadoop YARN Hadoop…
谈到大数据框架,现在最火的就是Hadoop和Spark,但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,倒底现在业界都在使用哪种技术?二者间究竟有哪些异同?它们各自解决了哪些问题?下面不妨跟我一块看下它们究竟有什么异同. 解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护…
在MacOs上配置hadoop和spark环境 Setting up Hadoop with Spark on MacOs Instructions 准备环境 如果没有brew,先google怎样安装brew 先uninstall老版本的Hadoop brew cleanup hadoop 然后更新homebrew formulae brew update brew upgrade brew cleanup 检查版本信息 brew info hadoop brew info apache-spa…
成都大数据Hadoop与Spark技术培训班   中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开发设计人员的工作水平,旨在培养专业的大数据Hadoop与Spark技术架构专家,更好地服务于各个行业的大数据项目开发和落地实施. 2015年近期公开课安排:(全国巡回开班) 08月21日——08月23日大连 09月23日——09月25日北京 10月16日——10月18日成都 11月27日——11…
目前正在学习Hadoop和spark之类的东西,一个月把Hadoop的基础东西过了一遍,但是感觉好动都没跟上老师的课程,哪位前辈了解这方面的东西希望给指点迷津.接下来我们还要学习spark和nosql,每天基本都是12点以后才能入睡,早上8点准时开工.很累很累,但任然想继续努力把它做好. 在Hadoop中,现在主要学了hdfs,hive,sqoop,pig等内容,现在spark正在进行spark/sql和spark/hive. 求前辈指点.…
关于PageRank的地位,不必多说. 主要思想:对于每个网页,用户都有可能点击网页上的某个链接,例如 A:B,C,D B:A,D C:AD:B,C 由这个我们可以得到网页的转移矩阵      A    B    C    D A  0    1/2  1    0 B 1/3   0    0    0 C 1/3  1/2  0    0 D 1/3  0     0    1/2   Aij表示网页j到网页i的转移概率.假设起始状态每个用户对ABCD四个网站的点击概率相同都是0.25,那么…