hadoop高速扫盲帖，从零了解hadoop

【hadoop高速扫盲帖，从零了解hadoop】的更多相关文章

hadoop高速扫盲帖，从零了解hadoop

1.MapReduce理论简单介绍 1.1 MapReduce编程模型 MapReduce採用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完毕,然后通过整合各个节点的中间结果,得到终于结果.简单地说,MapReduce就是"任务的分解与结果的汇总". 在Hadoop中,用于运行MapReduce任务的机器角色有两个:一个是JobTracker:还有一个是TaskTracker,JobTracker是用于调度工作的,TaskTra…

从零自学Hadoop系列索引

本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 从零自学Hadoop(01):认识Hadoop 从零自学Hadoop(02):环境准备从零自学Hadoop(03):Linux准备上从零自学Hadoop(04):Linux准备下从零自学Hadoop(05):Ambari 从零自学Hadoop(06):集群搭建从零自学Hadoop(07):Eclipse插件从零自学Hadoop(08):…

从零自学Hadoop(01)：认识Hadoop

本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 阅读目录序 Hadoop 项目起源优点核心架构开源实现子项目 HDFS流程图系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序我是一个工作比较多年数的.net程序猿,最开始做过ERP,这几年一直做监控.应急行业.从产品的…

从零自学Hadoop(22)：HBase协处理器

阅读目录序介绍 Observer操作示例下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇,我们讲述了HBase的数据模型相关操作的下部分. 下面我们开始介绍HBase的协处理器部分. 介绍一:介绍从0.92版本开始,HBase加入了协处理器(coprocessors),利用协处理器,用户可以编写运行在 HBase Server 端的代码.可以实现“二级索…

从零自学Hadoop(20)：HBase数据模型相关操作上

阅读目录序介绍命名空间表系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇,我们讲述了HBase的介绍及安装,从列图和引用的方式,列举的HBase能做什么及一些特点,也截图了HBase的安装过程. 下面我们开始介绍HBase的数据模型相关操作,该部分内容较多,分成两个部分. 介绍一:Data Model Data Model包括Table(表),Row(行),…

从零自学Hadoop(21)：HBase数据模型相关操作下

阅读目录序变量数据模型操作系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇,我们讲述了HBase的数据模型相关操作的上部分. 下面我们开始介绍HBase的数据模型相关操作的下部分. 变量一:定义变量这样我们就可以使用t这个变量来代替table1了. t=get_table 'table1' 二:使用 t.put 'row1','cf1:a','v1' t.g…

从零自学Hadoop(19)：HBase介绍及安装

阅读目录序介绍安装系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇,我们讲述了Hive的CLI和JDBC,从编程和使用的角度进入了Hadoop生态.这里就介绍下Hadoop DataBase,简称HBase. 下面我们开始介绍HBase的介绍及安装. 介绍一:定义 HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Goog…

从零自学Hadoop(18)：Hive的CLI和JDBC

阅读目录序 Hive CLI(old CLI) Beeline CLI(new CLI) JDBC Demo下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇,我们对hive的数据导出,以及集群Hive数据的迁移进行描述.了解到了基本的hive导出操作.这里,我们将对hive的CLI及JDBC这些实用性很强的两个方便进行简要的介绍. 下面我们开始介绍hive的CL…

从零自学Hadoop(02)：环境准备

阅读目录起因虚拟机 Linux 系统安装系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 起因我们对Hadoop有了初步的认知,得有NameNode,DataNode,NameNode和DataNode可以在一个机器上,但这样效果不好.由于本人的机器只有8G内存,所以这里就创建4个虚拟机一个专门给Ambari使用,一个给NameNode,另外两个给DataNode. 我们开始迈…

从零自学Hadoop(03)：Linux准备上

阅读目录序检查列表常用Linux命令搭建环境系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序在上一步骤,我们已经准备了4台虚拟机,分别是H30,H31,H32,H33.其中H30为我们的Ambari服务器,H31为NameNode服务器,H32,H33为我们的DataNode服务器. 接下来,我们就得准备下这些虚拟机的Linux环境了. 检查列表 1.网络访问 2.防火…