对于一个刚开始学习Spark的人来说,当然首先需要把环境搭建好,再跑几个例子,目前比较流行的部署是Spark On Yarn,作为新手,我觉得有必要走一遍Hadoop的集群安装配置,而不仅仅停留在本地(local)模式下学习,因为集群模式下跨多台机器,环境相对来说更复杂,许多在本地(local)模式下遇不到的问题在集群模式下往往出现,下面将结合实际详细介绍在 CentOS-6.x 系统上 hadoop-2.2.0 的集群安装(其他Linux发行版无太大差别),最后运行WordCount程序以验证…
前言 安装Apache Hive前提是要先安装hadoop集群,并且hive只需要在hadoop的namenode节点集群里安装即可,安装前需保证Hadoop已启(动文中用到了hadoop的hdfs命令). 关于如何安装Hadoop集群请参照:CentOS7搭建Hadoop2.8.0集群及基础操作与测试 下载Apache Hadoop 下载 地址:http://hive.apache.org/downloads.html wget http://mirrors.hust.edu.cn/apach…
Apache Spark™是用于大规模数据处理的统一分析引擎. 从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台.它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的.低延迟的数据分析应用程序.它扩展了广泛使用的MapReduce计算 模型.高效的支撑更多计算模式,包括交互式查询和流处理.spark的一个主要特点是能够在内存中进行计算,及时依赖磁盘进行复杂的运算,Spark依然比MapReduce更加高效.   中间结果输…
一.安装的需要软件及集群描述 1.软件: Vmware9.0:虚拟机 Hadoop2.2.0:Apache官网原版稳定版本 JDK1.7.0_07:Oracle官网版本 Ubuntu12.04LTS:长期支持版本 Ganglia:集群性能监测软件 ssh:SSH 为 Secure Shell 的缩写,由 IETF 的网络工作小组(Network Working Group)所制定:SSH 为建立在应用层和传输层基础上的安全协议.SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议…
位说明. 位).Jdk使用的1.7(1.6也可以).网络配置好,相互可以ping通,java环境安装完毕.   第一部分 Hadoop 2.2 下载 位). 下载地址:http://apache.claz.org/hadoop/common/hadoop-2.2.0/ 如下图所示,下载红色标记部分即可.如果要自行编译则下载src.tar.gz. 第二部分 Hadoop 2.2 安装准备 2.1java配置 第三部分 Hadoop 2.2 安装 3.1集群环境          172.72.10…
一.环境 系统: Ubuntu 14.04 64bit Hadoop版本: hadoop 2.4.1 (stable) JDK版本: OpenJDK 7 台作为Master,另3台作为Slave. 所有主机的用户名都为hadoop,密码为123456. 二.网络主机配置 配置主机名和局域网IP 主机名与局域网IP地址对应如下: 主机名 局域网IP Master  115.156.236.178  Slave1  115.156.236.199 Slave2  115.156.236.189 Sl…
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA.YARN等. 注意:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库, 所以如果在64位的操作上安装hadoop-2.2.0就需要重新在64操作系统上重新编译 集群规划: 主机名 IP 安装的软件 运行的进程 cloud1 192.168.61.128jdk.hadoopNameNode.DFSZKFailoverController cloud2 192…
1.hadoop2.x 概述 个).每一个都有相同的职能.一个是active状态的,一个是standby状态的.当集群运行时,只有active状态的NameNode是正常工作的,standby状态的NameNode是处于待命状态的,时刻同步active状态NameNode的数据.一旦active状态的NameNode不能工作,standby状态的NameNode就可以转变为active状态的,就可以继续工作了. 个NameNode的数据其实是实时共享的.新HDFS采用了一种共享机制,Quorum…
1 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.9.1 2.9.2 2.9.2.1 2.9.2.2 2.9.3 2.9.3.1 2.9.3.2 2.9.3.3 2.9.3.4 2.9.3.5 3 4 5 5.1 5.2 5.3 6 7 7.1 7.2 8 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 8.10 8.11 8.12 8.13 8.14 8.15 8.16 8.16.1 8.17 8.18 8.19 8.19.1 8.19…
前言 本人呕心沥血所写,经过好一段时间反复锤炼和整理修改.感谢所参考的博友们!同时,欢迎前来查阅赏脸的博友们收藏和转载,附上本人的链接http://www.cnblogs.com/zlslch/p/5851166.html 关于几个疑问和几处心得! a.用NAT,还是桥接,还是only-host模式? 答: hostonly.桥接和NAT b.用static的ip,还是dhcp的? 答:static c.别认为快照和克隆不重要,小技巧,比别人灵活用,会很节省时间和大大减少错误. d.重用起来脚本…