hadoop分布式部署(2014-3-8)】的更多相关文章

Hadoop 服务划分 使用三台节点,集群部署规划如下 服务\主机 hadoop1 hadoop2 hadoop3 HDFS NameNode DataNode DataNode SecondaryNameNode DataNode YARN NodeManager ResourceManager NodeManager NodeManager IP地址规划 hadoop1 192.168.123.11 hadoop2 192.168.123.12 hadoop3 192.168.123.13…
问题描述:    上一篇就是NameNode 的HA 部署完成,但是存在问题,问题是如果 主NameNode的节点宕机了,还是需要人工去使用命令来切换NameNode的Acitve 这样很不方便,所以 这篇学习笔记就是记录如何解决  故障转移的 启动以后每个都是Standby,选举一个为Active 监控  每个NameNode 都应该监控  (ZKFC   Failover  Controller  失败故障转移控制器) 开始进行配置 在hdfs-site.xml 文件中配置 : <prope…
环境问题: 出现Temporary  failure  in  name  resolutionp-senior-zuoyan.com 的原因有很多,主要就是主机没有解析到, 那就在hadoop的slaves 配置文件中 重新写一下主机名 如果还是没有成功启动,就将slaves 文件删除,然后重新创建,可能原因就是因为在windows 环境下打开编辑 文本中给添加了字符 集群基准测试(实际环境中必须的): 集群搭建完成以后 1. 基本测试:(创建目录.上传文件.Yarn运行程序.看看服务是否启动…
*******************                一定要使这三台机器的用户名相同,安装目录相同          ************* SSH 无密钥登录的简单介绍(之前再搭建本地伪分布式的时候,就生成了,现在这三台机器的公钥私钥都是一样的,所以下面这个不用配置) 单机操作: 生成密钥:命令  ssh-keygen -t rsa   然后四个回车 将密钥复制给本机  :命令   ssh-copy-id hadoop-senior.zuoyan.com 正式操作开始 在主…
1.规划好哪些服务运行在那个服务器上 需要配置的配置文件 2. 修改配置文件,设置服务运行机器节点 首先在   hadoop-senior  的这台主机上 进行   解压 hadoop2.5   按照伪分布式的配置文件来进行配置 使用命令  :tar -zxvf hadoop-2.5.0.tar.gz -C /opt/app/    (解压 hadoop 2.5) 然后进入   cd  /opt/app/hadoop-2.5.0/etc 将里面一开始的配置文件重命令   mv  hadoop …
这里只记录几个要点,比较容易出问题的地方. 1.各服务器必须有相同的用户(便于使用相同的用户ssh登录)2.ssh互通,配置无密码登录ssh-keygen -t rsa,将id_rsa.pub的内容相互复制到各主机的authorized_keys文件中,注意设置authorized_keys的权限为600(必须的,不然ssh登录时还是提示密码):修改/etc/ssh/ssh_config配置文件,启用RSA和公钥认证方式,并重启sshd服务.(为了保证可以通过ssh登录其他服务器,启动或停止ha…
hadoop简介: (维基百科)Apache Hadoop是一款支持數據密集型分佈式應用并以Apache 2.0許可協議發佈的開源軟體框架.它支持在商品硬件構建的大型集群上運行的應用程序.Hadoop是根據Google公司發表的MapReduce和Google檔案系統的論文自行實作而成. Hadoop框架透明地為應用提供可靠性和數據移動.它實現了名為MapReduce的編程範式: 應用程序被分割成許多小部分,而每個部分都能在集群中的任意節點上執行或重新執行.此外,Hadoop還提供了分佈式文件系…
官方参考 配置 地址  :http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html 一. 在Hadoop-senior.zuoyan.com 的主机上 首先将Hadoop安装目录下 etc下的hadoop的配置文件进行备份  使用命令:  cp -r hadoop dist-hadoop  然后在Hadoop安装目录下 data 文件夹内  将tmp …
1.首先将运行在本地上的  zookeeper 给停止掉 2.到/opt/softwares 目录下  将  zookeeper解压到  /opt/app 目录下 命令:  tar -zxvf zookeeper-3.4.5.tar.gz -C /opt/app/ 3.修改配置文件 将文件   zoo_sample.cfg   重命名为   zoo.cfg 创建文件目录    mkdir -p data/zkData       完整的路径:/opt/app/zookeeper-3.4.5/da…
What  is  Zookeeper 是一个开源的分布式的,为分布式应用提供协作服务的Apache项目 提供一个简单的原语集合,以便与分布式应用可以在他之上构建更高层次的同步服务 设计非常简单易于编程,他使用的是类似于文件系统那样的树形数据结构. 目的就是将分布式服务不再需要有协作冲突而另外实现协作服务 从设计模式角度来看,是一个基于观察者设计模式的分布式服务管理框架. 先将节点上的服务都停止掉 在节点一上执行命令:sbin/stop-dfs.sh 然后在节点二上执行命令:  sbin/sto…
1.对  hadoop 进行格式化 到  /opt/app/hadoop-2.5.0  目录下 执行命令:    bin/hdfs namenode -format 执行的效果图如下  (  下图成功   格式化     不要没事格式化  )          2.启动dfs 执行命令(在  /opt/app/hadoop-2.5.0/目录下):    sbin/start-dfs.sh 执行之后的效果就如下图 (可以看到  3个DataNode已经启动起来了,NameNode  和 secon…
一.将IP配置为静态 按照 下面的操作将IP配置为静态IP  这个静态的IP地址 是你自己设置的,只要符合虚拟机的IP段就可以.最后点击 Apply  需要root密码 将网络断开 (在网络图标左键 Disconnect ) 重新连接   检查IP是否改变了 如果IP地址已经改变了,那就说明网络配置成功 更改 主机名的方法(这个一会用到      现在这里可以不用改) 编辑   /etc/sysconfig/network    中的主机和IP地址 规划三台 分布式机器 现在开始克隆虚拟机   …
集群的时间要同步,如果时间不同步,会出现很多问题. 找一台机器做时间服务器 所有的机器与这台机器的时间进行定时的同步 比如,每日十分钟同步一次 我们这里使用  hadoop-senior.zuoyan.com 这台主机作为时间服务器 首先检查一下主机是否安装ntp服务     使用命令 :  rpm -qa |grep ntp 如果安装了就修改配置文件,如果没有安装 就安装上,下一步 修改ntp的配置文件  使用命令  vim  /etc/ntp.conf 需要修改文件内容的地方有三处 第一处:…
1.首先使用工具连接上  这三台虚拟主机 2.配置主机名   切换到  root 用户 第一种方式 可以使用命令       hostname   [要更改的主机名]     但是这种更改主机名的方式是一次性的,下次机器重启,这个主机名就会恢复到原来 第二种方式   :   vim   /etc/sysconfig/network   (这个就是上篇文章中说到的更改主机名方法,不过好像是需要机器重启才可以生效) 总结起来  这个步骤的操作就是    先使用名命令   hostname  [你要设…
Hadoop 2.6.0分布式部署參考手冊 关于本參考手冊的word文档.能够到例如以下地址下载:http://download.csdn.net/detail/u012875880/8291493 1.环境说明 1.1安装环境说明 本列中.操作系统为Centos 7.0.JDK版本号为Oracle HotSpot 1.7,Hadoop版本号为Apache Hadoop 2.6.0.操作用户为hadoop. 2.2 Hadoop集群环境说明: 集群各节点信息參考例如以下: 主机名 IP地址 角色…
Apache Hadoop 2.9.2 完全分布式部署(HDFS) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.环境准备 1>.操作平台 [root@node101.yinzhengjie.org.cn ~]# cat /etc/redhat-release CentOS Linux release (Core) [root@node101.yinzhengjie.org.cn ~]# [root@node101.yinzhengjie.org.cn ~]# uname…
Hadoop生态圈-zookeeper完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客部署是建立在Hadoop高可用基础之上的,关于Hadoop高可用部署请参考:https://www.cnblogs.com/yinzhengjie/p/9070017.html.本篇博客是将Hadoop的高可用配置和zookeeper完全分布式结合使用! 一.分布式协调框架 1>.分布式框架的好处 a>.可靠性: 一个或几个节点的崩溃不会导致整个集群的崩溃. b>…
1)集群规划:主机名        IP      安装的软件                     运行的进程master    192.168.199.130   jdk.hadoop                     NameNode.DFSZKFailoverController(zkfc)slaver1    192.168.199.131    jdk.hadoop                       NameNode.DFSZKFailoverController(…
完全分布式部署Hadoop 分析: 1)准备3台客户机(关闭防火墙.静态ip.主机名称) 2)安装jdk 3)配置环境变量 4)安装hadoop 5)配置环境变量 6)安装ssh 7)集群时间同步 7)配置集群 8)启动测试集群 1.      虚拟机准备 准备三台装有Centos系统的虚拟机,可以参考https://www.cnblogs.com/Transkai/p/10404127.html 然后对静态ip进行配置,可以参考  https://www.cnblogs.com/Transka…
Hadoop分布式HA的安装部署 前言 单机版的Hadoop环境只有一个namenode,一般namenode出现问题,整个系统也就无法使用,所以高可用主要指的是namenode的高可用,即存在两个namenode节点,一个为active状态,一个为standby状态.如下图: 说明如下:HDFS的HA,指的是在一个集群中存在两个NameNode,分别运行在独立的物理节点上.在任何时间点,只有一个NameNodes是处于Active状态,另一种是在Standby状态. Active NameNo…
Hadoop生态圈-Kafka的完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客主要内容就是搭建Kafka完全分布式,它是在kafka本地模式(https://www.cnblogs.com/yinzhengjie/p/9209058.html)的基础之上进一步实现完全分布式搭建过程. 一.试验环境 试验环境共计4台服务器 1>.管理服务器(s101) 2>.Kafka节点二(s102,已经部署好了zookeeper服务) 3>.Kafka节点三…
Hadoop生态圈-flume日志收集工具完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.   目前为止,Hadoop的一个主流应用就是对于大规模web日志的分析和处理,因此想要把web服务的日志导入到Hadoop来进行分析就得借助日志收集工具了.目前主流的Hadoop日志收集工具能够跟Hadoop进行交接的有三个工具,即flume,scribe和chukwa.本篇博客的主角是Apache的flume. 一.主流日志收集工具简介 1>.flume Flume是Cl…
Hadoop分布式集群部署 系统系统环境: OS: CentOS 6.8 内存:2G CPU:1核 Software:jdk-8u151-linux-x64.rpm hadoop-2.7.4.tar.gz hadoop下载地址: sudo wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.4/hadoop-2.7.4.tar.gz 主机列表信息: 主机名 IP 地址 安装软件 Hadoop role Node role…
Hadoop教程(五)Hadoop分布式集群部署安装 1 Hadoop分布式集群部署安装 在hadoop2.0中通常由两个NameNode组成,一个处于active状态,还有一个处于standby状态. Active NameNode对外提供服务,而Standby NameNode则不正确外提供服务,仅同步activenamenode的状态,以便可以在它失败时高速进行切换. hadoop2.0官方提供了两种HDFS HA的解决方式.一种是NFS,还有一种是QJM. 这里我们使用简单的QJM. 在…
Hadoop生态圈-phoenix完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. phoenix只是一个插件,我们可以用hive给hbase套上一个JDBC壳,但是你有没有体会到Hive执行SQL语句是很慢的,因此我们采用phoenix插件的方式给hbase套上JDBC的壳. 一.Phoenix简介 1>.其实Phoenix可以看成是在hbase的hive,它是使用SQL方式访问HBase数据: 2>.内置多种协处理器实现,轻松实现二级索引和聚合查询: 二.部…
完全分布式部署 Hadoop 分析: 1)准备 3 台客户机(关闭防火墙.静态 ip.主机名称) 2)安装 jdk 3)配置环境变量 4)安装 hadoop 5)配置环境变量 6)安装 ssh 7)配置集群 8)启动测试集群 scp 1)scp 可以实现服务器与服务器之间的数据拷贝. 2)案例实操 (1)将 hadoop101 中/opt/module 和/opt/software 文件拷贝到 hadoop102.hadoop103 和hadoop104 上. [root@hadoop101 /…
 Linux系统的安装和配置.(在VM虚拟机上) 一:安装虚拟机VMware Workstation 14 Pro 以上,虚拟机软件安装完成. 二:创建虚拟机. 三:安装CentOS系统 (1)上面步骤完成后虚拟机创建完成,虚拟机会自动重启进入安装系统阶段.如果不重启可手动重启,如下图. (2)进入虚拟机安装阶段.(鼠标在虚拟机内按Ctrl+Alt释放)媒介测试,默认一分钟后自动进入安装界面. (3)选择语言.(也可以下滑到下面,选择中文) (4)选择时区. (5)系统分区. (6)以下开始安装…
本节目的:搭建Hadoop分布式集群环境 环境准备 LZ用OS X系统 ,安装两台Linux虚拟机,Linux系统用的是CentOS6.5:Master Ip:10.211.55.3 ,Slave Ip:10.211.55.4 各虚拟机环境配置好Jdk1.8(1.7+即可) 资料准备 hadoop-2.7.3.tar.gz 虚拟机配置步骤 以下操作都在两台虚拟机 root用户下操作,切换至root用户命令 配置Master hostname 为Master ; vi /etc/sysconfi…
前言:       毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了.对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环境跑起来,然后在能用的基础上在多想想为什么.       通过这三个礼拜(基本上就是周六周日,其他时间都在加班啊T T)的探索,我目前主要完成的是: 1.在Linux环境中伪分布式部署hadoop(SSH免登陆),运行WordCount实例成功.  http://www.cnblogs.com/Pu…
1.问题描述 在进行hadoop2.x版本的hdfs分布式部署时,遇到了一个奇怪的问题: 使用start-dfs.sh命令启动dfs之后,所有的datanode节点上均能看到datanode进程,然而在namenode的web UI上,显示live nodes数目为1. 2.问题分析 打开hadoop2.x/logs文件夹下的hadoop-root-datanode.log文件,发现里面报了一个很有趣的异常: 2015-12-20 22:55:21,374 ERROR org.apache.ha…