搭建Hadoop集群（生产环境）

1.搭建之前：百度copy一下介绍（本博客几乎全都是生产环境的配置。。包括mongo等hbase其他）

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

[1] Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。[2]

其实hadoop，就是两个点 HDFS 和 yarn ,HDFS存数据， yarn来做资源调度（将集群机器的CPU和内存收纳到一起，根据需求做分配）

所以配置文件其实就是围绕这两个点的配置啦。Hadoop总共要修改5个配置文件（4个最重要。1个是指定JDK等等路径的哈哈）

2：开始搭建

①去Oracle官网下载JDK：生产环境使用1.8.0_92,64位，不要问为什么，每个公司都有每个公司的标准。自己定就可以。反正最新的hadoop hbase应该都是需要JDK1.8的。当然这个很重要，像大型的这种Hbase Hadoop GC方式等等配置。会对整个集群造成很大的影响。大到不能再大，，所以后续会讲、

安装JDK 我就不说了，

机器硬件标准及目录标准：/app目录下放应用 /data下放应用产生的数据，包括DB数据，但是大数据比较特殊，会单独给HDATA下挂载12个盘。每个公司标准不一样。。。。。。再说一下、服务器标配 48核 256G 内存高配就是 64核心 512G内存好像是。顶配好像可以达到1T内存。。。

JDK放在 /app/jdk1.8.0_092 然后ln -s jdk1.8.0_092 jdk 就会产生软链，类似下图（集群所有机器）

接下来编辑 /etc/profile文件加入JDK环境变量（当然，这些我全是salt自动化。就一句命令全部自动搞定，后续会讲。机器多的时候会很有作用。）

vim /etc/profile 加到最后保存之后 source一下。这些搞不定就。。。自己想办法。

② 安装zookeeper

下载zookeeper zookeeper-3.4.9.tar.gz 一般zk要奇数个 5个吧，一般或者7个也可以。

也是类似JDK的目录。最终效果就是

注意：zookeeper配置文件

vim /app/zookeeper/conf/zoo.cfg

tickTime=2000
dataDir=/app/zookeeper/data
dataLogDir=/app/zookeeper/logs
maxClientCnxns=300
minSessionTimeout=100000
maxSessionTimeout=120000
clientPort=2181
syncLimit=5
initLimit=10
autopurge.snapRetainCount=3
autopurge.purgeInterval=1
jute.maxbuffer=4096
server.1=10.202.105.52:2888:3888
server.2=10.202.105.53:2888:3888
server.3=10.202.105.54:2888:3888

server.X就是你每个zk集群的 ip和端口。2888为通信端口，3888为zk自己选举的端口（异常情况或初始化时候zk自己本身集群选举leader 等使用。）

dataDir dataLogDir等目录（配置文件中，自己都建立好，然后用户权限等都新建zookeeper用户并赋予zk相关各个路径的权限。并且在集群每个节点/app/zookeeper/data下建立 myid文件里面填上数值数值就是server.x中的x，）

启动zk zkServer.sh start 注意将zk加入环境变量并source 否则就绝对路径启动吧。

zkServer,sh status 可以查看集群每个zk的角色，如果显示 leader 或者flower就是对的了。

接下来就是搭建hadoop了。

③搭建hadoop（这里注重一台机器上的，其他你咋么分发到别的机器，后续会用自动化工具介绍，本篇注重配置文件）

搭建Hadoop集群（生产环境）的更多相关文章

Spark集群环境搭建——Hadoop集群环境搭建
Spark其实是Hadoop生态圈的一部分,需要用到Hadoop的HDFS.YARN等组件. 为了方便我们的使用,Spark官方已经为我们将Hadoop与scala组件集成到spark里的安装包,解压 ...
环境搭建-Hadoop集群搭建
环境搭建-Hadoop集群搭建写在前面,前面我们快速搭建好了centos的集群环境,接下来,我们就来开始hadoop的集群的搭建工作实验环境 Hadoop版本:CDH 5.7.0 这里,我想说一下 ...
在搭建Hadoop集群环境时遇到的一些问题
最近在学习搭建hadoop集群环境,在搭建的过程中遇到很多问题,在这里做一些记录.1. SSH相关的问题问题一: ssh: connect to host localhost port 22: Co ...
Hadoop入门进阶步步高（五）-搭建Hadoop集群
五.搭建Hadoop集群上面的步骤,确认了单机能够运行Hadoop的伪分布运行,真正的分布式运行无非也就是多几台slave机器而已,配置方面的有一点点差别,配置起来就很easy了. 1.准备三台se ...
virtualbox 虚拟3台虚拟机搭建hadoop集群
用了这么久的hadoop,只会使用streaming接口跑任务,各种调优还不熟练,自定义inputformat , outputformat, partitioner 还不会写,于是干脆从头开始,自己 ...
搭建Hadoop集群 (三)
通过搭建Hadoop集群 (二), 我们已经可以顺利运行自带的wordcount程序. 下面学习如何创建自己的Java应用, 放到Hadoop集群上运行, 并且可以通过debug来调试. 有多少种D ...
搭建Hadoop集群 (一)
上面讲了如何搭建Hadoop的Standalone和Pseudo-Distributed Mode(搭建单节点Hadoop应用环境), 现在我们来搭建一个Fully-Distributed Mode的 ...
搭建Hadoop集群 (二)
前面的步骤请看搭建Hadoop集群 (一) 安装Hadoop 解压安装登录master, 下载解压hadoop 2.6.2压缩包到/home/hm/文件夹. (也可以从主机拖拽或者psftp压缩 ...
Linux下搭建Hadoop集群
本文地址: 1.前言本文描述的是如何使用3台Hadoop节点搭建一个集群.本文中,使用的是三个Ubuntu虚拟机,并没有使用三台物理机.在使用物理机搭建Hadoop集群的时候,也可以参考本文.首先这 ...
Linux 搭建Hadoop集群成功
内容基于(自己的真是操作步骤编写) Linux 搭建Hadoop集群---Jdk配置 Linux 搭建Hadoop集群 ---SSH免密登陆一:下载安装 Hadoop 1.1:下载指定的Hadoop ...

随机推荐

LIRE图片识别搜索demo--Ubuntu开发
Ubuntu安装shadowsocks客户端/服务端教程 1.安装shadowsocks sudo apt-get update sudo apt-get install python-pip sud ...
BZOJ4356Ceoi2014 Wall——堆优化dijkstra+最短路树
题目描述给出一个N*M的网格图,有一些方格里面存在城市,其中首都位于网格图的左上角.你可以沿着网络的边界走,要求你走的路线是一个环并且所有城市都要被你走出来的环圈起来,即想从方格图的外面走到任意一个 ...
Codeforces Round #543 (Div. 2, based on Technocup 2019 Final Round)
A. Technogoblet of Fire 题意:n个人分别属于m个不同的学校每个学校的最强者能够选中黑客要使 k个他选中的可以稳被选所以就为这k个人伪造学校问最小需要伪造多少个思路:记 ...
android最最基础简单的保存xml代码
y偶遇非常基础,我想直接上代码: MainActivity.java: package com.lgqchinese.xmlcreate; import android.support.v7.app. ...
使用python和selenium写一个百度搜索的case
今天练习的内容主要写了一个小功能,在百度上搜索某词汇,然后实现web上的back功能代码如下: import unittest from selenium import webdriver from ...
IDEA 新建 module
maven项目可以创建多个module,在IDEA中具体操作 1.在已经建好的maven项目上右键 2.新建: 效果如下: 这时在子pom.xml中 <parent> <artifa ...
Linux 日志分析脚本
#### 以下代码,若出现无法使用,请根据底下图片,更改参数.根据 apache 日志格式修改查看 apache 进程ps aux | grep httpd | grep -v grep | wc ...
PKUWC2019 凉凉记
请配合 BGM 食用. 菜就是菜,说什么都是借口. Day 0 前一天先到纪中报道,高铁上打了一会单机膈膜,然后又打了一遍 \(FFT\) 板子,就到了中山. 到了后,发现气温骤然升高,马上脱换裤 ...
网络文件系统(NFS)简介
网络文件系统(Network File System, NFS)是一种分布式文件系统协议,最初由Sun Microsystems公司开发,并于1984年发布.其功能旨在允许客户端主机可以像访问本地存储 ...
洛谷P3740 【[HAOI2014]贴海报】
(呃...本蒟蒻的第一篇题解qwq)..不废话了讲正题..思路来源于铺地毯(-->传送门)..先算出每一个格子上覆盖的海报并把可见的海报做标记然后算出有多少海报是可见的..但是作为省选题怎么可能 ...

搭建Hadoop集群（生产环境）

搭建Hadoop集群（生产环境）的更多相关文章

随机推荐

热门专题