决定选择 Cloudera Manager 进行安装,阅读官方文档,掌握大概脉络.         Cloudera Manager在集群已经实现ssh免秘钥登录,能够访问网络资源和本地资源的情况下,可以自动安装和配置CDH(Cloudera  distributed hadoop),以及管理在这个集群上面的服务.        Cloudera Manager安装软件包括: A small self-executing Cloudera Manager installation prog…
   登录 http://node1.com:7180/.用户名和密码都是admin.启动服务命令是 service  cloudera-scm-server start 最开始两个页面直接continue,然后会出现下面这个页面: 可以看出我们可以通过Cloudera Manager安装的hadoop组件. 接下来,配置我们要安装的服务器有哪些: 我这里有三台服务器. 接下来选择cdh版本:我选择最新的5.5.1 是否安装jdk: 是否是单用户模式:我选择不适用 单用户模式的详细信息参阅: h…
之前接触过很多很多hadoop版本,现在重新搭建平台,面临选择哪个版本的问题. 当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素: (1)是否为开源软件,即是否免费. (2) 是否有稳定版,这个一般软件官方网站会给出说明. (3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道. (4) 是否有强大的社区支持,当出现一个问题时,能够通过社区.论坛等网络资源快速获取解决方法. 对于版本选择,dongxicheng在他的博客中做过总结:点击这个链接可以查…
从8月份到现在12月份,中间有四个月的时间没有学习hadoop系统了.其实适应新的环境,到现在一切尘埃落定,就应该静下心来,好好学习一下hadoop以及我之前很想学习的mahout.个人对算法比较感兴趣,不希望自己能够研究出点啥,只求我自己能够明白和运用牛人们已经研究出来的东西.所以,今天在搭建了三台centos机器,准备搭建hadoop平台. 系统 系统版本: CentOS release 6.5 (Final) CPU: model name      : Intel(R) Core(TM)…
SSH对于大多程序员都不陌生,目前主流的云服务提供上也是通过SSH来提供链接的安全保障,比如AWS通过使用下载的私钥(private key)实现与EC2实例安全连接.GitHub通过上传的公钥(public key)实现基于git协议(底层使用SSH)远程库管理. SSH(Secure Shell)是一个提供数据通信安全.远程登录.远程指令执行等功能的安全网络协议,由芬兰赫尔辛基大学研究员Tatu Ylönen,于1995年提出,其目的是用于替代非安全的Telnet.rsh.rexec等远程S…
Hadoop+HBase 集群搭建 1. 环境准备 说明:本次集群搭建使用系统版本Centos 7.5 ,软件版本 V3.1.1. 1.1 配置说明 本次集群搭建共三台机器,具体说明下: 主机名 IP 说明 hadoop01 10.0.0.10 DataNode.NodeManager.NameNode hadoop02 10.0.0.11 DataNode.NodeManager.ResourceManager.SecondaryNameNode hadoop03 10.0.0.12 Data…
忽略元数据末尾 回到原数据开始处 Hadoop+spark集群搭建 说明: 本文档主要讲述hadoop+spark的集群搭建,linux环境是centos,本文档集群搭建使用两个节点作为集群环境:一个作为Master节点,另一个作为Slave节点,由于spark依赖scala,所以需要安装scala 搭建步骤: 一:安装jdk二:安装hadoop集群(http://www.powerxing.com/install-hadoop-cluster/也可参考这个大家hadopp集群)1:选定一台机器…
layout: "post" title: "Hadoop分布式集群搭建" date: "2017-08-17 10:23" catalog: true --- 基础环境 ## 环境准备 1,软件版本 (1)在VMWare上面跑了三台虚拟机:CentOS7,系统内核3.10 (2)三台虚拟机的IP:192.168.102.3,192.168.102.4,192.168.102.5.三台机器分别作为hadoop的master,slaveA,slav…
集群配置: jdk1.8.0_161 hadoop-2.6.1 zookeeper-3.4.8 linux系统环境:Centos6.5 3台主机:master.slave01.slave02 Hadoop HA集群搭建(高可用): 设置静态IP地址 为普通用户添加sudo权限 服务器网络设置:NAT模式 域名设置 主机名设置 SSH免登录配置 关闭防火墙 红色步骤主每台主机都要执行,参照上一篇伪分布式集群的搭建 环境变量(每台主机一样): 配置文件: 配置core-site.xml <confi…
前段时间搭建Hadoop分布式集群,踩了不少坑,网上很多资料都写得不够详细,对于新手来说搭建起来会遇到很多问题.以下是自己根据搭建Hadoop分布式集群的经验希望给新手一些帮助.当然,建议先把HDFS和MapReduce理论原理看懂了再来搭建,会流畅很多. 准备阶段: 系统:Ubuntu Linux16.04  64位 (下载地址:https://www.ubuntu.com/download/desktop) 安装好Ubuntu之后,如果之前没有安装过jdk,需要先安装jdk.这里安装jdk的…
那玩大数据,想做个大数据的从业者,必须了解在生产环境下搭建集群哇?由于hadoop是apache上的开源项目,所以版本有些混乱,听说都在用Cloudera的cdh5来弄?后续研究这个吧,就算这样搭建不适合真实环境,也算是了解hadoop的一些基本东西了. 搭建之前要做一些前期的准备,如果买不起服务器那就装虚拟机吧,看了一种用最少的服务器模拟真是环境的搭建方式,需要四台,好吧,整四个虚拟机,事实证明我的坑爹电脑撑得住. 使用vm建立几台虚拟机,首先要知道自己处在什么样的网络环境下,其实直接用nat…
前段时间搭了下hadoop,每次都会碰到很多问题,也没整理过,每次搜索都麻烦,现在整理下 一.准备工作 1.准备俩计算机,安装linux系统,分别装好jdk(虚拟机操作一样) nano /etc/hostname 修改hostname nano /etc/hosts 添加ip及hostname信息 2.计算机信息如下 主机名 ip地址 作用 启动的进程 test1   192.168.155.2 master/slave namenode,jobtracker,secondarynamenode…
1.环境 操作系统:ubuntu16 jdk:1.8 hadoop:2.9.1 机器:3台,master:192.168.199.88,node1:192.168.199.89,node2:192.168.199.90 2.搭建步骤 2.1 修改主机名hostname,三台机器分别执行如下命令,依次填入master,node1,node2 sudo vim /etc/hostname 2.2 修改hosts文件,三台机器依次执行 sudo vim /etc/hosts 2.3 修改环境变量,三台…
Hadoop是一个开源的分布式系统框架 一.集群准备 1. 三台虚拟机,操作系统Centos7,三台主机名分别为k1,k2,k3,NAT模式 2.节点分布 k1: NameNode DataNode ResourceManager NodeManager        k2: SecondNameNode DataNode NodeManager        k3 : DataNode NodeManager 3.安装包准备 jdk-8uxx-linux-x64.rpm        hado…
序言 最近公司一个汽车项目想用hbase做存储,然后就有了这篇文字,来,来,来, 带你一起征服hbase,并推荐一本书<hbase权威指南> 这是一本极好的hbase入门书籍,我花了一个晚上看完觉得这书蛮好的!  本文分上下两篇,上篇是hbase+hadoop+hdfs+zookeeper集群环境的安装,下篇讲解hbase如何集成spring来使用.hbase是个什么鬼?不知道不要紧,本文是我三天的成果,拿去,不谢! Hbase+hadoop+hdfs+zookeeper集群环境的安装 had…
1.选取三台服务器(CentOS系统64位) 114.55.246.88 主节点 114.55.246.77 从节点 114.55.246.93 从节点 之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作.如果是用root用户操作的话就不存在以上问题. 我是用root用户操作的. 2.修改hosts文件 修改三台服务器的hosts文件. vi /etc/hosts 在原文件的基础最后面加上: 114.55.246.88 Master 114.55.…
网络配置 1.永久性配置CentOS网络 vi /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 TYPE=Ethernet ONBOOT=yes BOOTPROTO=static IPADDR=192.168.1.110 NETMASK=255.255.255.0 GATEWAY=192.168.1.1 2.重启网卡 service network restart 关闭防火墙 service iptables stop service…
  NameNode DataNode Zookeeper ZKFC JournalNode ResourceManager NodeManager node1 √   √ √   √   node2 √ √ √ √ √   √ node3   √ √   √   √ node4   √     √ √ √ (ZKFC在NameNode上启动,NodeManager在DataNode上启动,可通过start-dfs.sh和start-yarn.sh,yarn-daemons.sh查看) 1.4台…
获取镜像 #本机内 docker pull ubuntu:16.04 编排镜像 启动一个容器 #本机内 docker run -i -t --name master ubuntu:16.04 在容器内进行安装配置 #容器内 apt update apt install openjdk8-jdk, ssh, net-tools,iputils-ping echo 'export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/' >> ~/.bashrc…
1.hadoop-env.sh 2.core-site.xml <configuration> <!-- 指定hdfs的nameservice为ns1 --> <property> <name>fs.defaultFS</name> <value>hdfs://ns1/</value> </property> <!-- 指定hadoop临时目录 --> <property> <na…
准备 需要准备多台主机(已经安装并且配置好hadoop和jdk) 需要配置ssh免密服务 下面我们开始进行配置,拿到已经准备好的主机,主机名分别为: centos101 centos102 centos103 先说下为什么需要进行ssh免密码配置: 我们在操作集群时,经常需要在各台主机上进行数据传输.主机切换等工作,如果直接进行切换等操作需要每次输入密码,当操作频繁 时,就显得很复杂,所以需要配置ssh免密码,让主机间自动检验账号密码. 主机间进行ssh通信的原理图 配置ssh免密 ①在主机ce…
准备工作: 若没有下载vim请下载vim 若出现 Could not get lock /var/lib/dpkg/lock 问题请参考: https://jingyan.baidu.com/article/636f38bb861422d6b8461024.html 下载 openssh-server 查看ssh 如果显示sshd则说明已启动成功 查看主机 ifconfig -a inet后面即为你的ip Xshell连接 创建soft目录 下载lrzsz, 然后就可以拖拉文件上传了 JDK配置…
过程如下: 配置hosts vim /etc/hosts 格式: ip hostname ip hostname 设置免密登陆 首先:每台主机使用ssh命令连接其余主机 ssh 用户名@主机名 提示是否连接:输入yes 提示输入密码:输入被请求连接主机的密码 成功过后 就会在本机的~目录下生成  .ssh文件夹 然后在master的主机上进入 ~/.ssh 目录 执行: ssh-keygen -t rsa 回车回车再回车 得到  id_rsa   id_rsa.pub  两个文件复制一份 id_…
参考的这3个文档,虽然搭建花了挺长时间也遇到挺多问题,但是这3个文档对我的帮助确实挺大,如果有兴趣的或者有需要的可以参考以下文档. http://blog.csdn.net/wy250229163/article/details/52729608 http://blog.csdn.net/u012604314/article/details/51606918 http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/ 搭建途中肯…
一.安装hadoop.HA及配置journalnode 实现namenode HA 实现resourcemanager HA namenode节点之间通过journalnode同步元数据 首先下载需要版本的hadoop,我用的版本是hadoop-2.9.1 安装到5台机器上 master1  master2上安装namenode master1  master2上配置resourcemanager slave1   slave2   slave3上安装datanode slave1   slav…
一.关闭防火墙(直接用root用户) #关闭防火墙 sudo systemctl stop firewalld.service #关闭开机启动 sudo systemctl disable firewalld.service 二.修改每台主机的Hostname(三台主机都一样) vim /etc/hosts 注释原有的内容,加入如下内容,ip地址为你自己的虚拟机的IP地址: more /etc/hosts查看是否正确,需要重启后方能生效.重启命令reboot now more /etc/host…
学习Hadoop集群环境搭建是Hadoop入门必经之路.搭建分布式集群通常有两个办法: 要么找多台机器来部署(常常找不到机器) 或者在本地开多个虚拟机(开销很大,对宿主机器性能要求高,光是安装多个虚拟机系统就得搞半天……). 那么,问题来了! 有没有更有可行性的办法? 提到虚拟化,Docker最近很是火热!不妨拿来在本地做虚拟化,搭建Hadoop的伪分布式集群环境.虽然有点大材小用,但是学习学习,练练手也是极好的. 文章比较长,建议先倒杯水,听我慢慢到来…… 先说一下我的思路吧: 先使用Dock…
最近准备接触分布式计算,学习分布式计算的技术栈和架构知识.目前的分布式计算方式大致分为两种:离线计算和实时计算.在大数据全家桶中,离线计算的优秀工具当属Hadoop和Spark,而实时计算的杰出代表非Flink莫属了.Hadoop算是分布式计算的鼻祖,又是用Java代码实现,我们就以Hadoop作为学习分布式计算的入门项目了. 目录 一.环境 二.创建Hadoop用户 1. 设置密码 2. 增加管理员权限 三.配置SSH免密登录 四.hosts配置主机名 五.安装JDK环境 六.安装Hadoop…
本节目的:搭建Hadoop分布式集群环境 环境准备 LZ用OS X系统 ,安装两台Linux虚拟机,Linux系统用的是CentOS6.5:Master Ip:10.211.55.3 ,Slave Ip:10.211.55.4 各虚拟机环境配置好Jdk1.8(1.7+即可) 资料准备 hadoop-2.7.3.tar.gz 虚拟机配置步骤 以下操作都在两台虚拟机 root用户下操作,切换至root用户命令 配置Master hostname 为Master ; vi /etc/sysconfi…
hbase和hadoop一样也分为单机版.伪分布式版和完全分布式集群版本,这篇文件介绍如何搭建完全分布式集群环境搭建. hbase依赖于hadoop环境,搭建habase之前首先需要搭建好hadoop的完全集群环境,因此看这篇文章之前需要先看我的上一篇文章:hadoop分布式集群搭建.本文中没有按照独立的zookeeper,使用了hbase自带的zookeeper. 环境准备 hbase软件包: http://mirror.bit.edu.cn/apache/hbase/1.3.1/hbase-…