一.Scala安装 因为spark的版本原因,所以Scala我用的2.11.7. 下载目录http://www.scala-lang.org/download/ 拷贝到要安装的地址,我的地址是/usr/local 解压tar zxvf scala-2.11.7.tgz 修改gedit /etc/profile. export SCALA_HOME=/usr/local/scala-2.11.7export PATH=/usr/local/scala-2.11.7/bin:$PATH 然后测试 s…
Hadoop2.7.3+HBase1.2.5+ZooKeeper3.4.6搭建分布式集群环境 一.环境说明 个人理解:zookeeper可以独立搭建集群,hbase本身不能独立搭建集群需要和hadoop和hdfs整合 集群环境至少需要3个节点(也就是3台服务器设备):1个Master,2个Slave,节点之间局域网连接,可以相互ping通,下面举例说明,配置节点IP分配如下: IP     角色10.10.50.133 master10.10.125.156 slave110.10.114.11…
摘要:本文介绍如何基于Jupyter notebook搭建Spark集群开发环境. 本文分享自华为云社区<基于Jupyter Notebook 搭建Spark集群开发环境>,作者:apr鹏鹏. 一.概念介绍: 1.Sparkmagic:它是一个在Jupyter Notebook中的通过Livy服务器 Spark REST与远程Spark群集交互工作工具.Sparkmagic项目包括一组以多种语言交互运行Spark代码的框架和一些内核,可以使用这些内核将Jupyter Notebook中的代码转…
早在四月份的时候,就已经开了这篇文章.当时是参加数据挖掘的比赛,在计科院大佬的建议下用TensorFlow搞深度学习,而且要在自己的hadoop分布式集群系统下搞. 当时可把我们牛逼坏了,在没有基础的前提下,用一个月的时间搭建自己的大数据平台并运用人工智能框架来解题. 结果可想而知:GG~~~~(只是把hadoop搭建起来了....最后还是老老实实的写爬虫) 当时搭建是用VM虚拟机,等于是在17台机器上运行17个CentOS 7,现在我们用docker来打包环境. 一.技术架构 Docker 1…
要想深入的学习hadoop数据分析技术,首要的任务是必需要将hadoop集群环境搭建起来,本文主要讲述怎样搭建一套hadoop全然分布式集群环境. 环境配置:2台64位的redhat6.5 +  1台64位centos6.9 + Hadoop + java7 一.先配置server的主机名 Namenode节点相应的主机名为master Datanode节点相应的主机名分别为node1.node2 1. 在每一台server上运行vim /etc/hosts, 先删除hosts里面的内容.然后追…
原地址:http://www.open-open.com/lib/view/open1410569018211.html 自从activemq5.9.0开始,activemq的集群实现方式取消了传统的 Master-Slave方式,增加了基于zookeeper+leveldb的实现方式,其他两种方式:目录共享和数据库共享依然存在.本文主要阐述基 于zookeeper和leveldb搭建activemq集群,这里需要特别提醒,本文实现的集群仅提供主备功能,避免单点故障,没有负载均衡功能. 下面开始…
背景:      我们需要至少3台服务器来实现分布式,鉴于没那么多钱买真机器,从学习和开发的角度看,只有虚拟机一条路了. 软件选择:     虚拟机使用VMware软件,因为主流而且资料比较多,学习成本较低.软件百度自己找.     虚拟OS毫无疑问是linux,鉴于centos开源,下载方便又不需要破解,故而采用之.[‪CentOS-7-x86_64-Minimal-1708.iso]     可以自己去官网下载.      OS安装:     新建虚拟机,一步一步默认安装就行. 设置网络(静…
这一节将在<Dockerfile完成Hadoop2.6的伪分布式搭建>的基础上搭建一个完全分布式的Hadoop集群. 1. 搭建集群中需要用到的文件 [root@centos-docker hadoop-cluster]# ll total 340648# 用自动化构建集群的脚本 -rwxr-xr-x. root root Aug : build-cluster.sh# 使用scp 来下载的文件的脚本 -rwxr-xr-x. root root Aug : download.sh# 使用scp…
一.软件准备 1.基础docker镜像:ubuntu,目前最新的版本是18 2.需准备的环境软件包: (1) spark-2.3.0-bin-hadoop2.7.tgz (2) hadoop-2.7.3.tar.gz (3) apache-hive-2.3.2-bin.tar.gz (4) jdk-8u101-linux-x64.tar.gz (5) mysql-5.5.45-linux2.6-x86_64.tar.gz.mysql-connector-java-5.1.37-bin.jar (…
1.机器信息 五台centos 64位机器 2.集群规划 Server Name Hadoop Cluster Zookeeper   Ensemble HBase Cluster Hadoop01 Name node   & Resource manager   Master Hadoop02 Secondary name   node   Hadoop03 Data node   & Node manager √ Region server Hadoop04 Data node   &…