伪分布式Spark + Hive on Spark搭建】的更多相关文章

Spark大数据平台有使用一段时间了,但大部分都是用于实验而搭建起来用的,搭建过Spark完全分布式,也搭建过用于测试的伪分布式.现在是写一遍随笔,记录一下曾经搭建过的环境,免得以后自己忘记了.也给和初学者以及曾经挖过坑的人用作参考. Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是默认的MapReduce. 可以查阅官网的资源Hive on Spark: Getting Started. 一 .安装基础环境 1.1 Java1.8环境搭建 1) 下载jdk…
第一部分:先讲这么去安装hive.先去hive官网下载,我这里以hive-0.12.0为例子. 前面第二章讲了安装hadoop,hbase实例,我们继续讲这么安装hive,先说下hive配置文件 一,先讲下使用Derby数据库的安装方式 1.tar zxvf hive-0.12.0.tar.gz     解压hive 2.sudo nano   /etc/profile      配置环境变量,在原有的基础上加上hive配置 在终端输入   source   /etc/profile   使环境…
1.准备软件  64位下载包下载:     hadoop-2.4.0-64bit.tar.gz 百度网盘: 链接: http://pan.baidu.com/s/1hqEDe2S password: 224f 链接: http://pan.baidu.com/s/1gdl95OB password: h6dc 2.安装JDK 直接运行安装命令:sudo apt-get install openjdk-7-jdk 3.安装Hadoop 3.1上传hadoop压缩文件 通过之前配置的FlashFXP…
最近要写一个数据量较大的程序,所以想搭建一个hbase平台试试.搭建hbase伪分布式平台,需要先搭建hadoop平台.本文主要介绍伪分布式平台搭建过程. 目录: 一.前言 二.环境搭建 三.命令测试 四.启动YARN 五.web查看 一.前言 1.开始搭建前上官网看了一下,发现最新版本是3.0,但一想到跨版本而且又是最新版本的一般都会出现各种不一样的问题,所以决定使用了2.7.3,hadoop2的最新版本,至于跟后面搭建hbase的版本兼不兼容的情况等遇到再看怎么处理(实验证明最新版本的hba…
本文的配置环境是VMware10+centos2.5. 在学习大数据过程中,首先是要搭建环境,通过实验,在这里简短粘贴书写关于自己搭建大数据伪分布式环境的经验. 如果感觉有问题,欢迎咨询评论. 零:下载ruanjian 1.下载 2.下载网址 https://archive.apache.org/dist/hadoop/common/ 一:伪分布式准备工作 1.规划目录 2.修改目录所有者和所属组 3.删除原有的jdk 4.上传需要的jdk包 5.增加jdk 的执行权限 6.解压jdk 7.修改…
#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark-2.2.0.tgz ---下载源码 (如果是Hive on spark---hive2.1.1对应spark1.6.0) #tar zxvf spark-2.2.0.tgz ---解压 #cd spark-2.2.0/dev ##修改make-distribution.sh的MVN路径为$M2_HO…
Kafka集群搭建分为单节点的伪分布式集群和多节点的分布式集群两种,首先来看一下单节点伪分布式集群安装.单节点伪分布式集群是指集群由一台ZooKeeper服务器和一台Kafka broker服务器组成,如下图所示: 为了搭建单节点Kafka集群,需要依次安装如下软件:安装Java-->安装ZooKeeper-->安装Kafka. 一.安装Java 可以参考linux安装jdk,来进行安装 二.安装ZooKeeper 下载地址:https://www-us.apache.org/dist/zoo…
说在前面 之前一段时间想着把 LeetCode 每个专题完结之后,就开始着手大数据和算法的内容. 想来想去,还是应该穿插着一起做起来. 毕竟,如果只写一类的话,如果遇到其他方面,一定会遗漏一些重要的点. LeetCode 专题复盘,已经进行了一大半了. 大数据计划 正式开始有更新大数据想法的时候,想着把平常要注意的问题以及重要的知识点写出来. 可是之后想着咱们读者大部分是毕业前后的学生,还是从基础的开始分享. 很多人已经在 hive.HBASE.Spark.Flink 这几个方面使用的很熟练了,…
hadoop伪分布式和hive在openSUSE中的安装 在git上的路径为:https://github.com/huabingood/hadoop--------/tree/master 各个文件夹内容 一.lib文件夹,主要存放使用到的jar包 1. dom4j.jar 主要是用来解析xml文档的jar包 2. JavaStudy.jar 具体执行解析xml文档的jar包 3. mysql-connector-java-5.1.42-bin.jar hive中需要的Java连接MySQL数…
环境: 已经安装好: hadoop 2.6.4  yarn 参考: [b0001] 伪分布式 hadoop 2.6.4 准备: spark-2.0.1-bin-hadoop2.6.tgz 下载地址: http://spark.apache.org/downloads.html 说明: 官方说 2.0 后的spark 自带scala,所以接下来不用额外安装 安装spark 不一定要装hadoop,可以直接跑在linux系统上 以下所有操作都是用hadoop安装用户进行,权限不够就sudo 1. 获…