个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介 本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述. 背景 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hi…
环境说明: 操作系统: centos7 64位 3台 centos7-1 192.168.190.130 master centos7-2 192.168.190.129 slave1 centos7-3 192.168.190.131 slave2 安装spark需要同时安装如下内容: jdk scale 1.安装jdk,配置jdk环境变量 这里不讲如何安装配置jdk,自行百度. 2.安装scala 下载scala安装包,https://www.scala-lang.org/download/…
一.安装vmware虚拟机 二.在虚拟机上安装ubuntu12.04操作系统 三.安装jdk1.8.0_25 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 注意:下载操作系统对应版本的jdk 解压: tar -xzvf jdk-8u25-linux-i586.tar.gz 配置环境变量参数 sudo gedit /etc/profile export JAVA_HOME=/h…
最佳参考链接 https://opensourceteam.gitbooks.io/bigdata/content/spark/install/spark-160-bin-hadoop26an_zhuang.html Apache Spark1.1.0部署与开发环境搭建 Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构.与MapReduce不同,Spark并不局限于编写map和reduce两个方法,其提供了更为强大的…
一.下载解压 二.配置 (假设已经配置了Java.Hadoop) 1.环境变量 2.spark配置 进入spark安装目录,复制文件 编辑spark-env.sh文件,在文件中添加如下信息(括号中路径为Hadoop的路径),有了下面的配置信息以后,Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据.如果没有配置上面信息,Spark就只能读写本地数据,无法读写HDFS数据. 3.运行自带案例 接下来会出现版一大堆信息 4.启动spark(没有启动Hadoo…
不得不吐槽一下,安装配置这eclipse真是太费劲了...下面总结一下,以便下次再安装 本人 win10系统,64位机 一.在官网下载eclipse安装包 文件名:eclipse-inst-win64.exe 网址:https://www.eclipse.org/downloads/download.php?file=/oomph/epp/oxygen/R/eclipse-inst-win64.exe //建议下载前点击"Select Another Mirror",选择一个国内镜像,…
下载 http://spark.apache.org/downloads.html 下载2.3.1 https://blog.csdn.net/qq_15349687/article/details/82748074(齐全) 配置文件 https://www.cnblogs.com/purstar/p/6293605.html https://www.cnblogs.com/swordfall/p/7903678.html(配置明了) 把上面相对应的路径和名字改为自己的即可, 配置环境变量bin…
原文地址:https://www.cnblogs.com/memento/p/9148732.html Windows 上的单机版安装 下载地址:http://spark.apache.org/downloads.html 本文以 Spark 2.3.0 为例 >>> 下载下来的文件是 tgz 格式的压缩文件,直接利用压缩软件将其打开,可以看见里面有一个 tar 格式的压缩文件,继续用压缩软件打开,最终如下图所示: >>> 将其中的 spark-2.3.0-bin-ha…
本系列文章只是记录了笔者本人在学习实验安装和使用基于CDH5.0.2的HBASE集群过程中的一些经验教训和心得,绝不是详细的安装过程,因本人不过一初学者,很多方面不甚了了,如果能让不幸读到的人有所得则不胜欣喜,否则大家一笑置之即可. 通过tarball形式安装HBASE Cluster(CDH5.0.2)——集群安装总览 通过tarball形式安装HBASE Cluster(CDH5.0.2)——如何配置分布式集群中的zookeeper 通过tarball形式安装HBASE Cluster(CD…
1,首先确保hadoop和spark已经运行.(如果是基于yarn,hdfs的需要启动hadoop,否则hadoop不需要启动). 2.打开idea,创建maven工程.编辑pom.xml文件.增加dependency. <dependency> <!-- Spark dependency --> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifac…
1. JAVA安装配置:https://www.cnblogs.com/lamp01/p/8932740.html 2. Spark安装配置:https://www.cnblogs.com/vincentcheng/p/7482643.html 3. Hadoop安装配置:https://www.jianshu.com/p/9c8a0f7b98cf 4.Hive安装配置:…
本文基于的环境 Red Hat Linux Enterprise 7 x86_64 jdk 1.7.0_79 Python 2.7Spart spark-1.5.2-bin-hadoop2.6 官方要求的环境如下: Java 7+ Python 2.6+ R 3.1+. 1.下载Spark(spark-1.5.2-bin-hadoop2.6.tgz)安装包 wget http://mirrors.hust.edu.cn/apache/spark/spark-1.5.2/spark-1.5.2-b…
一.介绍 Groovy是可以运行在 Java 平台上进行动态语言,使用方式基本与使用 Java 的方式相同,Groovy和java基本是可以实现无缝整合,它有以下一些特性: 是一个基于Java虚拟机的敏捷动态语言. 构建在强大的Java语言之上并添加了从Python,Ruby和Smalltalk等语言中学到的诸多特征. 为Java开发者提供了现代最流行的编程语言特性,而且学习成本很低(几乎为零). 支持DSL(Domain Specific Languages领域定义语言)和其它简洁的语法,让你…
今天为Hadoop配置zeromq.jzmq遇到各种问题,先是编译出错,到编译成功后测试出错等等,下面将我遇到的问题与大家分享一下. 第一个注意点是:必须先编译安装zeromq,然后在编译jzmq,否则会报zmq.h文件找不到. 官方安装配置链接:http://zeromq.org/bindings:java Step 1:安装必须的依赖包: [mdrill01@mdrill01 ~]$ -openjdk-devel 备注:其中一些包依据操作系统不同所以并不是上面的名称,请使用yum list…
idea中使用scala运行spark出现: Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class 查看build.sbt: name := "ScalaSBT" version := "1.0" scalaVersion := "2.11.8" libraryDependenci…
centos  tomcat/resin安装配置  卸载系统自带的java  tomcat安装配置  安装JDK   resin安装配置    第二十八节课 tomcat和java都不需要编译 tomcat 依赖JDK 防盗链 访问控制 用户认证 都需要借助nginx反向代理 后端为tomcat 上半节课 卸载系统自带的javatomcat安装配置 安装JDK 下半节课 resin安装配置 卸载系统自带的java yum remove java-1.6.0openjdk 一. tomcat安装配…
--------------------- 前言 --------------------- 项目关系,希望用Spark GraphX做数据分析及图像展示,但前提是得会spark:spark是基于scala的,scala是基于JAVA的……所以,要想用Spark GraphX,技术堆栈大体上应该是这样的:Java -> Scala -> Spark -> Spark GraphX.   JAVA都这么多年了……就不说了,我们从学习Scala开始.   ------------------…
安装 配置 概念 hadoop常用shell命令 使用java操作hadoop 本文介绍hadoop集群配置和在windows系统上运用java操作hdfs 安装 http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.1.1/ sudo apt-get install ssh sudo apt-get install rsync mkdir /usr/local/hadoop tar -zxvf hadoop-3.1.1.tar.gz -C…
12.4  基于Java类定义Bean配置元数据 12.4.1  概述 基于Java类定义Bean配置元数据,其实就是通过Java类定义Spring配置元数据,且直接消除XML配置文件. 基于Java类定义Bean配置元数据中的@Configuration注解的类等价于XML配置文件,@Bean注解的方法等价于XML配置文件中的Bean定义. 基于Java类定义Bean配置元数据需要通过AnnotationConfigApplicationContext加载配置类及初始化容器,类似于XML配置文…
基于Java配置选项,可以编写大多数的Spring不用配置XML,但有几个基于Java的注释的帮助下解释.从Spring3.0开始支持使用java代码来代替XML来配置Spring,基于Java配置Spring依靠Spring的JavaConfig项目提供的很多优点.通过使用@Configuration, @Bean ,@Import ,@DependsOn 来实现Java配置Spring. 1) @Configuration & @Bean 注解: 在Spring的新的Java-Configu…
JDK安装 JDK安装包下载 到Oracle官网下载JDK. 传送门 下载之前要记得勾选上同意协议然后选择相应的版本(Windows/Linux, 32/64) JDK安装及验证 按提示完成安装,安装完成后打开CMD输入命令 java -version 测试是否已正确安装JDK Scala IDE for Eclipse Scala IDE 下载 到Scala官网下载最新的Scala IDE for Eclipse. 传送门 Scala IDE 安装 下载回来之后发现并不是安装包,而是一个zip…
一. 下载资料 1. JDK 1.6 + 2. Scala 2.10.4 3. Hadoop 2.6.4 4. Spark 1.6 二.预先安装 1. 安装JDK 2. 安装Scala 2.10.4 解压安装包即可 3. 配置sshd ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys mac 启动sshd sudo launchctl load -w /System/…
spark集群安装配置 一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu1…
首先准备3台电脑或虚拟机,分别是Master,Worker1,Worker2,安装操作系统(本文中使用CentOS7). 1.配置集群,以下步骤在Master机器上执行 1.1.关闭防火墙:systemctl stop firewalld.service 1.2.设置机器ip为静态ip 1.2.1.修改配置 cd /etc/sysconfig/network-scripts/ vim ifcfg-eno16777736 更改内容如下: BOOTPROTO=static #配置静态IP,网关,子网…
一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu14.04中配置Spark…
来源: 慕课网 Spark SQL慕课网日志分析_大数据实战 目标: spark系列软件的伪分布式的安装.配置.编译 spark的使用 系统: mac 10.13.3 /ubuntu 16.06,两个系统都测试过 软件: hadoop,hive,spark,scala,maven hadoop伪分布式.spark伪分布式 详细: software 存放安装的软件包 app 所有软件的安装目录 data 课程中所有使用的测试数据目录 source 软件源码目录,spark 1)下载hadoop a…
01.Spark安装与配置 1.hadoop回顾 Hadoop是分布式计算引擎,含有四大模块,common.hdfs.mapreduce和yarn. 2.并发和并行 并发通常指针对单个节点的应对多个请求的能力,是单一节点上计算能力的衡量,并行通常针对集群来讲,是利用多个节点进行分布式协同作业,我们称之为并行计算. 3.Spark 快如闪电集群计算引擎,应用于大规模数据处理快速通用引擎,使用内存计算. Speed 内存计算速度是hadoop的100倍以上,硬盘计算是Hadoop是10倍以上,Spa…
一.IDEA安装 下载Community版的IDEA,Ultimate是免费试用版(相当于用到后面要给钱的) ideaIC-2019.2.3.tar.gz 解压IDEA: tar -zxvf ideaIC-2019.2.3.tar.gz 查看目录: [hadoop@hadoop01 idea-IC-192.6817.14]$ ls -ll total 52 drwxrwxr-x. 2 hadoop hadoop 4096 Oct 2 22:08 bin -rw-r--r--. 1 hadoop…
[学习笔记] Windows 32位或64位下载安装配置Scala: 1)下载地址:http://www.scala-lang.org/download/,看我的spark那节,要求scala是2.11以上,我就下载:scala-2.11.8.msi. 2)安装:双击scala-2.11.8.msi安装包,启动安装程序,全部默认安装. 3)配置:a)在系统变量中新增SCALA_HOME变量:​ ​ b)编辑Path变量,在后面追加如下配置: ;%SCALA_HOME%\bin; 4)然后检验配置…
[学习笔记] Windows 32或64位下载安装配置Spark:1)下载地址:http://spark.apache.org/downloads.html 马克-to-win @ 马克java社区:选择需要下载的Spark版本,我选的是当前最新的版本2.2.0.因为我已经安装了Hadoop 2.7.4版本的,所以我选择对应的Pre-built for Hadoop 2.7 and later.注意网站上说scala要求2.11版本以上.(在我的新机器上,是没有预先装scala的,先装的spar…