Hadoop生态圈-通过CDH5.15.1部署spark1.6与spark2.3.0的版本兼容运行 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在我的CDH5.15.1集群中,默认安装的spark是1.6版本,开发的同事跟我抱怨,说之前的大数据平台(在ucloud上,属于云服务)用的就是spark1.6,好多java的API都用不了,有很多高级的功能没法在1.6版本上使用,因此被迫需要升级spark版本,他们要求升级到2.3.0或以上版本,经查阅相关资料,才总结了我部署sp…
大家都知道spark 1.6.0版本比较稳定,也比较流行. 我们项目组也是,最初用的就是这个版本. 这段时间,项目组引入spark 2.1.0版本,我想尝尝鲜. Pom中刚刚换了dependency马上编译失败了. 首先是在1.6中用的最多的trait之一org.apache.spark.Logging 在2.1中变成了org.apache.spark.internal.Logging 看着internal就觉得不对劲,细看定义果然: private[spark] trait Logging {…
1. 桥接模式,静态ip上外网:vi /etc/sysconfig/network-scripts/ifcfg-ens33 TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=staticDEFROUTE=yesIPV4_FAILURE_FATAL=noIPV6INIT=yesIPV6_AUTOCONF=yesIPV6_DEFROUTE=yesIPV6_FAILURE_FATAL=noIPV6_ADDR_GEN_MODE=stable-p…
第一步:安装spark 将官网下载好的spark-2.0.0-bin-hadoop2.6.tgz上传到/usr/spark目录下.这里需注意的是spark和hadoop有对应版本关系 [root@spark1 spark]# chmod u+x spark-2.0.0-bin-hadoop2.6.tgz [root@spark1 spark]# tar -zxvf spark-2.0.0-bin-hadoop2.6.tgz [root@spark1 spark]# mv spark-2.0.0-…
1.编写目的:由于cdh-5.9.2自带spark版本是spark1.6,现需要测试spark2新特性,需要整合spark2, 且spark1.x和spark2.x可以同时存在于cdh中,无需先删除spark1.x: 2.安装包下载 2.1首先下载csd包,地址: http://archive.cloudera.com/spark2/csd/ 2.2  parcel包下载地址:http://archive.cloudera.com/spark2/parcels/2.1.0.cloudera1/…
1.在已经安装好系统的linux服务器上关闭selinux和iptables 2.在所有linux服务器上配置ntp服务并设置ntp时间同步 3.在所有linux服务器上安装好cm和cdh版本所需要对应的java版本 (1).下载java包到/usr/local目录解压 (2).添加java环境到/root/.bash_profile目录下 export JAVA_HOME=/usr/local/jdk1.8.0_211 export JRE_HOME=$JAVA_HOME/jre export…
Spark 1.6.x的新特性Spark-1.6是Spark-2.0之前的最后一个版本.主要是三个大方面的改进:性能提升,新的 Dataset API 和数据科学功能的扩展.这是社区开发非常重要的一个里程碑.1. 性能提升根据 Apache Spark 官方 2015 年 Spark Survey,有 91% 的用户想要提升 Spark 的性能.Parquet 性能自动化内存管理流状态管理速度提升 10X 2. Dataset APISpark 团队引入了 DataFrames,新型Datase…
.具体场景如下: spark1.6  升级  spark2.2 后    分析查询hbase  数据报异常: 具体错误如下:       ERROR TableInputFormat: java.io.IOException:        java.lang.reflect.InvocationTargetException      Caused by: java.lang.NoClassDefFoundError: org/apache/htrace/Trace      Caused b…
最近需要将生产环境的spark1.3版本升级到spark1.6(尽管spark2.0已经发布一段时间了,稳定可靠起见,还是选择了spark1.6),同时需要基于spark开发一些中间件,因此需要搭建一套windows下的spark的开发环境,方便代码的编写和调试.中间遇到了比较多的问题,在此也做一个记录/总结. Spark编译 编译条件: 官方给出的spark预编译版本是不支持spark on hive的,同时也不能将spark作为hive的执行引擎.如果需要获得这些支持,则需要自己对spark…
Spark搭建集群比较繁琐,需要的内容比较多,这里主要从Centos.Hadoop.Hive.ZooKeeper.kafka的服务器环境搭建开始讲.其中Centos的搭建不具体说了,主要讲下集群的配置. 环境搭建软件包 由于我是直接拿了三台现成的Centos 5.6的系统上进行搭建的,所以Centos的搭建就不说了,有需要的可以自行网上搜一下,也比较简单.当然以下有些工具也可以用你们已经顺手的工具包O(∩_∩)O~~ Centos 5.6(Linux服务器) JDK 1.7(Java开发环境)…
官网:https://ci.apache.org/projects/flink/flink-docs-release-1.7/ops/deployment/cluster_setup.html cd /data1/downloadtar xzf flink-*.tgzcd flink-1.7.2 备注:配置三个机器的机器.spark1作为master,spark2为work1,spark3为worker2. 另外如果这几个机器跑flink,就要把spark停掉,两者端口冲突 bin/config…
Spark的运行版本使用mvn编译,已经集成在源码中.如果机器有外网或者配置了http代理,可以直接调用编译命令来进行编译. windows&Linux命令如下: ./build/mvn \ -Phadoop-x.y \ -Dhadoop.version=x.y.z \ -Pyarn \ -Dyarn.version=x.y.z \ -Phive -Phive-thriftserver \ -Dscala-2.10 \ -DskipTests clean package 参数含义: -Phado…
一.CentOS7集群搭建 1.1 准备3台centos7的虚拟机 IP及主机名规划如下: 192.168.123.110 spark1192.168.123.111 spark2192.168.123.112 spark3 1.2 修改IP地址 [root@bigdata ~]# vi /etc/sysconfig/network-scripts/ifcfg-ens33 1.3 修改主机映射 [root@bigdata ~]# vi /etc/hosts 1.4 修改主机名 三台机器分别把主机…
把原先搭建的集群环境给删除了,自己重新搭建了一次,将笔记整理在这里,方便自己以后查看 第一步:安装主节点spark1 第一个节点:centos虚拟机安装,全名spark1,用户名hadoop,密码123456 ,虚拟机名称spark1 第二步:配置yum源 需经常使用yum安装软件,使用国内网易源速度更快 [root@localhost ~]# mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backu…
集合的由来 数组是很常用的一种数据结构,但假如我们遇到以下这样的的问题: 容器长度不确定 能自动排序 存储以键值对方式的数据 如果遇到这样的情况,数组就比较难满足了,所以也就有了一种与数组类似的数据结构--集合类.即集合是java中提供的一种容器,可用来存储多个数据 数组和集合的区别 1)长度 数组的长度固定 集合的长度可变 2)内容不同 数组存储的是同一种类型元素 集合可存储不同类型的元素 3)元素数据类型 数组可存储基本数据类型,也可存储引用数据类型 集合只能存储引用类型 数组和集合的联系…
当hdfs文件对外是公开的则该其他用户就算没有配置相关的权限一样可以进行相关的操作.当hdfs文件对外权限是没有开放的,其他用户若需要进行相关操作则需要通过Ranger进行相关权限的配置. 首先  /input赋权 775 权限 下递归赋权750权限  让权限管理交给ranger 测试1  建hive1,hive2用户属于 hivegroup,spark1,spark2 属于sparkgroup 配置权限管理页面 配置 sparkgroup hivegroup 对/input/test1目录有可…
0. 概述 本文档面向需要使用MaxCompute Spark进行开发的用户使用.本指南主要适用于具备有Spark开发经验的开发人员. MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务,它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持用户以熟悉的开发使用方式提交运行Spark作业,以满足更丰富的数据处理分析场景. 本文将重点介绍MaxCompute Spark能够支撑的应用场景,同时说明开发的依赖条件和环境准备,重点对Spark作业开发…
不多说,直接上干货! spark-1.6.1-bin-hadoop2.6里Basic包下的JavaPageRank.java /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regar…
***这里的executor在worker上分配策略以spreadOut 为例*** 1.3版本关键点: for (app <- waitingApps if app.coresLeft > 0) { //对还未被完全分配资源的apps处理 val usableWorkers = workers.toArray.filter(_.state == WorkerState.ALIVE) .filter(canUse(app, _)).sortBy(_.coresFree).reverse //根…
前言 本人呕心沥血所写,经过好一段时间反复锤炼和整理修改.感谢所参考的博友们!同时,欢迎前来查阅赏脸的博友们收藏和转载,附上本人的链接.http://www.cnblogs.com/zlslch/p/5847528.html 关于几个疑问和几处心得! a.用NAT,还是桥接,还是only-host模式? 答: hostonly.桥接和NAT b.用static的ip,还是dhcp的? 答:static c.别认为快照和克隆不重要,小技巧,比别人灵活用,会很节省时间和大大减少错误. d.重用起来脚…
背景: 调研过OOZIE和AZKABA,这种都是只是使用spark-submit.sh来提交任务,任务提交上去之后获取不到ApplicationId,更无法跟踪spark application的任务状态,无法kill application,更无法获取application的日志信息.因此,为了实现一个spark的调度平台所以有了以下调研及测试结论. 一个合格的spark调度平台要具有的基本功能:可以submit,kill,监控,获取日志,跟踪历史记录. 本篇文章主要讲解如何使用YarnCli…
前言 本人呕心沥血所写,经过好一段时间反复锤炼和整理修改.感谢所参考的博友们!同时,欢迎前来查阅赏脸的博友们收藏和转载,附上本人的链接.http://www.cnblogs.com/zlslch/p/5847528.html 关于几个疑问和几处心得! a.用NAT,还是桥接,还是only-host模式? 答: hostonly.桥接和NAT b.用static的ip,还是dhcp的? 答:static c.别认为快照和克隆不重要,小技巧,比别人灵活用,会很节省时间和大大减少错误. d.重用起来脚…
编译其实是按照官方文档进行的,比较简单,文档地址是:http://spark.apache.org/docs/latest/building-spark.html 编译命令最终是: 先要执行: export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" 然后再执行: build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTes…
构建在hadoop2.6.0之上的 1.在官网下载spark-1.4.0-bin-hadoop2.6.tgz 2.解压到你想要放的文件夹里,tar zxvf spark-1.4.0-bin-hadoop2.6.tgz 3.配置profile sudo gedit /etc/profile 在文件下面加入一下路径配置,保存退出,并用source /etc/profile 使环境生效 export SPARK_HOME=/home/jiahong/spark--bin-hadoop2. export…
本人呕心沥血所写,经过好一段时间反复锤炼和整理修改.感谢所参考的博友们!同时,欢迎前来查阅赏脸的博友们收藏和转载,附上本人的链接.http://www.cnblogs.com/zlslch/p/5846091.html 附链接如下: http://my.oschina.net/amui/blog/610288 http://my.oschina.net/amui/blog/610329 http://blog.csdn.net/u010270403/article/details/5144667…
配置三个节点的spark集群,集群模式为standalone模式,其中sp1节点作为主节点,sp2节点和sp3节点为从节点.***注意所有操作均为root用户. 创建3个CentOS虚拟机,如下: sp1 192.168.1.21 //master节点 sp2 192.168.1.22 //slave节点 sp3 192.168.1.23 //slave节点 配置/etc/sysconfig/network环境变量,如下: 在sp1节点上执行:vi /etc/sysconfig/network将…
1.spark是什么? Spark是基于内存计算的大数据并行计算框架. 1.1 Spark基于内存计算 相比于MapReduce基于IO计算,提高了在大数据环境下数据处理的实时性. 1.2 高容错性和高可伸缩性 与mapreduce框架相同,允许用户将Spark部署在大量廉价硬件之上,形成集群. 2.spark编程 每一个spark应用程序都包含一个驱动程序(driver program ),他会运行用户的main函数,并在集群上执行各种并行操作(parallel operations) spa…
这两天和同事一起在想着如何把一个表的记录减少,表记录包含了:objectid(主小区信息),gridid(归属栅格),height(高度),rsrp(主小区rsrp),n_objectid(邻区),n_rsrp(邻小区rsrp) 记录中一个主小区对应有多个邻区信息,在分组合并记录时: 1)先按照objectid,gridid,height进行分组,把所有邻区信息给存储到集合中: 2)基于1)的结果之上,按照objectid分组,把gridid,height,rsrp,array(n_object…
测试spark版本: Spark context Web UI available at http://192.168.1.1:32735 Spark context available as 'sc' (master = local[*], app id = local-1380172893828). Spark session available as 'spark'. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/…
内存计算平台spark在今年6月份的时候正式发布了spark2.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织的MLlib,更加注重机器学习整个过程的管道化. 当然,作为使用者,特别是需要运用到线上的系统,大部分厂家还是会继续选择已经稳定的spark1.6版本,并且在spark2.0逐渐成熟之后才会开始考虑系统组件的升级.作为开发者,还是有必要先行一步,去了解spark2.0的一些特性和使用,及思考/借鉴一…