CDH5.16.1的Yarn提交任务默认资源分配

1 同时运行5个Spark任务的资源分配截图 2 每个任务占用3个Container 3个core以及4.5GB内存也就是说一个Container需要 1个core 以及 512MB的内存如果资源不够,可以提交任务时修改下内存分配,比如256MB,这样就可以提交更多的Spark任务到Yarn集群运行了.…

一.准备工作 1.离线部署主要分为三块: MySQL离线部署 CM离线部署 Parcel文件离线源部署 2.规划节点 MySQL部署组件 Parcel文件离线源 CM服务进程大数据组件 hadoop001 MySQL Parcel Activity Monitor NN RM DN NM hadoop002 Alert Publisher Event Server DN NM hadoop003 Host MonitorService Monitor DN NM 3.下载源:…

Ubuntu 16.04上搭建CDH5.16.1集群

本文参考自:<Ubuntu16.04上搭建CDH5.14集群> 1.准备三台(CDH默认配置为三台)安装Ubuntu 16.04.4 LTS系统的服务器,假设ip地址分布为 192.168.100.19 192.168.100.20 192.168.100.21 (如果是虚拟机,建议内存配置为8G或以上,否则会导致各种启动运行失败.) 2.所有的操作都在root下进行,所以首先需要设置ssh可以使用root登录(如果已经是root登录则跳过) ①设置root的登录密码 sudo passwd…

centos7.2上安装CDH5.16.2及Spark2【原创】

背景:我自己的电脑配置太低,想在centos操作系统上安装CDH5.1.2并配置集群,我去阿里云上买了3台按流量计费的阿里云服务器. 大家一定要注意,配置,购买的阿里云服务器不要太低了.建议:3台2核8G内存的阿里云服务器.测试完毕后,请及时释放掉这三台服务器,否则阿里云会继续计费,很快消耗掉账户里面的钱.我花了不到10元,就完成了测试. 当前环境: 操作系统:CentOS7.2 CDH版本:5.16.2 CM版本:5.16.2 Spark2版本: 3台2核8G的阿里云ECS服务器[测试完,已释…

centos 7 cloudera-manager5.16.2,CDH5.16.2安装升级spark2.4.0

1.在已经安装好系统的linux服务器上关闭selinux和iptables 2.在所有linux服务器上配置ntp服务并设置ntp时间同步 3.在所有linux服务器上安装好cm和cdh版本所需要对应的java版本 (1).下载java包到/usr/local目录解压 (2).添加java环境到/root/.bash_profile目录下 export JAVA_HOME=/usr/local/jdk1.8.0_211 export JRE_HOME=$JAVA_HOME/jre export…

【原创】大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%

spark 2.1.1 系统中希望监控spark on yarn任务的执行进度,但是监控过程发现提交任务之后执行进度总是10%,直到执行成功或者失败,进度会突然变为100%,很神奇, 下面看spark on yarn任务提交过程: spark on yarn提交任务时会把mainClass修改为Client childMainClass = "org.apache.spark.deploy.yarn.Client" spark-submit过程详见:https://www.cnblog…

CDH5.16.1集群新增节点

如果是全新安装集群的话,可以参考<Ubuntu 16.04上搭建CDH5.16.1集群> 下面是集群新增节点步骤: 1.已经存在一个集群,有两个节点 192.168.100.19 hadoop-master 192.168.100.20 hadoop-slave1 新增节点ip为192.168.100.21 2.新增节点所有的操作都在root下进行,所以首先需要设置ssh可以使用root登录(如果已经是root登录则跳过) ①设置root的登录密码 sudo passwd root ②切换到r…

Spark集群之yarn提交作业优化案例

Spark集群之yarn提交作业优化案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.启动Hadoop集群 1>.自定义批量管理脚本 [yinzhengjie@s101 ~]$ more `which xzk.sh` #!/bin/bash #@author :yinzhengjie #blog:http://www.cnblogs.com/yinzhengjie #EMAIL:y1053419035@qq.com #判断用户是否传参 ];then echo "无…

CDH5.16.1离线集成Phoenix

1.安装环境 Centos 7.6 CDH 5.16.1 2.下载Phoenix所需的parcel包 3.上传parcel包到ClouderaManager server所在的节点上 /opt/cloudera/parcel-repo 4.在CDH5.16.1上配置Phoenix 依次点击分配-->** 激活** 5.重启HBase服务 6.登录Phoenix /opt/cloudera/parcels/CLABS_PHOENIX/bin 登录 ./phoenix-sqlline.py cdh…

spark利用yarn提交任务报:YARN application has exited unexpectedly with state UNDEFINED

spark用yarn提交任务会报ERROR cluster.YarnClientSchedulerBackend: YARN application has exited unexpectedly with state UNDEFINED! Check the YARN application logs for more details.ERROR cluster.YarnClientSchedulerBackend: Diagnostics message: Shutdown hook cal…

Spark通过YARN提交任务不成功（包含YARN cluster和YARN client)

无论用YARN cluster和YARN client来跑,均会出现如下问题. [spark@master spark-1.6.1-bin-hadoop2.6]$ jps 2049 NameNode 2706 Jps 2372 ResourceManager 2660 Master 2203 SecondaryNameNode [spark@master spark-1.6.1-bin-hadoop2.6]$ $SPARK_HOME/bin/spark-submit \ > --master y…

spark提交至yarn的的动态资源分配

1.为什么开启动态资源分配⽤户提交Spark应⽤到Yarn上时,可以通过spark-submit的num-executors参数显示地指定executor 个数,随后,ApplicationMaster会为这些executor申请资源,每个executor作为⼀个Container在 Yarn上运⾏.Spark调度器会把Task按照合适的策略分配到executor上执⾏.所有任务执⾏完后, executor被杀死,应⽤结束.在job运⾏的过程中,⽆论executor是否领取到任务,都会⼀直占有…

CDH5.16.2离线安装（详细）

目录 01 Coudera Manager 02 环境准备 03 CM安装 01 Coudera Manager 概念:拥有集群自动化安装.中心化管理.集群监控.报警功能的一个工具,使集群安装从几天时间缩短到几个小时,运维人员从几十人降低到几人,极大的提高集群管理的效率功能管理,对集群进行管理,如添加节点.删除节点监控,监控集群的健康情况,对设置的各种指标和系统运行情况进行全面监控诊断,对集群出现的问题进行诊断,对出现的问题给出建议解决方案集成,整合多种组件架构 Server,集群主…

Spark之Yarn提交模式

一.Client模式提交命令: ./spark-submit --master yarn --class org.apache.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.7.3.jar 1000 ./spark-submit --master yarn-client --class org.apache.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.7.3.jar 100…

【原创】大叔经验分享（14）spark on yarn提交任务到集群后spark-submit进程一直等待

spark on yarn通过--deploy-mode cluster提交任务之后,应用已经在yarn上执行了,但是spark-submit提交进程还在,直到应用执行结束,提交进程才会退出,有时这会很不方便,并且不注意的话还会占用很多资源,比如提交spark streaming应用: 最近发现spark里有一个配置可以修改这种行为,提交任务的时候加长一个conf就可以 --conf spark.yarn.submit.waitAppCompletion=false org.apache.spa…

spark yarn 提交作业

spark提交作业命令: ./spark-submit --master yarn --deploy-mode cluster --class com.zjlantone.hive.SparkOperatorHiveTest --total-executor-cores 8 --executor-cores 1 --driver-memory 10g --conf spark.driver.maxResultSize=8g --executor-memory 2g /opt/sparkJob/M…

spark on yarn 提交任务出错

Application ID is application_1481285758114_422243, trackingURL: http://***:4040Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://mycluster-tj/user/engine_arch/data/mllib/sample_libsvm_d…

Ubuntu 16.04.1下修改MySQL默认编码

在Ubuntu 下配置 MySQL 的字符编码.安装完 MySQL 后,系统默认的字符编码是 latin1 ,输入的是中文,可是输出却是一堆乱码.现在要做的就是把 MySQL的默认字符编码设置为支持中文的编码,如 GBK.GB23112.等. 首先进入MySQL存放配置文件的目录 ~#cd /etc/mysql/ 执行ls,查看下此文件夹下的文件 ~#ls 会发现有个文件是my.cnf,这个文件是mysql的配置文件用vim打开此文件 ~#vi my.cnf 打开my.cnf后,会发现在此文件…

Dom之表单提交与默认行为

一.button提交表单 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title></title> </head> <body> <form action="https://www.sogou.com/web" method="get">…

ubuntu 16.04 配置静态ip 后默认的网卡eno1变成eth0了不能联网的问题解决

我这次是在真实机器上面安装的ubuntu16.04 在配置了静态ip后不懂什么原因默认的eno1网卡变回了eth0网卡之后就不能上网, 同一个网段的其他集群节点也不能ping 通因为ubuntu16.04的默认网卡不再是eth0了.今天突然变回来了我本来以为就是变配置文件 root@nssa-sensor1:~# vim /etc/network/interfaces把对应的网卡名字修改了就可以了 # interfaces() file used by ifup() and ifdown()…

CDH5.16.1的agent启动报错:ERROR Error, CM server guid updated, expected d9bcadb4-f983-41b8-a667-66760f47bc91, received a67f5efa-8473-4f6a-94d6-231d1f432ef0

1 详细错误 0/Oct/2019 14:56:13 +0000] 28577 MainThread agent ERROR Error, CM server guid updated, expected d9bcadb4-f983-41b8-a667-66760f47bc91, received a67f5efa-8473-4f6a-94d6-231d1f432ef0 [10/Oct/2019 14:56:14 +0 2 解决,删除cm_guid然后重启服务产生的原因是服务器以前作为集群节点…

spark on yarn提交任务时报ClosedChannelException解决方案

spark2.1出来了,想玩玩就搭了个原生的apache集群,但在standalone模式下没有任何问题,基于apache hadoop 2.7.3使用spark on yarn一直报这个错.(Java 8) 报错日志如下: Warning: Master yarn-client is deprecated since 2.0. Please use master "yarn" with specified deploy mode instead. // :: INFO spark.S…

Git提交时默认编辑器Vim换成Notepad++

在使用GIT进行commit时,会默认使用Vim,其使用较为笨重,改为Notepad++编辑器较为简便. git commit 默认打开Notepad++编辑器配置: 打开git --- bash,输入命令行:git config --global core.editor "'D:/Program Files/Notepad++/notepad++.exe' -multiInst -notabbar -nosession -noPlugin" ps: D:/Program Files…

CDH5.16.1的maven依赖版本查询地址

1查询官网地址,提供了详细的各个版本的jar依赖版本信息 https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_maven_repo_516x.html…

自编译Apache Spark2.3.3支持CDH5.16.1

1 下载源代码文件 https://archive.apache.org/dist/spark/spark-2.3.3/ 2 解压后导入编辑器,修改依赖的Hadoop版本,下面截图是修改后的,要看自己集成的CDH版本 3 然后编译,一开始要等一会儿, 4 编译成功后,copy出编译好的tar包,然后部署…

Centos7.2正常启动关闭CDH5.16.1

1.正常的启动.关闭流程关闭流程 cluster1 stop Cloudera Management Service stop 4台agent:systemctl stop cloudera-scm-agent server机器: systemctl stop cloudera-scm-server mysql: systemctl stop mysqld 启动流程 mysql: systemctl start mysqld server机器: systemctl start cl…

CDH5.16.1启动报错:Invalid value set for db.setupType, the valid values are EMBEDDED or EXTERNAL

1 自己的配置文件已经添加了配置,但是还是报错,由于是自建数据库 com.cloudera.cmf.db.setupType=EXTERNAL 2,索性注释掉这个参数,启动就ok了…

ubuntu 16.04卸载不必要的默认安装软件

两个办法,一个在ubuntu软件里一个一个删,明显的windows下做法. 还有一个通过终端来删除.ctrl+alt+t打开终端. 1.卸载libreoffices(要删一起删了,然后去装office或wps),输入: sudo apt-get remove libreoffice-common 2.卸载Amazon的链接,输入: sudo apt-get remove unity-webapps-common 3.卸载大量预装软件,输入: sudo apt-get remove thunder…

CDH5.16.1的kafka集群报错: No broker in ISR for partition [getngo_collect_apm_test,0]

1 详细错误 kafka.common.NoReplicaOnlineException: No broker in ISR for partition [getngo_collect_apm_test,0] is alive. Live brokers are: [Set(112, 113, 114, 115)], ISR brokers are: [116] at kafka.controller.OfflinePartitionLeaderSelector.selectLeader(Par…

CDH5.16.1的Hbase1.2的G1参数配置

1 贴一下自己的G1垃圾收集器参数(region server配置了5G内存) -Xmx5g -Xms5g -XX:MaxDirectMemorySize=5g -XX:+UseG1GC -XX:+UnlockExperimentalVMOptions -XX:-ResizePLAB -XX:MaxGCPauseMillis=90 -XX:G1NewSizePercent=3 -XX:MaxGCPauseMillis=200 -XX:InitiatingHeapOccupancyPercent=…