1 同时运行5个Spark任务的资源分配截图 2 每个任务占用3个Container 3个core以及4.5GB内存 也就是说一个Container需要 1个core 以及 512MB的内存 如果资源不够,可以提交任务时修改下内存分配,比如256MB,这样就可以提交更多的Spark任务到Yarn集群运行了.…
一.准备工作 1.离线部署主要分为三块: MySQL离线部署 CM离线部署 Parcel文件离线源部署 2.规划 节点 MySQL部署组件 Parcel文件离线源 CM服务进程 大数据组件 hadoop001 MySQL Parcel Activity Monitor NN RM DN NM hadoop002     Alert Publisher Event Server DN NM hadoop003     Host MonitorService Monitor DN NM 3.下载源:…
本文参考自:<Ubuntu16.04上搭建CDH5.14集群> 1.准备三台(CDH默认配置为三台)安装Ubuntu 16.04.4 LTS系统的服务器,假设ip地址分布为 192.168.100.19 192.168.100.20 192.168.100.21 (如果是虚拟机,建议内存配置为8G或以上,否则会导致各种启动运行失败.) 2.所有的操作都在root下进行,所以首先需要设置ssh可以使用root登录(如果已经是root登录则跳过) ①设置root的登录密码 sudo passwd…
背景:我自己的电脑配置太低,想在centos操作系统上安装CDH5.1.2并配置集群,我去阿里云上买了3台按流量计费的阿里云服务器. 大家一定要注意,配置,购买的阿里云服务器不要太低了.建议:3台2核8G内存的阿里云服务器.测试完毕后,请及时释放掉这三台服务器,否则阿里云会继续计费,很快消耗掉账户里面的钱.我花了不到10元,就完成了测试. 当前环境: 操作系统:CentOS7.2 CDH版本:5.16.2 CM版本:5.16.2 Spark2版本: 3台2核8G的阿里云ECS服务器[测试完,已释…
1.在已经安装好系统的linux服务器上关闭selinux和iptables 2.在所有linux服务器上配置ntp服务并设置ntp时间同步 3.在所有linux服务器上安装好cm和cdh版本所需要对应的java版本 (1).下载java包到/usr/local目录解压 (2).添加java环境到/root/.bash_profile目录下 export JAVA_HOME=/usr/local/jdk1.8.0_211 export JRE_HOME=$JAVA_HOME/jre export…
spark 2.1.1 系统中希望监控spark on yarn任务的执行进度,但是监控过程发现提交任务之后执行进度总是10%,直到执行成功或者失败,进度会突然变为100%,很神奇, 下面看spark on yarn任务提交过程: spark on yarn提交任务时会把mainClass修改为Client childMainClass = "org.apache.spark.deploy.yarn.Client" spark-submit过程详见:https://www.cnblog…
如果是全新安装集群的话,可以参考<Ubuntu 16.04上搭建CDH5.16.1集群> 下面是集群新增节点步骤: 1.已经存在一个集群,有两个节点 192.168.100.19 hadoop-master 192.168.100.20 hadoop-slave1 新增节点ip为192.168.100.21 2.新增节点所有的操作都在root下进行,所以首先需要设置ssh可以使用root登录(如果已经是root登录则跳过) ①设置root的登录密码 sudo passwd root ②切换到r…
Spark集群之yarn提交作业优化案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.启动Hadoop集群 1>.自定义批量管理脚本 [yinzhengjie@s101 ~]$ more `which xzk.sh` #!/bin/bash #@author :yinzhengjie #blog:http://www.cnblogs.com/yinzhengjie #EMAIL:y1053419035@qq.com #判断用户是否传参 ];then echo "无…
1.安装环境 Centos 7.6 CDH 5.16.1 2.下载Phoenix所需的parcel包 3.上传parcel包到ClouderaManager server所在的节点上 /opt/cloudera/parcel-repo 4.在CDH5.16.1上配置Phoenix 依次点击 分配-->** 激活** 5.重启HBase服务 6.登录Phoenix /opt/cloudera/parcels/CLABS_PHOENIX/bin 登录 ./phoenix-sqlline.py cdh…
spark用yarn提交任务会报ERROR cluster.YarnClientSchedulerBackend: YARN application has exited unexpectedly with state UNDEFINED! Check the YARN application logs for more details.ERROR cluster.YarnClientSchedulerBackend: Diagnostics message: Shutdown hook cal…
无论用YARN cluster和YARN client来跑,均会出现如下问题. [spark@master spark-1.6.1-bin-hadoop2.6]$ jps 2049 NameNode 2706 Jps 2372 ResourceManager 2660 Master 2203 SecondaryNameNode [spark@master spark-1.6.1-bin-hadoop2.6]$ $SPARK_HOME/bin/spark-submit \ > --master y…
1.为什么开启动态资源分配 ⽤户提交Spark应⽤到Yarn上时,可以通过spark-submit的num-executors参数显示地指定executor 个数,随后,ApplicationMaster会为这些executor申请资源,每个executor作为⼀个Container在 Yarn上运⾏.Spark调度器会把Task按照合适的策略分配到executor上执⾏.所有任务执⾏完后, executor被杀死,应⽤结束.在job运⾏的过程中,⽆论executor是否领取到任务,都会⼀直占有…
目录 01 Coudera Manager 02 环境准备 03 CM安装 01 Coudera Manager 概念:拥有集群自动化安装.中心化管理.集群监控.报警功能的一个工具,使集群安装从几天时间缩短到几个小时,运维人员从几十人降低到几人,极大的提高集群管理的效率 功能 管理,对集群进行管理,如添加节点.删除节点 监控,监控集群的健康情况,对设置的各种指标和系统运行情况进行全面监控 诊断,对集群出现的问题进行诊断,对出现的问题给出建议解决方案 集成,整合多种组件 架构 Server,集群主…
一.Client模式 提交命令: ./spark-submit --master yarn --class org.apache.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.7.3.jar 1000 ./spark-submit --master yarn-client --class org.apache.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.7.3.jar 100…
spark on yarn通过--deploy-mode cluster提交任务之后,应用已经在yarn上执行了,但是spark-submit提交进程还在,直到应用执行结束,提交进程才会退出,有时这会很不方便,并且不注意的话还会占用很多资源,比如提交spark streaming应用: 最近发现spark里有一个配置可以修改这种行为,提交任务的时候加长一个conf就可以 --conf spark.yarn.submit.waitAppCompletion=false org.apache.spa…
spark提交作业命令: ./spark-submit --master yarn --deploy-mode cluster --class com.zjlantone.hive.SparkOperatorHiveTest --total-executor-cores 8 --executor-cores 1 --driver-memory 10g --conf spark.driver.maxResultSize=8g --executor-memory 2g /opt/sparkJob/M…
Application ID is application_1481285758114_422243, trackingURL: http://***:4040Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://mycluster-tj/user/engine_arch/data/mllib/sample_libsvm_d…
在Ubuntu 下配置 MySQL 的字符编码.安装完 MySQL 后,系统默认的字符编码是 latin1 ,输入的是中文,可是输出却是一堆乱码.现在要做的就是把 MySQL的默认字符编码设置为支持中文的编码,如 GBK.GB23112.等. 首先进入MySQL存放配置文件的目录 ~#cd /etc/mysql/ 执行ls,查看下此文件夹下的文件 ~#ls 会发现有个文件是my.cnf,这个文件是mysql的配置文件 用vim打开此文件 ~#vi my.cnf 打开my.cnf后,会发现在此文件…
一.button提交表单 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title></title> </head> <body> <form action="https://www.sogou.com/web" method="get">…
我这次是在真实机器上面安装的ubuntu16.04 在配置了静态ip后不懂什么原因默认的eno1网卡变回了eth0网卡之后就不能上网, 同一个网段的其他集群节点也不能ping 通 因为ubuntu16.04的默认网卡不再是eth0了.今天突然变回来了 我本来以为就是变配置文件 root@nssa-sensor1:~# vim /etc/network/interfaces把对应的网卡名字修改了就可以了 # interfaces() file used by ifup() and ifdown()…
1 详细错误 0/Oct/2019 14:56:13 +0000] 28577 MainThread agent ERROR Error, CM server guid updated, expected d9bcadb4-f983-41b8-a667-66760f47bc91, received a67f5efa-8473-4f6a-94d6-231d1f432ef0 [10/Oct/2019 14:56:14 +0 2 解决,删除cm_guid然后重启服务 产生的原因是服务器以前作为集群节点…
spark2.1出来了,想玩玩就搭了个原生的apache集群,但在standalone模式下没有任何问题,基于apache hadoop 2.7.3使用spark on yarn一直报这个错.(Java 8) 报错日志如下: Warning: Master yarn-client is deprecated since 2.0. Please use master "yarn" with specified deploy mode instead. // :: INFO spark.S…
在使用GIT进行commit时,会默认使用Vim,其使用较为笨重,改为Notepad++编辑器较为简便. git commit 默认打开Notepad++编辑器配置: 打开git --- bash,输入命令行:git config --global core.editor "'D:/Program Files/Notepad++/notepad++.exe' -multiInst -notabbar -nosession -noPlugin" ps:  D:/Program Files…
1查询官网地址,提供了详细的各个版本的jar依赖版本信息 https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_maven_repo_516x.html…
1 下载源代码文件 https://archive.apache.org/dist/spark/spark-2.3.3/ 2 解压后导入编辑器,修改依赖的Hadoop版本,下面截图是修改后的,要看自己集成的CDH版本 3 然后编译,一开始要等一会儿, 4 编译成功后,copy出编译好的tar包,然后部署…
1.正常的启动.关闭流程     关闭流程 cluster1 stop Cloudera Management Service stop 4台agent:systemctl stop cloudera-scm-agent server机器: systemctl stop cloudera-scm-server mysql: systemctl stop mysqld   启动流程 mysql: systemctl start mysqld server机器: systemctl start cl…
1 自己的配置文件已经添加了配置,但是还是报错,由于是自建数据库 com.cloudera.cmf.db.setupType=EXTERNAL 2,索性注释掉这个参数,启动就ok了…
两个办法,一个在ubuntu软件里一个一个删,明显的windows下做法. 还有一个通过终端来删除.ctrl+alt+t打开终端. 1.卸载libreoffices(要删一起删了,然后去装office或wps),输入: sudo apt-get remove libreoffice-common 2.卸载Amazon的链接,输入: sudo apt-get remove unity-webapps-common 3.卸载大量预装软件,输入: sudo apt-get remove thunder…
1 详细错误 kafka.common.NoReplicaOnlineException: No broker in ISR for partition [getngo_collect_apm_test,0] is alive. Live brokers are: [Set(112, 113, 114, 115)], ISR brokers are: [116] at kafka.controller.OfflinePartitionLeaderSelector.selectLeader(Par…
1 贴一下自己的G1垃圾收集器参数(region server配置了5G内存) -Xmx5g -Xms5g -XX:MaxDirectMemorySize=5g -XX:+UseG1GC -XX:+UnlockExperimentalVMOptions -XX:-ResizePLAB -XX:MaxGCPauseMillis=90 -XX:G1NewSizePercent=3 -XX:MaxGCPauseMillis=200 -XX:InitiatingHeapOccupancyPercent=…