【原创】大叔经验分享（6）Oozie如何查看提交到Yarn上的任务日志

通过oozie job id可以查看流程详细信息,命令如下: oozie job -info 0012077-180830142722522-oozie-hado-W 流程详细信息如下: Job ID : 0012077-180830142722522-oozie-hado-W --------------------------------------------------------------------------------------------------------------…

【原创】大叔经验分享（46）用户提交任务到yarn报错

用户提交任务到yarn时有可能遇到下面的错误: 1) Requested user anything is not whitelisted and has id 980,which is below the minimum allowed 1000 这是因为yarn中配置min.user.id=1000,yarn认为id小于1000的是超级用户,yarn禁止超级用户提交任务: Each account must have a user ID that is greater than or equ…

【原创】大叔经验分享（1）在yarn上查看hive完整执行sql

hive执行sql提交到yarn上的任务名字是被处理过的,通常只能显示sql的前边一段和最后几个字符,这样就会带来一些问题: 1)相近时间提交了几个相近的sql,相互之间无法区分: 2)一个任务有问题,想看下这个任务具体执行的是什么?是谁的任务? 通过以下方法可以查看: 1)如果任务正在running,进入yarn的ApplicationMaster页面,进入job,点击configuration,右上角过滤框输入“hive.query.string”即可,如图: 2)如果任务已经结束,进入hi…

【原创】经验分享：一个小小emoji尽然牵扯出来这么多东西？

前言之前也分享过很多工作中踩坑的经验: 一个线上问题的思考:Eureka注册中心集群如何实现客户端请求负载及故障转移? [原创]经验分享:一个Content-Length引发的血案(almost....) 今天再来分享工作中一个真实的案例: 商品评价列表页,显示每条用户的评价详情,为了保护用户隐私,要求显示用户昵称时只能显示第一位和最后一位,其他的用※代替. 例如输入:,输出:*** 看似一个平淡无奇的需求,我也没有太在意.服务端将用户的评论信息存储到db中,评价列表接口就是将数据库中该商品的…

【原创】大叔经验分享（12）如何程序化kill提交到spark thrift上的sql

spark 2.1.1 hive正在执行中的sql可以很容易的中止,因为可以从console输出中拿到当前在yarn上的application id,然后就可以kill任务, WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or usin…

【原创】大叔经验分享（5）oozie提交spark任务如何添加依赖

spark任务添加依赖的方式: 1 如果是local方式运行,可以通过--jars来添加依赖: 2 如果是yarn方式运行,可以通过spark.yarn.jars来添加依赖: 这两种方式在oozie上都行不通,首先oozie上没办法也不应该通过local运行,其次通过spark.yarn.jars方式配置你会发现根本不会生效,来看为什么查看LauncherMapper的日志 Spark Version 2.1.1 Spark Action Main class : org.apa…

【原创】大叔经验分享（49）hue访问hdfs报错/hue访问oozie editor页面卡住

hue中使用hue用户(hue admin)访问hdfs报错: Cannot access: /. Note: you are a Hue admin but not a HDFS superuser, "hdfs" or part of HDFS supergroup, "supergroup". 其他症状:oozie editor页面卡住不动检查过程如下: 1 hdfs配置 hadoop.proxyuser.hue.hosts=*hadoop.proxyuse…

【原创】大叔经验分享（48）oozie中通过shell执行impala

oozie中通过shell执行impala,脚本如下: $ cat test_impala.sh #!/bin/sh /usr/bin/kinit -kt /tmp/impala.keytab impala/server04 /usr/bin/impala-shell -i server04:21000 -q 'show databases' 直接执行shell脚本正常,在oozie中执行报错: Traceback (most recent call last): File "/usr/lib/…

【原创】大叔经验分享（59）kudu查看table size

kudu并没有命令可以直接查看每个table占用的空间,可以从cloudera manager上间接查看 CM is scrapping and aggregating the /metrics pages from the tablet server instances for each tablet/table.…

【原创】大叔经验分享（21）yarn中查看每个应用实时占用的内存和cpu资源

在yarn中的application详情页面 http://resourcemanager/cluster/app/$applicationId 或者通过application命令 yarn application -status $applicationId 只能看到应用启动以来占用的资源*时间统计,比如: Aggregate Resource Allocation : 3962853 MB-seconds, 1466 vcore-seconds 到处都找不到这个应用当前实时的资源占用情况,比…

【原创】大叔经验分享（68）maven工程查看jar包依赖

1 idea 结果 2 maven命令 $ mvn dependency:tree 结果 [INFO] +- org.springframework.boot:spring-boot-starter-aop:jar:2.1.3.RELEASE:compile [INFO] | +- org.springframework.boot:spring-boot-starter:jar:2.1.3.RELEASE:compile [INFO] | | +- org.springframework.boo…

【原创】大叔经验分享（51）docker报错Exited (137)

docker container启动失败,报错:Exited (137) *** ago,比如 Exited (137) 16 seconds ago 这时通过docker logs查不到任何日志,从mesos上看stderr相关的只有一句 I0409 16:56:26.408077 8583 executor.cpp:736] Container exited with status 137 通过docker inspect查看container状态为 "State": { &quo…

【原创】大叔经验分享（50）hue访问mysql（librdbms）

cloudera manager安装hue后想开启访问mysql(librdbms)需要在这里配置(hue_safety_valve.ini) 添加配置如下 [librdbms] # The RDBMS app can have any number of databases configured in the databases # section. A database is known by its section name # (IE sqlite, mysql, psql, and o…

【原创】大叔经验分享（28）ELK分析nginx日志

提前安装好elk(elasticsearch.logstach.kibana) 一启动logstash $LOGSTASH_HOME默认位于/usr/share/logstash或/opt/logstash 1 nginx日志使用默认格式 log_format main '$remote_addr - $remote_user [$time_local] "$request" ' '$status $body_bytes_sent "$http_referer"…

【原创】大叔经验分享（27）linux服务器升级glibc故障恢复

redhat6系统默认安装的glibc-2.12,有的软件依赖的是glibc-2.14,这时需要升级glibc,下载安装 http://ftp.gnu.org/gnu/glibc/glibc-2.14.tar.gz # ./configure --prefix=/usr --disable-profile --enable-add-ons --with-headers=/usr/include --with-binutils=/usr/bin# make# make install 结果make…

【原创】大叔经验分享（11）python引入模块报错ImportError: No module named pandas numpy

python应用通常需要一些库,比如numpy.pandas等,安装也很简单,直接通过pip # pip install numpyRequirement already satisfied: numpy in /export/App/anaconda2/lib/python2.7/site-packages # pip install pandasRequirement already satisfied: pandas in /export/App/anaconda2/lib/python2…

【原创】大叔经验分享（45）kibana添加index pattern卡住返回403 Forbidden

kibana添加index pattern卡住,通过浏览器查看请求返回状态为403 Forbidden,返回消息为: {"message":"blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];: [cluster_block_exception] blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];","…

【原创】大叔经验分享（44）hdfs副本数量

当hdfs空间不足时,除了删除临时数据或垃圾数据之外,还可以适当调整部分大目录的副本数量,多管齐下: 1 查看 $ hdfs dfs -ls /user/hive/warehouse/temp.db/test_ext_o-rwxr-xr-x 3 hadoop supergroup 44324200 2019-02-28 16:36 /user/hive/warehouse/temp.db/test_ext_o/000000_0 权限后边的3即为副本数量 2 修改 $ hadoop fs -set…

【原创】大叔经验分享（36）CM部署kafka

1 下载kafka parcel http://archive.cloudera.com/kafka/parcels/latest/KAFKA-3.1.1-1.3.1.1.p0.2-el7.parcelKAFKA-3.1.1-1.3.1.1.p0.2-el7.parcel.sha1 # mv KAFKA-3.1.1-1.3.1.1.p0.2-el7.parcel.sha1 KAFKA-3.1.1-1.3.1.1.p0.2-el7.parcel.sha# cp KAFKA-3.1.1-1.3.1.…

【原创】大叔经验分享（34）hive中文注释乱码

在hive中查看表结构时中文注释乱码,分为两种情况,一种是desc $table,一种是show create table $table 1 数据库字符集检查 mysql> show variables like '%char%';mysql> show create table COLUMNS_V2;mysql> show create table TABLE_PARAMS; 修改 mysql> alter database hive character set latin1;…

【原创】大叔经验分享（33）hive select count为0

hive建表后直接将数据文件拷贝到table目录下,select * 可以查到数据,但是select count(1) 一直返回0,这个是因为hive中有个配置 hive.stats.autogather=true Enables automated gathering of table-level statistics for newly created tables and table partitions, such as tables created with the INSERT OV…

【原创】大叔经验分享（32）docker挂载文件修改生效

docker经常需要挂载文件到容器中,比如启动nginx # docker run -d --name test_nginx -v /tmp/nginx.conf:/etc/nginx/nginx.conf nginx 然后就有修改配置文件然后刷新的功能,如果直接用vi编辑宿主机文件 # vi /tmp/nginx.conf 然后在docker容器中执行reload # docker exec -it test_nginx nginx -s reload 会发现配置没有生效,此时直接查看dock…

【原创】大叔经验分享（31）CM金丝雀Canary报错

CM金丝雀Canary报错 1 HDFS 金丝雀Canary 测试无法为 /tmp/.cloudera_health_monitoring_canary_files 创建父目录. 2 Hive Metastore CanaryHive Metastore canary 创建 hue hdfs 主目录失败. 检查: 1)hdfs是否处于safemode,正常是off # hdfs dfsadmin -safemode getSafe mode is OFF 2)hdfs datanode是否健康,…

【原创】大叔经验分享（30）CM开启kerberos

kerberos安装详见:https://www.cnblogs.com/barneywill/p/10394164.html 一为CM创建用户 # kadmin.local -q "addprinc scm/admin" 名字和密码任意,后续配置中会使用二 CM配置过程 1 启用Kerberos 2 全部选中 3 按照/etc/krb5.conf填写 4 5 填写刚才创建的用户名密码 6 下一步 7 下一步 8 可以查看cm创建的用户 # kadmin.local -q 'lis…

【原创】大叔经验分享（53）kudu报错unable to find SASL plugin: PLAIN

kudu安装后运行不正常,master中找不到任何tserver,查看tserver日志发现有很多报错: Failed to heartbeat to master:7051: Invalid argument: Failed to ping master at master:7051: Client connection negotiation failed: client connection to master:7051: unable to find SASL plugin: PLAIN…

【原创】大叔经验分享（90）linux服务器iowait和负载很高

# top top - 21:21:51 up 207 days, 1:30, 5 users, load average: 0.90, 0.79, 1.62 Tasks: 249 total, 1 running, 246 sleeping, 2 stopped, 0 zombie %Cpu(s): 49.2 us, 2.0 sy, 0.0 ni, 48.1 id, 0.0 wa, 0.0 hi, 0.6 si, 0.0 st 如果load average很大(参考核数),则系统负载很高,其中…

【原创】大叔经验分享（89）docker启动openjdk执行jmap报错

docker启动openjdk后,可以查看进程 # docker exec -it XXX jps 10 XXX.jar 可见启动的java进程id一直为10,然后可以执行jvm命令,比如 # docker exec -it XXX jstack 10 # docker exec -it XXX jstat -gcutil 10 # docker exec -it XXX jmap -histo 10 但是执行jmap -heap或者-dump时会报错: Attaching to process…

【原创】大叔经验分享（88）jenkins假死

jenkins安装启动后,使用systemctl来进行进程监控 # systemctl enable jenkins 但是还是经常发生jenkins进程挂了,不会自动重启,通过systemctl查看状态为: # systemctl status jenkins ● jenkins.service - LSB: Jenkins Automation Server Loaded: loaded (/etc/rc.d/init.d/jenkins; bad; vendor preset: disabl…

【原创】大叔经验分享（86）hive和mysql数据互导

hive和mysql数据互导,首先想到的是sqoop,并且可以和调度框架(比如oozie等)配合配置定时任务,还有一种更简单的方式是通过spark-sql: CREATE OR REPLACE TEMPORARY VIEW tmp_tbl_test USING org.apache.spark.sql.jdbc OPTIONS ( url "jdbc:mysql://1.1.1.1:3306/db_test?useUnicode=true&characterEncoding=utf-8&…

【原创】大叔经验分享（72）mysql时区

【【原创】大叔经验分享（6）Oozie如何查看提交到Yarn上的任务日志】的更多相关文章