CDH CM元数据梳理，包括HIVE

【CDH CM元数据梳理，包括HIVE】的更多相关文章

CDH CM元数据梳理，包括HIVE

一.Schema SCM 表结构梳理(对应生产BAOFOO_SCM) AUDITS 登录信息.服务,角色重启.配置更改 PROCESSES 进程信息.这里面有很多信息.开放的web端口. HOSTS 主机信息,包括IP地址,所在机架,内存,CPU等信息 CLIENT_CONFIGS 客户端配置,里面有下载客户端配置的路径. CONFIGS_AUD 配置审计表. CLIENT_CONFIGS_TO_HOSTS 客户端配置文件与节点的对应关系 CLUSTERS 群集信息,CM管理多少个群集,就会…

Sqoop（三）将关系型数据库中的数据导入到HDFS（包括hive，hbase中）

一.说明: 将关系型数据库中的数据导入到 HDFS(包括 Hive, HBase) 中,如果导入的是 Hive,那么当 Hive 中没有对应表时,则自动创建. 二.操作 1.创建一张跟mysql中的im表一样的hive表im: sqoop create-hive-table \ --connect jdbc:mysql://192.168.200.100:3306/yang \ --username root \ --password 010209 \ --table im \ --hive-t…

CDH CM安装及简单群集部署测试

前吃人的故事开始了,金钱是如何吃人的呢?我在想ing,还没想通,一起吧,哈哈: 入题,别胡扯,误人子弟!!!! CM@@!!!!!!....................., 先来张monitor picture吧,界面貌似有点面熟哦,我还没时间验证,但大致我已经可以确定了,最有可能的就是改写了界面,哈哈,不告诉你,在此也就不多说了,还是那句话,文档有点跑题,还有点跳跃,这个东西怎么说呢?是知音的不言自明,否则咱挣个面红耳赤的,心里还在骂我瞎扯淡,还是不说了; 人贱缺少折腾,事件贱还是因为缺少…

CDH CM版本 6.0.1 升级到 CM 6.2.0 当前最新版本（CentOS 7.x）

CDH 的 6.0.1 是一个尴尬的版本,那时候 cloudera 还没有将 spark 更新到 2.4 还使用的是 spark 2.2版本. 但后来我们发现 2.3 | 2.4 更新了非常多的 feature 和修复了一些 bug 以及更新了很多包括 structed streaming 特性.并且最近最新的 6.2.0 将会在不久之后提供 Apache phoenix 的支持.所以我尝试将目前的 CDH 升级一下并且记录下来. CM 升级: 1. 准备工作: 在进行 CDH minor 版本…

基于Hive进行数仓建设的资源元数据信息统计：Hive篇

在数据仓库建设中,元数据管理是非常重要的环节之一.根据Kimball的数据仓库理论,可以将元数据分为这三类: 技术元数据,如表的存储结构结构.文件的路径业务元数据,如血缘关系.业务的归属过程元数据,如表每天的行数.占用HDFS空间.更新时间而基于这3类元数据"搭建"起来的元数据系统,通常又会实现如下核心功能: 1. 血缘关系如表级别/字段级别的血缘关系,这些主要体现在我们日常的SQL和ETL任务里. 2. 大数据集群计算资源管理针对利用不同的计算引擎如Spark/Flink/…

基于CDH 5.9.1 搭建 Hive on Spark 及相关配置和调优

Hive默认使用的计算框架是MapReduce,在我们使用Hive的时候通过写SQL语句,Hive会自动将SQL语句转化成MapReduce作业去执行,但是MapReduce的执行速度远差与Spark.通过搭建一个Hive On Spark可以修改Hive底层的计算引擎,将MapReduce替换成Spark,从而大幅度提升计算速度.接下来就如何搭建Hive On Spark展开描述. 注:本人使用的是CDH5.9.1,使用的Spark版本是1.6.0,使用的集群配置为4个节点,每台内存32+G,…

ubuntu下搭建hive(包括hive的web接口)记录

Hive版本 0.12.0(独立模式) Hadoop版本 1.12.1 Ubuntu 版本 12.10 今天试着搭建了hive,差点迷失在了网上各种资料中,现在把我的经验分享给大家,亲手实践过,但未必每一步都是必须的,正确的,大家可以参考一下. 第一步:安装和测试mysql(已装好的可跳过) 见我总结的http://blog.csdn.net/unflynaomi/article/details/37811229 第二步.开始正式安装hive 1.在hdfs上建目录: $ hadoop fs -…

CDH:5.14.0 中 Hive BUG记录

CDH hue下定时执行hive脚步

今天在看oozie时发现能在hue中执行hive 脚本,主要是hue 和 oozie结合使用,下面介绍下怎么使用的,挺恶心的,哈哈(在这里就不哔哔了) 提交oozie定时作业 1.进入hue界面,点击workflows工作流,编辑workflows 2.创建工作流本文以hive2作业sql任务为例,拖拽hive2到action区域. 3.创建sql脚本,主要就是随随便便创建个表玩玩,别烦我哦 CREATE TABLE if NOT EXISTS dw_serv_checi_query_…

troubleshooting-windows 在 CDH集群环境读取 Hive 表 KrbException: Cannot locate default realm

KrbException: Cannot locate default realm 解决办法 1)拷贝需要组件的配置文件到项目中的 /resources/目录.如hadoop,目录/etc/hadoop/conf/ 2)代码中写入如下代码 System.setProperty("java.security.krb5.conf", "D:\\work\\conf\\krb5.conf") System.setProperty("HADOOP_USER_NAM…