把kafka数据从hbase迁移到hdfs，并按天加载到hive表(hbase与hadoop为不同集群)

需求：
由于我们用的阿里云Hbase，按存储收费，现在需要把kafka的数据直接同步到自己搭建的hadoop集群上，(kafka和hadoop集群在同一个局域网)，然后对接到hive表中去，表按每天做分区

一、首先查看kafka最小偏移量（offset）

/usr/local/kafka/bin/kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list 192.168.1.210: -topic test --time - （--time -1为查看kafka最大偏移量）

test::

test::

test::

显示三个partition最小offset都为0，这样的话我们可以直接从kafka把数据迁移到HDFS上面

还有另外一种情况：

如果最小offset不为0，需要先把hbase上面的数据导入到HDFS上，再把offset设置为之前存放在zookeeper上面的offset

方法：

). 首先查看存放在zookeeper上面的offset

/usr/local/zookeeper/bin/zkCli.sh -server 192.168.1.210:

#] get /consumers/test_group/offsets/test/

cZxid = 0x10050df5c

ctime = Wed Sep  :: CST

mZxid = 0x100691806

mtime = Thu Nov  :: CST

pZxid = 0x10050df5c

cversion =

dataVersion =

aclVersion =

ephemeralOwner = 0x0

dataLength =

numChildren =

). 把导入到Hbase的sparkstreaming任务kill掉，然后把hbase的数据全部导入到HDFS上

). 然后编写导入到HDFS上面的spark代码，设置相同的group_id，则会读取之前存放在zookeeper中的offset

二. 把数据导入到HDFS上面（实现代码不在这里作展示）

我这边保存的文件以日期为命名格式（每天凌晨执行一次，在sparkstreaming里面设置）

hdfs dfs -ls /data/res/

drwxr-xr-x   - hadoop    hadoop           -- : /data/res//part-

drwxr-xr-x   - hadoop    hadoop           -- : /data/res//part-

drwxr-xr-x   - hadoop    hadoop           -- : /data/res//part-

三. 把数据进行getmerge，获取每天的数据，然后导入到hive表中去

实现shell脚本，每天凌晨1点跑，下面按天分割文件，主要是防止当天会掺杂着昨天的数据

]$ cat hdfs2hive.sh

#! /bin/sh

rm -f /data/hadoop/data/*

hdfs="/usr/local/hadoop/bin/hdfs"

hive="/usr/local/hive/bin/hive"

yesterday=`date +"%Y%m%d" -d "-1 days"`

today=`date +"%Y%m%d"`

## 合并hdfs文件夹到本地

hdfs_dir="/data/soda_yx/$yesterday"

res=`$hdfs dfs -ls $hdfs_dir`

if [ -n "$res" ];then

    $hdfs dfs -getmerge $hdfs_dir "/data/hadoop/data/data/res.data"

    if [ $? -eq 0 ];then

        echo "merge to local file is success."

    fi

fi

## 按天过滤出文件

dir="/data/hadoop/data"

`cat $dir/res.data |awk -F"\t" '{if($36=="'"$yesterday"'") print $0}' > $dir/$yesterday`

`cat $dir/res.data |awk -F"\t" '{if($36=="'"$today"'") print $0}' > $dir/$today`

if [ $? -eq 0 ];then

    echo "filter file is success."

fi

## 插入数据到hive中去

if [ -n "$dir/$yesterday" ];then

    $hive -e "LOAD DATA LOCAL INPATH '$local_file' INTO TABLE xxx.soda_report partition(dt='$yesterday')"

    if [ $? -eq 0 ];then

        echo "Import local data to hive is success."

    fi

fi

if [ -n "$dir/$today" ];then

    $hive -e "LOAD DATA LOCAL INPATH '$dir/$today' INTO TABLE xxx.soda_report partition(dt='$today')"

    if [ $? -eq 0 ];then

        echo "Import local data to hive is success."

    fi

fi

把kafka数据从hbase迁移到hdfs，并按天加载到hive表(hbase与hadoop为不同集群)的更多相关文章

本地数据文件加载到hive表
1.在test数据库下创建表格 hive> create table vod_record_all( > watch_time date, > device_id string, & ...
大数据学习之旅2——从零开始搭hadoop完全分布式集群
前言本文从零开始搭hadoop完全分布式集群,大概花费了一天的时间边搭边写博客,一步一步完成完成集群配置,所以相信大家按照本文一步一步来完全可以搭建成功.需要注意的是本文限于篇幅和时间的限制,也是为 ...
hbase运行mapreduce设置及基本数据加载方法
hbase与mapreduce集成后,运行mapreduce程序,同时需要mapreduce jar和hbase jar文件的支持,这时我们需要通过特殊设置使任务可以同时读取到hadoop jar和h ...
将HBase中的表加载到hive中
两种方式加载hbase中的表到hive中,一是hive创建外部表关联hbase表数据,二是hive创建普通表将hbase的数据加载到本地 1. 创建外部表 hbase中已经有了一个test表,内容如下 ...
『实践』VirtualBox 5.1.18+Centos 6.8+hadoop 2.7.3搭建hadoop完全分布式集群及基于HDFS的网盘实现
『实践』VirtualBox 5.1.18+Centos 6.8+hadoop 2.7.3搭建hadoop完全分布式集群及基于HDFS的网盘实现 1.基本设定和软件版本主机名 ip 对应角色 mas ...
EF如何操作内存中的数据以及加载相关联表的数据：延迟加载、贪婪加载、显示加载
之前的EF Code First系列讲了那么多如何配置实体和数据库表的关系,显然配置只是辅助,使用EF操作数据库才是每天开发中都需要用的,这个系列讲讲如何使用EF操作数据库.老版本的EF主要是通过Ob ...
JavaScript之加载表格、表单行数据[插件]
/*** * name:加载表格或表单数据[通用] * name:load-table-or-form-data-common.js * * author:zengtai * date:2017-07 ...
BulkLoad加载本地文件到HBase表
BulkLoad加载文件到HBase表 1.功能将本地数据导入到HBase中 2.原理 BulkLoad会将tsv/csv格式的文件编程hfile文件,然后再进行数据的导入,这样可以避免大量数据导入 ...
大数据高可用集群环境安装与配置（06）——安装Hadoop高可用集群
下载Hadoop安装包登录 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 镜像站,找到我们要安装的版本,点击进去复制下载链接 ...

随机推荐

rpmdb: unable to join the environment的问题解决
今天笔者在Centos 6.3上使用yum安装lsof软件时,报如下错误: [root@ ~]# yum install lsof -y rpmdb: unable to join the envir ...
【BZOJ1294】[SCOI2009]围豆豆Bean 射线法+状压DP+SPFA
[BZOJ1294][SCOI2009]围豆豆Bean Description Input 第一行两个整数N和M,为矩阵的边长. 第二行一个整数D,为豆子的总个数. 第三行包含D个整数V1到VD,分别 ...
Spring Boot 商城项目
Spring Boot 商城项目 angularJS Demo1 <html> <head> <title>angularJS Demo1</title> ...
基于Spring-Boot框架的Elasticsearch搜索服务器配置
一.相关包maven配置 <!-- https://mvnrepository.com/artifact/org.springframework.data/spring-data-elastic ...
HTTP协议的前世今生——各版本HTTP协议对比
HTTP协议是如今互联网与服务端技术的基石,HTTP协议的演进也从侧面反应了互联网技术的快速发展.这两天在准备一次关于HTTP1.1协议特性的技术分享过程中,顺便了解了下各版本HTTP协议的特点,在这 ...
ionic 相关问题解决办法记录
1.npm无法安装模块报code E400错误解决办法: 删除npmrc文件. 注意:不是nodejs安装目录npm模块下的那个npmrc文件,而是在C:\Users\{账户}\下的.npmrc文 ...
Java applets A Java applet example
https://en.wikipedia.org/wiki/Ajax_(programming) https://zh.wikipedia.org/wiki/AJAX Ajax (also AJAX; ...
sql查询两条记录的时间差
今天突然想到了一个需求,即在一张带有id和time字段的表中,查询相邻时间的时间差. 表的记录如下: 表名为wangxin id是一个不重复的字符串,time是一个时间戳. 现在的需求如下: 比如id ...
php 实现栈结构
一.栈的定义及知识 1.定义:栈又称为栈或者堆叠,是计算机科学中的一种特殊的串列形式的抽象数据类型,特殊之处在于只允许在链表或者数组的一端(堆栈顶端指针,又称 "top")加入数据 ...
Python开发【数据结构】：字典内部剖析
字典内部剖析开篇先提出几个疑问: 所有的类型都可以做字典的键值吗? 字典的存储结构是如何实现的? 散列冲突时如何解决? 最近看了一些关于字典的文章,决定通过自己的理解把他们写下来:本章将详细阐述上面 ...

把kafka数据从hbase迁移到hdfs，并按天加载到hive表(hbase与hadoop为不同集群)

把kafka数据从hbase迁移到hdfs，并按天加载到hive表(hbase与hadoop为不同集群)的更多相关文章

随机推荐

热门专题