hbase入库blukload

2024-11-03

【hbase】——HBase 写优化之 BulkLoad 实现数据快速入库

1.为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题? 我们先看下 HBase 的写流程: 通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量写入时效率低下(HBase会block写入,频繁进行flush,split,compact等大量IO操作),并对HBase节点的稳定性造成一定的影响(GC时间过长,响应变慢,导致节点超时退出,

HBase入库调优

本文章只针对“微型集群处理大数据”的场景. 场景描述: 硬件:5个节点,每个节点可用硬盘1块(700G.500G等).8核cpu,实验室环境(有时候还要跑其他程序跟你抢占资源),16G内存. 软件:hadoop-0.20.2-cdh3u2,hbase-0.90.4-cdh3u2. 业务:sina微博12亿转发微博,700w用户信息.bzip压缩后共150G.要求就是将这些数据入库并且恢复关注和粉丝列表,建立userId与昵称映射,找出Message的转发关系等等. 上述业务实际上比描述的复杂,后

hadoop +zookeeper + hbase 单节点安装

项目描述: 今天花了680元买了阿里云的一台内存1G, 带宽1M 的云主机. 想以后方便测试用,而且想把自己的博客签到自己的主机上.所以自己就搭了一个测试的环境. 可以用来进行基本的hbase 入库, hadoop mrjob 的运行. 步骤: 1.配置JDK 我的安装路径如下:/usr/local/java/jdk1.7.0_79 设置环境变量: JAVA_HOME=/usr/local/java/jdk1.7.0_79 export PATH=$JAVA_HOME/bin:$PATH 刷新

【HBase调优】Hbase万亿级存储性能优化总结

背景:HBase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对HBase的认识经历了懵懂到熟的过程.为了应对业务数据的压力,HBase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开发了一套对HBase集群服务和应用全面监控的报警系统.总结下HBase优化(针对0.94版本)方面的一些经验也算对这两年HBase工作的一个描述. 相关资源:<HBase企业应用开发实战>,HBase笔记(工作中自己总

HIVE HBASE 整合

一直想将hbase 与hive整合在一起,因为公司项目工期一期紧似一期,故一直推后.还不知道推到什么时候呢. 今天尝试编译hive,看着官方文档.感觉非常easy: 1.svn co http://svn.apache.org/repos/asf/hive/trunk hive 先下载源码吧.我下载最新代码0.14 2.cd hive ; mvn package -Phadoop-2,dist, 编译后须要一大堆測试信息,故去掉測试过程 mvn package -Phadoop-2,di

Hbase万亿级存储性能优化总结

背景 hbase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对hbase的认识经历了懵懂到熟的过程.为了应对业务数据的压力,hbase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开发了一套对hbase集群服务和应用全面监控的报警系统.总结下hbase优化(针对0.94版本)方面的一些经验也算对这两年hbase工作的一个描述. 服务端 1.hbase.regionserver.handler.cou

近期开发storm遇到一些问题的解决点

storm开发解决问题点1.kafka消费速度跟不上问题这个问题可以从加大topic partition进行解决,可以在topic正在运行时候运行命令 ./kafka-topics --alter --zookeeper rhel071:2181 --topic heartbeat --partitions 6进行扩容,并且只能往上扩容,不能减少partition.每个partition会对应一个storm的spout,所以能整体增加消费速度.当然如果kafka下面log挂了多个磁盘,那么多个

hive数据仓库入门到实战及面试

第一章.hive入门一.hive入门手册 1.什么是数据仓库 1.1数据仓库概念对历史数据变化的统计,从而支撑企业的决策.比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源. 1.2传统数据仓库面临的挑战 (1)无法满足快速增长的海量数据存储需求 (2)无法有效处理不同类型的数据 (3)计算和处理能力不足 1.3 Hive介绍 Hbase支持快速的交互式的大数据应用 pig,Hive支持批量式的数据分析业务 1.4 Hive与传统数据库的对比 1.5 Hive在企业中的

HBase2.0 meta信息丢失的修复方法

在HBase入库日志中发现有一个表入库失败,检查HBase服务端后发现该表的meta信息丢失了: 而HDFS上的region还在: 而HBCK工具不支持HBase2.0版本,只好自己写一个修复工具.网上可以搜到前辈们自己编写的一些工具,比如这一篇写的就比较详细 https://blog.csdn.net/xyzkenan/article/details/103476160 我们引用一下,再对个别地方略微讲解. 看一下'hbase:meta'中正常的存储结构: 列名说明 info:state R

HBase 写优化之 BulkLoad 实现数据快速入库

在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据.我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等.但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所以很不适合一次性导入大量数据.本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbase中. 总的来说,使用 Bulk Load 方式由于利用了 HBase 的数据信息是按照特定格式存储在 HDFS 里的这一特性,直接在 HDFS 中生成持久化的

Mac 下用IDEA时maven，ant打包（mr 入库hbase）

现在非常喜欢IDEA,之前在mac 上用的eclipse 经常出现无缘无故的错误.所以转为IDEA. 不过新工具需要学习成本,手头上的项目就遇到了很多问题,现列举如下: 背景描述在hadoop 开发时,经常在mr阶段将清洗后的数据入库到Hbase. 在这个过程中,需要编译.打jar包,然后上传到服务器,执行hadoop jar *.jar 命令.每次清洗后需要手动4步操作.农民阿姨天生喜欢取巧,故这几天一直研究如何简化此过程. 思路描述 1.之前项目自动化打包上传都用ant ,不过是在w

MapReduce生成HFile入库到HBase

转自:http://www.cnblogs.com/shitouer/archive/2013/02/20/hbase-hfile-bulk-load.html 一.这种方式有很多的优点: 1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即HBase提供的HFileOutputFormat类. 2. 它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存

实现HBase增量入库（HBase删除自定义时间戳行数据）

目录 1. 背景描述 2. 问题描述 3. 解决方案 1. 背景描述目前在做音乐推荐项目,前期做排序模型优化,任务是使用模型对用户的历史音乐进行排序,有6800多万个用户,约40G的用户数据,使用HBase作为数据仓库. 利用HBase可以存储多个版本数据的特性,数据运算完后入库时,将用户id作为rowkey,songInfo:songid的值为歌曲id,使用自定义时间戳,将排序模型输出的歌曲得分(分值越高)作为时间戳.因为HBase数据存储默按照时间戳降序存储,这样只要取出用户的songIn

hbase离线定时入库shell脚本-小栗子

#!/bin/bash #######数据类型(cdr,ims,pc,.ngn_sip)###### dir=*** ############# #原始文件地址 oripath=/bigdata/data8/zhxl/${dir}/dst/ #压缩文件地址 standardpath=/bigdata/data8/zhxl/${dir}/standard/ #temp临时文件存放地址 temppath=/bigdata/data8/zhxl/${dir}/temp/ #日志文件存放地址 logpa

hbase多用户入库，regionserver下线问题

近期对hbase多用户插入数据时,regionserver会莫名奇妙的关闭,regionserver的日志有很多异常: 如下: org.apache.hadoop.hbase.DroppedSnapshotException: region: t,12130111020202,1369296305769.f14b9a1d05ae485981f6a8579f1324fb. at org.apache.hadoop.hbase.regionserver.HRegion.interna

HBase实验（CRUD和MR入库）

目录前期准备在HBase shell中实现CRUD操作 1. 启动命令行客户端 2. 创建表 3. 删除.新增列族 4. 删除表teacher 5. 新增数据 6. 查看数据用Java API实现CRUD操作工程结构 1. 导入依赖包 2. 调用Java API 3. 导出hbasedemo.jar包 4. 将HBase依赖包加入到hadoop classpath中 5. 运行注:也可直接在eclipse中运行(跳过3.5步骤),因为要访问zookeeper,所以要修改eclipse所

怎样提高hbase的入库性能

hbase写数据首先先写入memstore.当memstore满64MB以后,会flush到disk上而成为storefile.当storefile数量超过3时,会启动compaction过程将它们合并为一个storefile.这个过程中会删除一些timestamp过期的数据.比方update的数据.而当合并后的storefile大小大于hfile默认最大值时.会触发split动作,将它切分成两个region. 1.改动hbase的BufferSize,并禁用hbase的自己主动提交功能.

MapReduce生成HFile入库到HBase及源码分析

http://blog.pureisle.net/archives/1950.html

通过BulkLoad快速将海量数据导入到Hbase

在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据.我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等. 但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所以很不适合一次性导入大量数据. 本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbase中. 总的来说,使用 Bulk Load 方式由于利用了 HBase 的数据信息是按照特定格式存储在 HDFS 里的这一特性,直接在 HDFS 中生成持久

通过BulkLoad快速将海量数据导入到Hbase（TDH，kerberos认证）

一.概念使用BlukLoad方式利用Hbase的数据信息是按照特点格式存储在HDFS里的特性,直接在HDFS中生成持久化的Hfile数据格式文件,然后完成巨量数据快速入库的操作,配合MapReduce完成这样的操作. 二.优点 1.不占用Region资源 2.不会产生巨量的写入I/O. 3.只需要较少的CPU和网络资源三.实现原理通过一个MapReduce Job来实现的,通过job直接生成一个Hbase的内部HFile格式文件 ,用来形成一个特殊的Hbase数据表,然后直接将数据文件加

hbase入库blukload

热门专题