一.依据[话单]查询需求分析HBase的表设计 1.分析 用户需要进行实时的查询,那么这些数据是放在HBase当中的,每个客户每天接打电话至少20个左右,而通信公司拥有很多用户,每天产生的数据都是上亿条. 提取出需要的信息,主要包括以下几点:自己的号码:telphone拨打或接听时间:teltime区域:area主叫或被叫:active对方的号码:phone通话时长:talktime通话模式(国内或国外):mode费用:price 而大部分功能的查询条件分析如下:telphone +(start…
这边文章先将可能的需求分析一下,设计出HBase表,下一步再開始编写client代码. TwiBase系统 1.背景 为了加深HBase基本概念的学习,參考HBase实战这本书实际动手做了这个样例. 2.需求 这是一个用户推特系统,用户登陆到系统.须要维护用户的基本信息.然后用户能够发帖和其它用户进行互动.用户之间能够相互关注.用户能够浏览关注用户的推文等等. 这是一个比較简单的推特系统.不考虑用户之间的私信,用户评论推特等功能. 3.概要设计 3.1表设计 首先须要设计三个表:用户表.推特表以…
在 HBase(六): HBase体系结构剖析(上) 介绍过,Hbase创建表时,只需指定表名和至少一个列族,基于HBase表结构的设计优化主要是基于列族级别的属性配置,如下图: 目录: BLOOMFILTER BLOCKSIZE IN_MEMORY COMPRESSION/ENCODING VERSIONS TTL BLOOMFILTER: Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法.通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求…
snapshot其实就是一组metadata信息的集合,它可以让管理员将表恢复到以前的一个状态.snapshot并不是一份拷贝,它只是一个文件名的列表,并不拷贝数据.一个全的snapshot恢复以为着你可以回滚到原来的表schema和创建snapshot之前的数据. 应用场景: 1获取:该操作尝试从指定的表中获取一个snapshot.该操作在regions作balancing,split或者merge等迁移工作的时候可能会失败.    2拷贝:该操作用指定snapshot的schema和数据来创…
数据模型 我们可以将一个表想象成一个大的映射关系,通过行健.行健+时间戳或行键+列(列族:列修饰符),就可以定位特定数据,Hbase是稀疏存储数据的,因此某些列可以是空白的, Row Key Time Stamp Column Family:c1 Column Family:c2 列 值 列 值 r1 t7 c1:1 value1-1/1 t6 c1:2 value1-1/2 t5 c1:3 value1-1/3 t4 c2:1 value1-2/1 t3 c2:2 value1-2/2 t2…
转自:http://www.open-open.com/lib/view/open1449891885004.html 1.HBase 简介 HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据.实现数据分布式存储提供可靠的方案.从功能上来 讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle.MySQL.MSSQL等一样,对外提供数据的存储和读取服务.而从应用的角度来 说,HB…
1.需求分析 CRM客户关系管理软件---> 学员管理 用户:企业内部用户 用户量: 业务场景: 2.数据库表设计 1 .表之间的对应关系 from django.db import models class Customer(models.Model): '''客户信息表''' pass class CustomerFollowUp(models.Model): '''客户跟进表''' pass class Course(models.Model): '''课程表''' pass class…
HBase的rowKey设计技巧 1.设计宗旨与目标 主要目的就是针对特定的业务模型,按照rowKey进行预分区设计,使之后面加入的数据能够尽可能的分散于不同的rowKey中.比如复合RowKey. 作用: 一条数据的唯一标识就是rowkey,那么这条数据存储于哪个分区,取决于rowkey处于哪个一个预分区的区间内,设计rowkey的主要目的 ,就是让数据均匀的分布于所有的region中,在一定程度上防止数据倾. 2.设计方式案例 2.1.案例一:生成随机数.hash.散列值 比如: 原本row…
首先要回答一个问题,为何要使用HBase? 随着业务不断发展.数据量不断增大,MySQL数据库存在这些问题: MySQL支持的数据量为TB级,不能一直保留历史数据.而HBase支持的数据量为PB级,适合存储久远的历史冷数据 新增列的代价较高,数据量越大耗费时间越长.而HBase可以随意增加列,空列不占据空间,业务模型可以灵活变化 要使用HBase,最重要的一点是rowkey行键设计,如果设计不妥,后续要改的代价非常大. HBase行键设计原则 下面列几个HBase rowkey设计的原则: 组合…
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduce或者spark的driver class中声明如下代码 job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, tablename); 随后mapreduce在mapper或者reducer中直接context写入即可,而spark则是…