《OD学HBase》20160820
一、案例
微博:
微博内容:
关注用户和粉丝用户: 添加或移除关注用户
查看关注用户的微博内容
微博数据存储:
响应时间 秒级 无延迟
(1)mysql分布式
(2)hbase数据库
使用HBase数据库实现微博系统数据的存储
表的设计:
命名空间:weibo
1. 微博内容表
TableName: weibo:weibo-content
RowKey:用户ID_timestamp
列簇:cf
列标签: cf:content,cf:title,cf:photo
版本设计:只需要保留一个版本
2. 用户关系表
TableName: weibo:relations
rowkey: 用户iID
列簇:
attend 关注用户
fan 粉丝用户
列标签:使用用户ID作为列标签,值为用户ID
rowkey attend fan
0001 attend:0002=0002 fan:0004=0004
attend:0003=0003 fan:0004=0004
版本设计:只需要保留一个版本
3. 用户微博内容接收邮件箱表
TableName: weibo:receive-content-email
Rowkey:用户ID
列簇:cf
列标签:
直接使用用户ID,vlaue值取微博内容的rowkey
版本设计:设置最大版本为1000
rowkey cf
00001 cf:0002=0002_2132455
cf:0002=0002_2132456
1)rowkey设计:
(1)唯一性
(2)长度: 最大64kb。rowkey是hbase中表数据冗余产生的因素
10~100 字节
最好 8字节 16字节 64位操作系统
(3)散列原则:
假如 时间戳_用户ID 作为rowkey
10亿用户同时发微博,
1456777_000001
1456778_000002
1456778_100000
问题: 集中到某个region,造成这单独几个region负载量偏大,而其他region完全没有负载
散列: 尽量将某一时刻内的数据均衡分散到所有Region中(大部分Region)中
热点现象:数据在某一个时刻集中存储到某一两个Region上
rowkey设计规范;
方便查询,尽可能讲查询字段放到rowkey,HBase根据rowkey查询速度是最快。
2)列簇设计:
HBase面向列簇存储
region起始rowkey --- 终止rowkey范围内一个列簇下的数据
hdfs上的一个文件
StoreFile === HFile
跨列簇查询,速度相对较慢
一般设计一到两个列簇
HBase中的缓存
memstore: 写缓存
blockcache:块缓存,读缓存
HBase表单元格版本号:插入数据的时候如果没有单独制定,系统默认使用时间戳作为版本号。也可以自己制定时间戳。
Get查询单行记录,Scan查询多行记录
《OD学HBase》20160820的更多相关文章
- 《OD学HBase》20160821
一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab. ...
- 《OD学HBase》20160814
一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据 ...
- 《OD学hive》第四周0717
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...
- 《OD学hadoop》20160903某旅游网项目实战
一.大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 ...
- 《OD学Sqoop》数据转换工具Sqoop
一. 第二阶段课程回顾 hadoop 2.x HDFS YARN MapReduce Zookeeper Hive 二.大数据协作框架 对日志类型的海量数据进行分析 hdfs mapreduce/hi ...
- 《OD学hadoop》第二周0702
大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器 罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915B ...
- 《OD学hadoop》第一周0625
一.实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统 www.netcraft.com 二.推荐书籍 1. <Hadoop权威指南> 1- ...
- 一起学HBase——总结HBase中的PUT、GET、DELETE操作
传统的关系型数据库有CRUD增删改查操作,同样对于NoSQL列式数据库也有CRUD操作.本文对HBase中常用的Scan.GET.PUT.DELETE操作的用法做个总结. Put操作 Put相当于传统 ...
- 一起学HBase——简单介绍HBase各种组件
HBase是谷歌BigTble的开源实现.谷歌的三篇论文拉开了大数据江湖的序幕,铸就了现在以Hadoop为主的大数据技术生态圈.而HBase是开源的大数据数据库,和传统的行式数据库不同的是,HBase ...
随机推荐
- Java compiler level does not match the version of the instal
一.问题描述 新建了一个项目,workspace默认jdk编译版本是1.7的,新建项目使用的是jdk1.5的版本,肯定会报@override错误.这个时候,修改项目的compilor即可. 这时候,你 ...
- Ubuntu 字体修改以及字体的相关知识 分类: ubuntu 2014-06-19 21:46 81人阅读 评论(0) 收藏
Ubuntu chrome 字体修改 打开任意一张含有输入框的网页,比如Google首页,然后右键点击"搜索框"会拉出一个菜单,我们这样选: 拼音检查选项==>语言设置==& ...
- 监听HTML input输入框值的即时变化onpropertychange、oninput兼容IE,Chrome,FF,Opera等
转自:http://blog.csdn.net/itchiang/article/details/7769337 要达到的效果 很多情况下我们都会即时监听输入框值的变化,以便作出即时动作去引导浏览者增 ...
- C#[Serializable]在C#中的作用-NET 中的对象序列化
为什么要使用序列化?最重要的两个原因是:将对象的状态保存在存储媒体中以便可以在以后重新创建出完全相同的副本:按值将对象从一个应用程序域发送至另一个应用程序域.例如,序列化可用于在 ASP.NET 中保 ...
- NET 查找程序集路径(CLR关于Assembly的搜索路径的过程)
最近在回顾.Net应用程序的执行环境,这里做一个很小的总结,方面以后需要的时候进行查找: CLR必须可以找到正确的Assembly,Net提供了Assembly搜索算法,可以根据.config文件(类 ...
- Chapter 6面向对象
1.Python中预定义的函数在定义的时候有一种很特别的形式,即是函数名是小写,并且函数名前后分别有两个下划线.同样的,在对象中也有预定义的方法,例如所有对象的基类object中的__new__(), ...
- C#&java重学笔记(变量与操作符)
声明:自用参看读物 C#部分 1.C#中的byte和sbyte并不是二进制的比特,而是无符号 和 有符号的 8位整数. 2.decimal和float double都用来表示小数,前者用e的10的几次 ...
- JavaScript语言基础知识点图示(转)
一位牛人归纳的JavaScript 语言基础知识点图示. 1.JavaScript 数据类型 2.JavaScript 变量 3.Javascript 运算符 4.JavaScript 数组 5.Ja ...
- Codeforces446C DZY Loves Fibonacci Numbers(线段树 or 分块?)
第一次看到段更斐波那契数列的,整个人都不会好了.事后看了题解才明白了一些. 首先利用二次剩余的知识,以及一些数列递推式子有下面的 至于怎么解出x^2==5(mod 10^9+9),我就不知道了,但是要 ...
- git的安装使用和代码自动部署
1.安装 http://www.cnblogs.com/sunada2005/archive/2013/06/06/3121098.html http://www.cnblogs.com/zhcncn ...