《OD学HBase》20160821】的更多相关文章

一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab.enabled preclose.flush.size JVM堆内存 初生代内存空间:数据停留时间较短  128~512M -Xmn128M 老生代内存空间:数据停留时间比较长,几GB 内存碎片  GC清理 -->进程停顿 当垃圾过多,GC进程限制应用程序进程的进行 GC垃圾回收策略: Parral…
一.案例 微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户 查看关注用户的微博内容 微博数据存储: 响应时间 秒级 无延迟 (1)mysql分布式 (2)hbase数据库 使用HBase数据库实现微博系统数据的存储 表的设计: 命名空间:weibo 1. 微博内容表 TableName: weibo:weibo-content RowKey:用户ID_timestamp 列簇:cf 列标签: cf:content,cf:title,cf:photo 版本设计:只需要保留一个版本 2.…
一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据库 BigTable:一种分布式海量结构化数据存储系统 HBase基于google论文实现的开源数据库框架 场景: 对海量数据进行随机读写.实时查询(对上亿条数据能够在秒级进行访问) 表:上亿行百万列 ———TB级别甚至PB级别 设备:廉价的商用服务器 HBase:真正存储数据还是在HDFS,数据分…
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spark: 2. 如何学习大数据技术 上课时候,认真听,勤做笔记: 遇到难理解的概念,马上记录下来: 课后多动手,操作过程遇到问题,多思考: 不要遇到问题,首先就问别人: 珍惜问问题的机会: 讲究问题的技巧与方式,提出自己的大概思考思路: 多总结: 总结成文档,作为以后的参考: 归档成自己的知识库: 每个…
一.大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 (1)广告投入:网站所有者集成广告联盟的js->访问者访问页面->js发送用户数据->广告联盟发送一个可以报价的广告位信息给所有的广告公司(报价是否.价格多少) ->广告公司接受到这个报价信息,根据携带的用户信息计算用户点击的概率(用户点击模型)->广告公司将是否报价信息以及报价…
一. 第二阶段课程回顾 hadoop 2.x HDFS YARN MapReduce Zookeeper Hive 二.大数据协作框架 对日志类型的海量数据进行分析 hdfs mapreduce/hive 1. 数据来源 (1)RDBMS(Oracle.MySQL.DB2...)  ->   sqoop(SQL to Hadoop) (2)文件(apache,nginx日志数据)  ->   Flume(实时抽取数据) 2. 任务调度 对数据的分析任务Job,至少都是上千(互联网公司) 任务调…
大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器 罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915BF.html 勤奋的男人和爱笑的女人运气都不会太差. 1. 什么是Hadoop 2. hadoop生态系统架构功能与原理 3. hadoop核心模块组成 4. hadoop 2.x伪分布式环境搭建与配置.测试 一.前置课程: Linux: Java: 应用程开发>系统层开发 数据库: SQL on…
一.实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统  www.netcraft.com 二.推荐书籍 1. <Hadoop权威指南> 1-3版: Hadoop1系列 4版(目前仅有英文原版):Hadoop2系列 yarn高可用性,HA 2. <Hive权威指南> 3. <MapReduce设计模式> 4. <HBase权威指南> 5. <鸟哥的Linux私房菜> 6. <Vim使用技巧>…
传统的关系型数据库有CRUD增删改查操作,同样对于NoSQL列式数据库也有CRUD操作.本文对HBase中常用的Scan.GET.PUT.DELETE操作的用法做个总结. Put操作 Put相当于传统数据库的add操作,就是在数据库中添加一条或多条记录. Put操作分为两类,一类是一次操作一条记录,另外一类是一次操作多条数据. HBase提供一个Put类,通过该类的对象就可以在HBase中添加数据. Put类提供的构造函数如下: Put(byte[] row) Put(byte[] row,Ro…
HBase是谷歌BigTble的开源实现.谷歌的三篇论文拉开了大数据江湖的序幕,铸就了现在以Hadoop为主的大数据技术生态圈.而HBase是开源的大数据数据库,和传统的行式数据库不同的是,HBase是列式数据库.列式数据的特点是开源横向扩展,将一张表的数据存储在hadoop集群的不同datanode中,一张表的存储量可以达到T级别.这是行式关系型数据库无法实现的.本文主要讲解HBase的基本概念,只有概念清楚了才能更好的在我们的系统中使用HBase. 核心组件介绍 Table:可理解为传统数据…