Hadoop 面试题之Hbase

Hadoop 面试题之九

16.Hbase 的rowkey 怎么创建比较好？列族怎么创建比较好？

19.Hbase 内部是什么机制？

73.hbase 写数据的原理是什么？

75.hbase宕机如何处理？

144. 如果让你设计，你觉得一个分布式文件系统应该如何设计，考虑哪方面内容；

每天百亿数据入hbase，如何保证数据的存储正确和在规定的时间里全部录入完毕，

不残留数据。

149.hbase过滤器实现原则。

164.介绍一下hbase过滤器。

167.hbase集群安装注意事项。

319.Hbase 在进行模型设计时重点在什么地方？一张表中定义多少个Column Family

最合适？为什么？

320.如何提高HBase客户端的读写性能？请举例说明。

353.我们的hbase 大概在公司业务中（主要是网上商城）大概都有几个表，几个表族，大概都存什么样的数据？

354.hbase的并发问题？ storm 问题

394.你们用HBASE 存储什么数据？

407.Hbase的体系结构和搭建步骤、shell命令与JavaApi、hbase作为Mapreduce

的输入输出源、高级Javaapi、工作原理（重点是combine和split原理）、行健设计原则、性能优化？

414.现在我们要对oracle 和hbase中的某些表进行更新，你是怎么操作？

415.hbase 接受数据，如果短时间导入数量过多的话就会被锁，该怎么办？集群数16台，高可用性的环境。

参考：

通过调用Htable.setAutoFlush(false)方法可以将htable写客户端的自动flush关闭，这样可以批量写入到数据到hbase。而不是有一条put 就执行一次更新，只有当put填满客户端写缓存时，才实际向Hbase 服务端发起请求。默认情况下auto flush 是开启的。

419.怎样将mysql的数据导入到hbase中？不能使用sqoop，速度太慢了

提示：

A、一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入hbase时，会按照region分区情况，在集群内做数据的负载均衡。

B、hbase 里面有这样一个hfileoutputformat类，他的实现可以将数据转换成hfile格式，通过new一个这个类，进行相关配置，这样会在Hdfs下面产生一个文件，这个时候利用hbase提供的jruby的loadtable.rb脚本就可以进行批量导入。

433.介绍一下Hbase过滤器

参考：：http://blog.sina.com.cn/s/blog_ae33b83901017km4.html

435.谈谈Hbase集群安装注意事项？

提示：需要注意的地方是zookeeper的配置，这与hbase-env.sh 文件相关，文集中hbase_managers_zk环境变量用来设置是使用hbase 默认自带的zookeeper 还是使用队里的zookeeper。HBASE_MANGES_ZK=false 时，使用独立的。true是使用默认自带的。

某个节点的hregionserver启动失败，这是由于这3个节点的系统时间不一致相差超过集群的检查时间30s。

477.简述HBase的瓶颈

提示：HBase的瓶颈就是硬传输速度，Hbase 的操作，它可以往数据里面 insert，也可以update一些数据，但update 的实际上也是insert，只是插入一个新的时间戳的一行，delete数据，也是insert，只是insert一行带有delete标记的一行。hbase的所有操作都是追加插入操作。hbase是一种日志集数据库。它的存储方式，像是日志文件一样。它是批量大量的往硬盘中写，通常都是以文件形式的读写。这个读写速度，就取决于硬盘与机器之间的传输有多快。而oracle的瓶颈是硬盘寻到时间。它经常的操作时随机读写。要update一个数据，先要在硬盘中找到这个block，然后把它读入内存，在内存中的缓存中修改，过段时间再回写回去。由于你寻找的block不通，这就存在一个随机的读。硬盘的寻道时间主要由转速来决定。而寻道时间，技术基本没有改变，这就形成了寻道时间瓶颈。

491.HBase如果只向一个RegionServer写入数据，有什么优点？

494.HBase一行数据如何存储？

501.hbase的存储原理

545.hbase协处理器？

421.怎么知道hbase表里哪些做索引？哪些没有做索引？

提示：

有且仅有一个：rowkey，所以hbase得快速查找建立在rowkey的基础的，而不能像一般的关系型数据库那样建立多个索引来达到多条件查找的效果。

24.Hbase过滤器实现原则

----------------------------------------------------------------have done-------------------------------------------------------------

60.描述Hbase搭建过程

351.hbase 怎么给web前台提供接口来访问(Htable 可以提供对htable的访问，但是怎么查询同一条记录的多个版本数据？)

Hadoop 面试题之Hbase的更多相关文章

Hadoop 面试题redis
Hadoop 面试题之十 548.redis有什么特别之处,为什么用redis,用hbase 不行么? 答:redis 是基于内存的数据库,速度快 551.redis用什么版本? 3.0以上才支持集群 ...
hadoop面试题答案
Hadoop 面试题,看看书找答案,看看你能答对多少(2) 1. 下面哪个程序负责 HDFS 数据存储.a)NameNode b)Jobtracker c)Datanode d)secondary ...
大数据hadoop面试题2018年最新版（美团）
还在用着以前的大数据Hadoop面试题去美团面试吗?互联网发展迅速的今天,如果不及时更新自己的技术库那如何才能在众多的竞争者中脱颖而出呢? 奉行着"吃喝玩乐全都有"和"美 ...
Hadoop学习笔记—15.HBase框架学习（基础知识篇）
HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问.HBase的目标是存储并处理大型的数据.HBase是一个开源的,分布式的,多版本的,面向列的存储模型,它存储的是 ...
Hadoop学习笔记—15.HBase框架学习（基础实践篇）
一.HBase的安装配置 1.1 伪分布模式安装伪分布模式安装即在一台计算机上部署HBase的各个角色,HMaster.HRegionServer以及ZooKeeper都在一台计算机上来模拟. 首先 ...
Hadoop 面试题之storm 3个
Hadoop 面试题之八 355.metaq 消息队列 zookeeper 集群 storm集群(包括 zeromq,jzmq,和 storm 本身)就可以完成对商城推荐系统功能吗?还有其他的中间件? ...
Hadoop集群中Hbase的介绍、安装、使用
导读 HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群. 一.Hbase ...
Hadoop集群的hbase介绍、搭建、环境、安装
1.hbase的介绍(自行百度hbase,比我总结的全面具体) HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC ...
maven工程之pom模板（hadoop、hive、hbase）
以下配置文件涵盖了hadoop.hive.hbase开发支持库的配置. 仅需针对maven工程pom.xml文件做相应更改就可以自动生成hadoop开发支持库. <properties> ...

随机推荐

POJ 2828 Buy Tickets（线段树树状数组/单点更新）
题目链接: 传送门 Buy Tickets Time Limit: 4000MS Memory Limit: 65536K Description Railway tickets were d ...
mysql 生成排名字段
假设有test表,下图为表机构和数据,score表示积分.现在要查询积分排名为第几的id?? 查询语句 select id,score,(@rowno:=@rowno+1) as rowno from ...
NSFileManager（沙盒文件管理）数据持久化 <序列化与反序列化>
iOS应用程序只能在为该改程序创建的文件中读取文件,不可以去其它地方访问,此区域被成为沙盒,所以所有的非代码文件都要保存在此,例如图像,图标,声音,映像,属性列表,文本文件等. 默认情况下 ...
获取字符串中每个字符出现的次数(利用TreeMap)
案例:"aababcabcdabcde",获取字符串中每一个字母出现的次数要求结果:a(5)b(4)c(3)d(2)e(1)分析1:定义一个字符串(可以改进为键盘录入)2:定义一个 ...
angular 兼容ie7 实现
<script src="~/Content/js/angular.min.js"></script><script src="~/Cont ...
Oracle创建表空间及用户
1.sys dba登录 2.创建临时表空间 create temporary tablespace wf_temp tempfile 'C:\APP\ADMINISTRATOR\ORADATA\PLA ...
Oralce配置正确，报监听错误或无法识别描述中的服务
出差客户现场,修改过网络配置,回来后本地虚拟机的Oracle数据库就不能登陆了报监听错误,在服务器中使用Net Configration Assistant删除以前的,重新配置新的,还是不行,重启系 ...
JavaWeb学习笔记——表达式语言
使用表达式语言,可以方便地访问标志位(JSP中有page(pageContext).request.session和application4种标志位)中的属性内容,可以避免出现许多的Scriptlet ...
监控web页面的性能指标。
监控一个web页面的性能也是非常重要的,h5提供了一个非常好的属性来监控: window.performance 它有两个成员: navigation (一个叫做performanceNavi ...
微软.NET序列化格式
官方文档 https://msdn.microsoft.com/en-us/library/cc236844.aspx 对比 http://www.codeproject.com/Articles/3 ...

Hadoop 面试题之Hbase

Hadoop 面试题之Hbase的更多相关文章

随机推荐

热门专题