1.概述

  在《Hadoop - 实时查询Drill》一文当中,笔者给大家介绍如何去处理实时查询这样的业务场景,也是简略的提了一下如何去实时查询HDFS,然起相关细节并未说明。今天给大家细说一下相关细节,其中包含:HDFS,Hive以及HBase等内容。

2.数据源和文件格式

  在使用Drill去做实时查询,由于其只是一个中间件,其适配的存储介质是有限制的,目前官方支持以下存储介质:

  • FS
  • HDFS
  • HBase
  • Hive
  • RDBMS
  • MongoDB
  • MapR-DB
  • S3

  这里笔者主要给大家介绍HDFS,Hive,HBase这三种介质。另外,Drill支持以下输入格式的数据源:

  • Avro
  • CSV
  • TSV
  • PSV
  • Parquet
  • MapR-DB*
  • Hadoop Sequence Files

2.1 文本类型文件(CSV,TSV,PSV)

  下面笔者给大家介绍文本类型的相关细节,文本类型的使用,有其固定的使用方法,通用配置如下:

  1. "formats": {
  2. "csv": {
  3. "type": "text",
  4. "extensions": [
  5. "txt"
  6. ],
  7. "delimiter": "\t"
  8. },
  9. "tsv": {
  10. "type": "text",
  11. "extensions": [
  12. "tsv"
  13. ],
  14. "delimiter": "\t"
  15. },
  16. "parquet": {
  17. "type": "parquet"
  18. }
  19. }

  这里以CSV为例子来说明:

  • "csv":表示固定的文本格式
  • "type":制定文件的类型,这里指定为文本类型
  • "extensions":扩展名为csv
  • "delimiter":文本内容,每行的分隔符为一个tab占位符

  上面的配置,这里我们也可以进行拓展,比如我们的HDFS上的文件格式如下图所示:

  我们要达到以下查询结果,内容如下所示:

  1. : jdbc:drill:zk=local> SELECT * FROM hdfs.`/tmp/csv_with_header.csv2`;
  2. +------------------------+
  3. | columns |
  4. +------------------------+
  5. | ["hello","","",""] |
  6. | ["hello","","",""] |
  7. | ["hello","","",""] |
  8. | ["hello","","",""] |
  9. | ["hello","","",""] |
  10. | ["hello","","",""] |
  11. | ["hello","","",""] |
  12. +------------------------+

  那么,我们可以对其做以下配置,内容如下所示:

  1. "csv": {
  2. "type": "text",
  3. "extensions": [
  4. "csv2"
  5. ],
  6. "skipFirstLine": true,
  7. "delimiter": ","
  8. },

  这里skipFirstLine这个属性表示忽略一行结果。

  另外,同样用到上面的数据源,我们要实现以下查询结果,内容如下所示:

  1. : jdbc:drill:zk=local> SELECT * FROM hdfs.`/tmp/csv_with_header.csv2`;
  2. +-------+------+------+------+
  3. | name | num1 | num2 | num3 |
  4. +-------+------+------+------+
  5. | hello | | | |
  6. | hello | | | |
  7. | hello | | | |
  8. | hello | | | |
  9. | hello | | | |
  10. | hello | | | |
  11. | hello | | | |
  12. +-------+------+------+------+

  这该如何去修改CSV的属性,我们添加以下内容即可:

  1. "csv": {
  2. "type": "text",
  3. "extensions": [
  4. "csv2"
  5. ],
  6. "skipFirstLine": false,
  7. "extractHeader": true,
  8. "delimiter": ","
  9. },

  从单词的意义上可以很直接的读懂属性所要表达的意思,这里就不多做赘述了。由于篇幅问题,这里就不一一列举了。

  其他格式文件与此类似,填写指定文件格式,文件类型,扩展名,文本分隔符即可,其他扩展属性可按需添加。

3.Plugins

3.1 HDFS

  集成HDFS的Plugins,添加内容如下所示:

  1. {
  2. "type": "file",
  3. "enabled": true,
  4. "connection": "hdfs://hdfs.company.com:9000/",
  5. "workspaces": {
  6. "root": {
  7. "location": "/opt/drill",
  8. "writable": true,
  9. "defaultInputFormat": null
  10. }
  11. },
  12. "formats": {
  13. "csv": {
  14. "type": "text",
  15. "extensions": [
  16. "txt"
  17. ],
  18. "delimiter": "\t"
  19. },
  20. "tsv": {
  21. "type": "text",
  22. "extensions": [
  23. "tsv"
  24. ],
  25. "delimiter": "\t"
  26. },
  27. "parquet": {
  28. "type": "parquet"
  29. }
  30. }
  31. }

  PS:连接HDFS地址注意要正确。

3.2 Hive

  集成Hive的Plugins,添加内容如下所示:

  1. {
  2. "type": "hive",
  3. "enabled": true,
  4. "configProps": {
  5. "hive.metastore.uris": "thrift://hdfs.company.com:9083",
  6. "fs.default.name": "hdfs://hdfs.company.com/",
  7. "hive.metastore.sasl.enabled": "false"
  8. }
  9. }

  PS:这里需要指定Hive的metastore的thrift地址,同时也需要指定hdfs的地址。另外,我们需要启动metastore的thrift服务,命令如下所示:

  1. hive --service metastore

  这里需要注意的是,Drill当前不支持写操作到Hive表,在将Hive表结构中的数据类型做查询映射时,支持以下类型:

支持的SQL类型 Hive类型
BIGINT BIGINT
BOOLEAN BOOLEAN
VARCHAR CHAR
DATE DATE
DECIMAL* DECIMAL
FLOAT FLOAT
DOUBLE DOUBLE
INTEGER INT,TINYINT,SMALLINT
INTERVAL N/A
TIME N/A
N/A TIMESPAMP  (unix的系统时间)
TIMESPAMP TIMESPAMP  (JDBC时间格式:yyyy-mm-dd hh:mm:ss)
None STRING
VARCHAR VARCHAR
VARBINARY BINARY

  另外,在Drill中,不支持以下Hive类型:

  • LIST
  • MAP
  • STRUCT
  • TIMESTAMP(Unix Epoch format)
  • UNION

3.3 HBase

  集成HBase的Plugins,添加内容如下所示:

  1. {
  2. "type": "hbase",
  3. "config": {
  4. "hbase.zookeeper.quorum": "hbase-zk01,hbase-zk02,hbase-zk03",
  5. "hbase.zookeeper.property.clientPort": ""
  6. },
  7. "size.calculator.enabled": false,
  8. "enabled": true
  9. }

  PS:在使用ZooKeeper集群连接信息时,需要注意的是,Drill在解析HBase的Plugins时,会解析其HBase集群上的ZK集群信息,如:在HBase集群中的ZK信息配置使用的时域名,这里在配置其HBase的Plugins的ZK连接信息也需使用对应的域名,若是直接填写IP,解析会失败。保证解析的一致性。

4.总结

  另外,在使用JDBC或ODBC去操作Drill的时候,连接信息的使用是需要注意的,直接按照官方给出的连接方式硬套是有问题的,这里我们修改以下连接信息。连接分2种情况,一种指定其Drill的IP和PORT,第二种,使用ZK的连接方式,如jdbc:drill:zk=dn1,dn2,dn3:2181即可。

5.结束语

  这篇博客就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以加群进行讨论或发送邮件给我,我会尽我所能为您解答,与君共勉!

Hadoop-Drill深度剖析的更多相关文章

  1. hadoop(一):深度剖析hdfs原理

    在配置hbase集群将 hdfs 挂接到其它镜像盘时,有不少困惑的地方,结合以前的资料再次学习;  大数据底层技术的三大基石起源于Google在2006年之前的三篇论文GFS.Map-Reduce. ...

  2. planning深度剖析

    planning深度剖析 结合find命令过滤目录及文件名后缀: find /home/hadoop/nisj/automationDemand/ -type f -name '*.py'|xargs ...

  3. 深度剖析HBase负载均衡和性能指标

    深度剖析HBase负载均衡和性能指标 在分布式系统中,负载均衡是一个非常重要的功能,HBase通过Region的数量实现负载均衡,即通过hbase.master.loadbalancer.class实 ...

  4. 《AngularJS深度剖析与最佳实践》简介

    由于年末将至,前阵子一直忙于工作的事务,不得已暂停了微信订阅号的更新,我将会在后续的时间里尽快的继续为大家推送更多的博文.毕竟一个人的力量微薄,精力有限,希望大家能理解,仍然能一如既往的关注和支持sh ...

  5. ASP.NET Core管道深度剖析(2):创建一个“迷你版”的管道来模拟真实管道请求处理流程

    从<ASP.NET Core管道深度剖析(1):采用管道处理HTTP请求>我们知道ASP.NET Core请求处理管道由一个服务器和一组有序的中间件组成,所以从总体设计来讲是非常简单的,但 ...

  6. Objective-C类成员变量深度剖析

    目录 Non Fragile ivars 为什么Non Fragile ivars很关键 如何寻址类成员变量 真正的“如何寻址类成员变量” Non Fragile ivars布局调整 为什么Objec ...

  7. 大众点评开源分布式监控平台 CAT 深度剖析

    一.CAT介绍 CAT系统原型和理念来源于eBay的CAL的系统,CAT系统第一代设计者吴其敏在eBay工作长达十几年,对CAL系统有深刻的理解.CAT不仅增强了CAL系统核心模型,还添加了更丰富的报 ...

  8. 深度剖析WordPress主题结构(转)

    利用强大的技术,可以把基于wordpress的网站做成各种各样的形式,这除了要求wordpress主题开发人员精通html,PHP,JS,CSS等技术,还需要开发者掌握WordPress主题的框架. ...

  9. LCD深度剖析

    LCD 深度剖析 来源:http://blog.csdn.net/hardy_2009/article/details/6922900 http://blog.csdn.net/jaylondon/a ...

随机推荐

  1. Orchard 精简版

    Orchard Express v1.7.2 精简版 保留Orchard.Framework和Orchard.Core全部源码(一字未改),去除非必要模块(仅剩Orchard.jQuery, Orch ...

  2. angular-ui-bootstrap的进度条问题及解决

    在测试angular-ui-bootstrap中的进度条的时候,用的是官方的示例代码,但是跑不起来. 经过代码比对之后,发现官方用的是0.14.3, 而我本地用的是0.13.3 (2015-08-09 ...

  3. Dynamic CRM 2013学习笔记(三十四)自定义审批流5 - 自动邮件通知

    审批过程中,经常要求自动发邮件:审批中要通知下一个审批人进行审批:审批完通知申请人已审批完:被拒绝后,要通知已批准的人和申请人.下面详细介绍如何实现一个自动发邮件的插件:   1. 根据审批状态来确定 ...

  4. Android UI开发【开篇导航】

    如今移动互联网正处于飞速发展的时期,正式看中这个行业的发展势头,本人在2011年从.NET转行做了移动应用开发这块,接触了android和ios开发,到今已快3个年头,先前忙于学习各种基础知识和语法方 ...

  5. 应用SQLServer For XML 生成XML避免在C# 拼字符串

    最近在Review代码时,有一个功能是 查询数据库中一列,然后生成像 <rootelements>      <col>a</col>      <col&g ...

  6. [JS6] 通过用户事件事件执行脚本

    <html> <head> <title>通过用户事件事件执行脚本</title> <SCRIPT TYPE="text/JavaScr ...

  7. Linux:常用快捷键

    按键 作用 Ctrl+d 键盘输入结束或退出终端 Ctrl+s 暂定当前程序,暂停后按下任意键恢复运行 Ctrl+z 将当前程序放到后台运行,恢复到前台为命令fg Ctrl+a 将光标移至输入行头,相 ...

  8. iOS开发之静态库(六)—— 时空之争

    前面的所有试验中,我们的静态库都支持了所有可能的指令集(i386, x86_64, armv7, armv7s, arm64),最大限 度的匹配了所有可能运行该代码的设备,使代码在当前存在的几乎所有i ...

  9. Leetcode 111 Minimum Depth of Binary Tree 二叉树

    找出最短的从叶子到根的路径长 可以回忆Maximum Depth of Binary Tree的写法,只不过在!root,我把它改成了10000000,还有max函数改成了min函数,最后的值如果是1 ...

  10. C# winform的WebBrowser非常规编程(强烈推荐)

    本文章被今日头条推荐 1.在WebBrowser中实现抓取301和302协议 在WebBrowser中抓取301和302协议目前官方提供的组件远远不够,需要借助HttpMonitor.dll.这个组件 ...