使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本。
使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作
标签: Hive Impala Elasticsearch Hadoop SQL Elasticsearch for Apache Hadoop
摘要:
使用Elasticsearch-SQL可以对存储在Elasticsearch中的数据执行简单的SQL查询操作,然而并不支持多表join等联接查询。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
因此如果Hive可以从Elasticsearch中取数据,并结合Hive的SQL查询功能,便能做到较为复杂的SQL查询操作。
我们的目标是:
- 支持Elasticsearch多表联接查询;
- 结合Elasticsearch搜索引擎提高SQL查询效率。
基础环境
CentOS-6.5
hive:hive-0.13.1+cdh5.3.6+397
impala:impala-2.1.5+cdh5.3.6+0
spark:spark-1.2.0+cdh5.3.6+379
elasticsearch:elasticsearch-1.7.1
elasticsearch-hadoop-hive:elasticsearch-hadoop-hive-2.1.1
Elasticsearch简介
Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。它基于RESTful web接口,提供实时、稳定、可靠的分布式服务。
Elasticsearch的数据类型
ES使用JSON作为数据交互格式,所以简单来说,JSON支持的数据类型,ES都支持。
String: string
Whole number: byte, short, integer, long
Floating point: float, double
Boolean: boolean
Date: date
除了以上Core Types(核心数据类型),还有:Array Type、Object Type、Root Object Type、Nested Type、IP Type、Geo-point Type、Geo Shap Type、Attachment Type等。
Solr的数据类型
相应的Solr的数据类型有:
| BCDIntField | BCDLongField | BCDStrField | BinaryField | BoolField |
| -------- | ----- | ---- |
|二进制整形字段|二进制长整形字段|二进制字符型字段|二进制数据| 包含true或者false,值的第一个字符如果是1、t、T均表示true,其他为false
|ByteField|DateField|DoubleField|ExternalFileField|FloatField
|一个字节数据|一个精确到毫秒的时间值|
|IntField|Location|LongField|Point|RandomSortField|
| |方位搜索用到,存经纬度值||N维点搜索,在蓝图或者CAD图中使用|不包含值,当查询时按这种类型的字段排序时会产生随机排序。使用该特性时需要是一个动态字段|
|ShortField|StrField|TextField|UUIDField
||UTF-8编码的字符串或Unicode|文本类型,一般包含多个单词或汉字|唯一识别码,单传入的值是“NEW”时,Solr将为其创建1个UUID值
数据存储在Elasticsearch上,使用Hive执行SQL语句
要打通Elasticsearch与Hive,需要Elasticsearch for Apache Hadoop下的elasticsearch-hadoop-hive。
Elasticsearch for Apache Hadoop提供了三类解决方案:Elasticsearch on YARN、repository-hdfs、elasticsearch-hadoop proper。
详情查看:Elasticsearch for Apache Hadoop。
创建Hive外部表
先有Hive再有Elasticsearch
在Elasticsearch中并无表,甚至并无Elasticsearch服务时,可以通过执行以下语句在Hive中创建一个新的外部表。
#在Hive中创建一个新的外部表
hive> CREATE EXTERNAL TABLE hive_es_angel(
id BIGINT,
name STRING)
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES('es.nodes'='192.168.181.190','es.resource' = 'indexname/typename');
这里指定了ES的地址与索引名和类型名(index-type)。通过执行此语句,便可以在Hive查看到结构正确的表。
注意:
elasticsearch-hadoop will always convert Hive column names to lower-case,就是说建立起的Hive表中所有字段均变为小写。
在执行此语句后,并不会在ElasticSearch中建立指定的索引与类型,只有当后续在Hive中执行SQL插入语句时,才会在ElasticSearch中建立指定的索引与类型,并插入相关数据。
执行此语句并不会抛出错误,这与HBase和Hive建立关联时的情况不一样,创建HBase外部表时需要查看HBase中信息。 更多细节可以查看《使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作》一文。
先有Elasticsearch再有Hive
在ElasticSearch中已有索引和类型,甚至在其中存储有数据时,我们可以在Hive中直接对ElasticSearch中数据进行操作。
即是在Hive中执行以上创建ES外部表的命令,即可以在Hue中看到ElasticSearch中的数据。
以下是几种典型的创建Hive外部表命令:
- 在Hive指定decimal数据类型
CREATE EXTERNAL TABLE hive_es_decimal(
price DECIMAL(12,2) )
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES('es.nodes'='192.168.181.160','es.resource' = 'indexname/typename');
默认情况下,是以列名称与ES映射的,注意:elasticsearch-hadoop will always convert Hive column names to lower-case,此时ES列名也必须小写,否则映射不上。
经验证,以上语句有问题。如Hive定义为Decimal,而ES只能Double,会出现org.apache.hadoop.hive.serde2.io.DoubleWritable cannot be cast to org.apache.hadoop.hive.serde2.io.HiveDecimalWritable
错误。
- 指定列映射关系
CREATE EXTERNAL TABLE hive_es_map(
price DOUBLE,
itemid BIGINT,
myname STRING
)
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES('es.nodes'='192.168.181.160','es.resource' = 'indexname/typename','es.mapping.names' = 'itemid:itemId, myname:myName, devicenumber:deviceNumber');
在创建Hive外部表时指定映射关系时,也需要对应好数据类型,否则也会出现类似数据类型转换失败错误。
注意:
从ES的date数据类型转换到Hive的date/timestamp数据类型,均出错,出错信息为:java.io.IOException: java.lang.IllegalArgumentException: 2015-06-03T14:54:46+0800
向Elasticsearch写
hive> add jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/lib/hive/lib/elasticsearch-hadoop-hive-2.1.1.jar;
#向ES中导入Hive中表sample_07数据
hive> INSERT OVERWRITE TABLE hive_es_test
SELECT s.id, s.code
FROM sample_07 s;
当Elasticsearch中不存在相应索引时,经过执行以上插入语句,在Elasticsearch中就会创建一个新索引:indexname,新类型:typename(当然是在Hive创建新外部表时指定好的),数据也已经添加入其中。
没有指定列映射类型时,下面是部分默认情况下的Hive与ElasticSearch数据类型映射关系。
Hive | ES | 默认映射结果 |
---|---|---|
bigint | long | 无问题 |
timestamp | date | 无问题 |
double | double | 无问题 |
date | string | 有问题 |
decimal | string | 有问题 |
注意:
可以看到有问题的映射是两端不能匹配的映射。当存在有问题的映射时,在Hive中执行SELECT * FROM table_decimal
时会抛出异常:
Failed with exception java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.hive.serde2.io.HiveDecimalWritable
即数据类型从ElasticSearch到Hive数据类型转换失败。可见,在使用Hive对存储在ElasticSearch中的数据进行操作时,要注意使用双方均支持的数据类型。
从Elasticsearch读
我们选择以下几条有代表性的SQL查询语句,来验证使用Hive可以对存储在Elasticsearch中的数据进行正确的查询操作。
where子句
hive> add jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/lib/hive/lib/elasticsearch-hadoop-hive-2.1.1.jar;
hive> select count(*) from hive_es_angel where id>1000;
在执行此语句时,可以看到map-reduce的执行过程:
Hadoop job information for Stage-1: number of mappers: 5; number of reducers: 1
2015-10-15 14:30:28,181 Stage-1 map = 0%, reduce = 0%
2015-10-15 14:30:38,623 Stage-1 map = 2%, reduce = 0%, Cumulative CPU 4.07 sec
2015-10-15 14:30:39,678 Stage-1 map = 4%, reduce = 0%, Cumulative CPU 8.8 sec
2015-10-15 14:30:41,766 Stage-1 map = 5%, reduce = 0%, Cumulative CPU 9.36 sec
这说明,Hive在执行此语句时,并没有用到Elasticsearch建立的索引,以使查询效率更高,而是将Elasticsearch相应数据全部获取下来。
注意:
Hive并没有用到Elasticsearch查询高效的好处。
普通表与外表关联
hive> add jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/lib/hive/lib/elasticsearch-hadoop-hive-2.1.1.jar;
hive> select * from hive_es_angel left join sample_08 on hive_es_angel.name=sample_08.code;
其中sample_08表是Hive普通表,hive_es_angel是数据存储在HBase中的Hive外表。
经验证,通过执行上面语句,可以将Hive普通表与Hive的Elasticsearch外表进行正确的关联。
这样一来,ES的SQL插件elasticsearch-sql所不能完成的join等查询语句,便可以通过Hive很好的执行了。
Double数据类型求和
hive> add jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/lib/hive/lib/elasticsearch-hadoop-hive-2.1.1.jar;
hive> SELECT SUM(field_double) FROM hive_es_double;
由于ElasticSearch并不支持decimal数据类型,故只能在Hive中对小数列创建double数据类型,这时使用Hive也无法进行精确求和,这在需要进行小数精确统计时,是一大问题。
Solr也有此缺陷,可见目前ES、Solr天生不适合进行精确计算。故将数据放在ES中,使用Hive或Impala进行SQL精确统计,并非一个好办法。
数据存储在Elasticsearch上,使用Impala执行SQL语句
hive中建立的普通表,impala可以读取使用。执行join语句时,impala明显比hive快很多。在impala中执行INVALIDATE METADATA 、 REFRESH table_name语句以便 Impala 识别新的或已更改的数据。
但是,对于EXTERNAL TABLE数据存放在ES上的,Hive SQL可以正确执行,Impala SQL执行不正确,出错信息如下所示。
ERROR: AnalysisException: Failed to load metadata for table: default.hive_table
CAUSED BY: TableLoadingException: Unrecognized table type for table: default. es_table
可见使用elasticsearch-hadoop来做Impala计算,是不可行的。相比较下,数据存储在HBase中,使用Impala执行SQL语句却没有问题。具体可以查看《使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作》一文。
综上所述
数据存储在Elasticsearch中,使用Hive进行SQL操作,并不是一个好主意,这是由于ES的数据类型所限导致的ES与Hive的数据类型对应问题,并且Hive并不能用到Elasticsearch建立的索引的高效查询好处。虽然以上方案可以解决使用Hive对Elasticsearch较复杂SQL语句查询,但不方便也不高效,且Impala也不能支持。
故,目标1达成,但目标2没有达成。
博客园既不支持目录,也不支持表格,真是不舒服。我在考虑要不要换个地方发表。
嫌样式不好的,大家看这篇吧:http://www.cnblogs.com/wgp13x/p/4934521.html内容一样,样式稍好看些。
信息系统集成项目管理人员资质证书还有公司需要的啊?挂靠私聊。
使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作的更多相关文章
- 使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
- 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
- easyui datagrid 禁止选中行 EF的增删改查(转载) C# 获取用户IP地址(转载) MVC EF 执行SQL语句(转载) 在EF中执行SQL语句(转载) EF中使用SQL语句或存储过程 .net MVC使用Session验证用户登录 PowerDesigner 参照完整性约束(转载)
easyui datagrid 禁止选中行 没有找到可以直接禁止的属性,但是找到两个间接禁止的方式. 方式一: //onClickRow: function (rowIndex, rowData) ...
- sql语句更新某字段内容中部分数据
使用到的sql 语句的关键字就是replace, 如下图,把带有zhangjun 的值替换成 user 使用的sql语句就是 update 表名 set 字段名=replace(字段名,‘替换字符内容 ...
- 在EntityFramework6中执行SQL语句
在EntityFramework6中执行SQL语句 在上一节中我介绍了如何使用EF6对数据库实现CRDU以及事务,我们没有写一句SQL就完成了所有操作.这一节我来介绍一下如何使用在EF6中执行SQL语 ...
- hive -help hive命令行执行sql参数
在shell命令行执行 hive -help 结果如下: -d,--define <key=value> Variable substitution to apply to Hive co ...
- 4.5 .net core下直接执行SQL语句并生成DataTable
.net core可以执行SQL语句,但是只能生成强类型的返回结果.例如var blogs = context.Blogs.FromSql("SELECT * FROM dbo.Blogs& ...
- 三种执行SQL语句的的JAVA代码
问题描述: 连接数据库,执行SQL语句是必不可少的,下面给出了三种执行不通SQL语句的方法. 1.简单的Statement执行SQL语句.有SQL注入,一般不使用. public static voi ...
- Entity Framework Code First执行SQL语句、视图及存储过程
1.Entity Framework Code First查询视图 Entity Framework Code First目前还没有特别针对View操作的方法,但对于可更新的视图,可以采用与Table ...
随机推荐
- Titanium Studio下载地址
http://titanium-studio.s3.amazonaws.com/latest/titanium.studio.linux.gtk.x86_64.zip http://titanium- ...
- Get,Post请求中文乱码问题有效解决方法
本文主要介绍如何有效解决web请求中的乱码问题,其实解决方法有很多种,不同的请求类型解决方法也不相同. 本文只介绍最方便的一种: 1.先修改jsp中的编码方式 2.针对Post方式提交的请求如果出现乱 ...
- (学习笔记)PHP的输出echo和print
echo 和 print 之间的差异: echo - 能够输出一个以上的字符串 print - 只能输出一个字符串,并始终返回 1 echo语句 echo 或 echo()均可. 输出换行 echo ...
- 一种基于annotation的Spring-mvc权限控制方法
简介 本文介绍一种采用annotation来对spring-mvc进行权限控制的方法. 通过枚举类来定义权限项. 将annotation标注到需要控制权限的spring-mvc方法上. 然后,在spr ...
- js改变css样式的三种方法
共用代码: <div id="div">this is a div</div> var div=document.getElementById('div') ...
- jQuery幸运大转盘_jQuery+PHP抽奖程序的简单实现
jQuery幸运大转盘_jQuery+PHP抽奖程序的简单实现 在线实例 查看演示 完整代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 ...
- Midnight.js – 实现奇妙的固定头部切换效果
Midnight.js 是一款 jQuery 插件,在页面滚动的时候实现多个头设计之间的切换,所以你总是有一个头与它下面的内容层叠,看起来效果很不错. Midnight.js 可以让你轻松实现这种切换 ...
- 向 Web 开发人员推荐35款 JavaScript 图形图表库
图表是数据图形化的表示,通过形象的图表来展示数据,比如条形图,折线图,饼图等等.可视化图表可以帮助开发者更容易理解复杂的数据,提高生产的效率和 Web 应用和项目的可靠性. 在这篇文章中,我们收集了3 ...
- 图标集锦:10套免费的社交媒体 & 社交网站图标
社交网络是最近几年互联网领域最热门的关键词之一,如今社会网络化媒体也成为我们信息获取和传播的重要途径,很多网站都有把内容分享到社交媒体的功能. 社交媒体图标作为向用户传递信息的重要媒介,不管是在网页还 ...
- URL(统一资源定位符)结构和注意事项
URL的常见结构: http://localhost/项目名称/文件1/文件2... 注意事项: 当我们在项目中在书写URL的时候,一般会出现两种情况: 第一种:在路径前面加上/,表示直接连在loca ...