presto和hive

Hive sql和Presto sql的一些对比

最近由于工作上和生活上的一些事儿好久没来博客园了,但是写博客的习惯还是得坚持,新的一年需要更加努力,困知勉行,终身学习,每天都保持空杯心态.废话不说,写一些最近使用到的Presto SQL和Hive SQL的体会和对比. 一.JSON处理对比 Hive select get_json_object(json, '$.book'); Presto select json_extract_scalar(json, '$.book'); 注意这里Presto中json_extract_scalar返回

presto整合hive

Presto安装前提条件: hadoop安装好了(并启动了) + hive安装好了文档网址:http://prestodb.jd.com/docs/current/installation/deployment.html 首先解压下载好的tar.gz包 1 .安装包 https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.100/presto-server-0.100.tar.gz

Hive presto和hive时间格式转换

1.北京时间格式 to unix时间格式数据格式: 2017-11-17 08:28:13 2017-11-17 08:28:10 2017-11-17 08:27:51.343 2017-11-17 08:27:48.021 presto单个标准时间转化(10位unix): select to_unixtime(cast ('2017-08-30 10:36:15' as timestamp)) hive单个标准时间转化(10位unix): select unix_timestamp

presto和hive日期函数对比

时间格式转换日期格式→Unix时间戳转10位Unix时间戳数据:2020-07-23 15:01:13 Presto:select to_unixtime(cast('2020-07-23 15:01:13' as timestamp)) Hive:select unix_timestamp(cast('2020-07-23 15:01:13' as timestamp)) 转13位Unix时间戳数据:2020-07-23 15:01:13.343 Presto:select to_un

环境搭建 Hadoop+Hive(orcfile格式)+Presto实现大数据存储查询一

一.前言 Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.接下来我们使用的是Hive Hive简介 Hive 是一个基于 Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据. 它把海量数据存储于 hadoop 文件系统,而不是数据库

Docker+Hadoop+Hive+Presto 使用Docker部署Hadoop环境和Presto

Background 一. 什么是Presto Presto通过使用分布式查询,可以快速高效的完成海量数据的查询.如果你需要处理TB或者PB级别的数据,那么你可能更希望借助于Hadoop和HDFS来完成这些数据的处理.作为Hive和Pig(Hive和Pig都是通过MapReduce的管道流来完成HDFS数据的查询)的替代者,Presto不仅可以访问HDFS,也可以操作不同的数据源,包括:RDBMS和其他的数据源(例如:Cassandra). Presto被设计为数据仓库和数据分析产品:数据分析.

单机安装hive和presto

问题: 公司最近在搞presto,主要是分析一下presto和hive的查询大数据量的性能对比: 我先把我的对比图拿出来(50条数据左右)针对同一条sql(select * from employee where eid = 1203) hive的查询,下面有时间:4.436s presto的查询: 0.02s 查询效率比为 4.436 / 0.02 === 2021 补充: presto是什么 Presto是Facebook开发的数据查询引擎,可对250PB以上的数据进行快速地交互式分析

单机安装hadoop+hive+presto

系统环境在个人笔记本上使用virtualbox虚拟机 os:centos -7.x86-64.everything.1611 ,内核 3.10.0-514.el7.x86_64 注:同样可以使用rhel7.3来安装. 内存:2.5 g,推荐内存4g,否则内存太少,运行得有点慢. 安装组件包括: hadoop-2.8.0 apache-hive-2.1.1 presto-server-0.177 mysql-community-server-5.7.18-1.el7.x86_64 oracle

presto集成kerberos以及访问集成了kerberos的hive集群

1.创建主体注: 192.168.0.230 为单节点集群 192.168.4.50为kdc服务器 192.168.0.9为客户端 1.1.Kdc服务器创建主体 # kadmin.local -q ‘addprinc -randkey presto’ #kadmin.local -q ‘addprinc -randkey presto/yjt’ 1.2.创建秘钥文件 # kadmin.local -q ‘xst -norandkey -k presto.keytab presto presto

近实时运算的利器---presto在公司实践

1.起因公司hadoop集群里的datanonde和tasktracker节点负载主要集中于晚上到凌晨,平日工作时间负载不是很高.但在工作时间内,公司业务人员有实时查询需求,现在主要借助于hive提供业务人员日常查询.总所周知,hive是一个基于MR的类SQL查询工具,它会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛, 让一般的业务人员也可以直接对大数据进行查询.但一个弊病也是很明显,它的查询速度由于基于MR,会是非常的让人着急. 在Spark,Storm横行

Presto 来自Facebook的开源分布式查询引擎

Presto是一个分布式SQL查询引擎, 它被设计为用来专门进行高速.实时的数据分析.它支持标准的ANSI SQL,包括复杂查询.聚合(aggregation).连接(join)和窗口函数(window functions).下图中展现了简化的Presto系统架构.客户端(client)将SQL查询发送到Presto的协调员(coordinator).协调员会进行语法检查.分析和规划查询计划.计划员(scheduler)将执行的管道组合在一起, 将任务分配给那些里数据最近的节点,然后监控执行过程

Presto架构及原理

Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎,可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别,据称该引擎的性能是 Hive 的 10 倍以上.Presto 可以查询包括 Hive.Cassandra 甚至是一些商业的数据存储产品,单个 Presto 查询可合并来自多个数据源的数据进行统一分析.Presto 的目标是在可期望的响应时间内返回查询结果,Facebook 在内部多个数据存储中使用 Presto 交互式

Presto向分区表快速插入数据时出现'target directory already exists'的原因

因为项目使用Presto作为ETL使用,需要将关系库中的数据导入到Hive中.目前关系库中的数据每天导入一次,在Hive中以天为间隔创建新的分区.思路是正确的,但是在使用的过程中,发现将少量关系库中的数据通过Presto快速并多次导入到Hive中时会出现如下错误: com.facebook.presto.spi.PrestoException: Unable to rename from hdfs://cloud171:8020/tmp/presto-root/34923b62-7933-46f

Presto集群部署和配置

参考文档:1.https://blog.csdn.net/zzq900503/article/details/79403949 prosto部署与连接hive使用 2.http://my.525.life/article?id=1510739741953 CDH目录结构 3.https://ilnba.iteye.com/blog/1711367 linux文件描述限制环境准备 Presto 有以下几个基本要求:

[Presto]Presto章1 Presto 咋用

Presto 的平均查询性能是 Hive 的 10 倍! 由于 Presto 的数据源具有完全解耦.高性能,以及对 ANSI SQL 的支持等特性,使得 Presto 在 ETL.实时数据计算. Ad-Hoc 查询和实时数据流分析等多个业务场景中均能发挥重要的作用. 由于 Presto 卓越的性能表现,使得 Presto 可以弥补 Hive 无法满足的实时计算空白,因此可以将 Presto 与 Hive 配合使用:对于海量数据的批处理和计算由 Hive 来完成:对于大量数据(单次计算扫描数据量级

【原创】大叔问题定位分享（33）beeline连接presto报错

hive2.3.4 presto0.215 使用hive2.3.4的beeline连接presto报错 $ beeline -d com.facebook.presto.jdbc.PrestoDriver -u "jdbc:presto://localhost:8080/hive" Error: Unrecognized connection property 'url' (state=,code=0) 增加--verbose查看详细报错 $ beeline -d com.facebo

【原创】大数据基础之Presto（1）简介、安装、使用

presto 0.217 官方:http://prestodb.github.io/ 一简介 Presto is an open source distributed SQL query engine for running interactive analytic queries against data sources of all sizes ranging from gigabytes to petabytes. Presto was designed and written from

Presto实战

一.Presto简介 1.PRESTO是什么? Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节. Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题. 2.它可以做什么? Presto支持在线数据查询,包括Hive, Cassandra, 关系数据库以及专有数据存储.一条Presto查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析. Presto以分析师的需求作为目标,他们期望响应时

Presto + Superset 数据仓库及BI

基于Presto和superset搭建数据分析平台. Presto可以作为数据仓库,能够连接多种数据库和NoSql,同时查询性能很高: Superset提供了Presto连接,方便数据可视化和dashboard生成. 基本概念 datawarehouse 数据仓库整合各类数据库数据,面向主题,方便分析.存储元数据,模型信息,存储数据(建索引.缓存.分区.pre-aggregation)等. greenplum hive OLAP 一些列数据分析操作,比如pivoting, slicing, d

Presto 架构和原理简介（转）

Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎,可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别,据称该引擎的性能是 Hive 的 10 倍以上.Presto 可以查询包括 Hive.Cassandra 甚至是一些商业的数据存储产品,单个 Presto 查询可合并来自多个数据源的数据进行统一分析.Presto 的目标是在可期望的响应时间内返回查询结果,Facebook 在内部多个数据存储中使用 Presto 交互式

presto和hive

热门专题