一、Presto概述

1、Presto简介

Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节，Presto虽然具备解析SQL的能力，但它并不属于标准的数据库范畴。

Presto支持在线数据查询，包括Hive，关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数据进行合并，可以跨越整个组织进行分析，Presto主要用来处理响应时间小于1秒到几分钟的场景。

2、Presto架构

Presto查询引擎是基于Master-Slave的架构，运行在多台服务器上的分布式系统，由一个Coordinator节点和多个Worker节点组成，Coordinator负责解析SQL语句，生成执行计划，分发执行任务给Worker节点执行，Worker节点负责实际执行查询任务。

Coordinator节点

Coordinator服务器是用来解析查询语句，执行计划分析和管理Presto的Worker结点，跟踪每个Work的活动情况并协调查询语句的执行。Coordinator为每个查询建立模型，模型包含多个Stage，每个Stage再转为Task分发到不同的Worker上执行，协调通信基于REST-API，Presto安装必须有一个Coordinator节点。

Worker节点

Worker负责执行查询任务和处理数据，从Connector获取数据，Worker间会交换中间数据。Coordinator从Worker获取结果并返回最终结果给Client端，当Worker启动时会广播自己并发现Coordinator，告知Coordinator可用状态，协调通信基于REST-API，Presto通常会安装多个Worker节点。

数据源适配

Presto可以适配多种不同的数据源，可以和数据源连接和交互，Presto是通过表的完全限定名处理table，Catalog对应类数据源，Schema对应数据库，Table对应数据表。

Presto中处理的最小数据单元是一个Page对象，一个Page对象包含多个Block对象，每个Block对象是一个字节数组，存储一个字段的若干行，多个Block横切的一行是真实的一行数据。

二、Presto安装

1、安装包管理

[root@hop01 presto]# pwd

/opt/presto

[root@hop01 presto]# ll

presto-cli-0.196-executable.jar

presto-server-0.189.tar.gz

[root@hop01 presto]# tar -zxvf presto-server-0.189.tar.gz

2、配置管理

在presto安装目录中创建etc文件夹，并添加以下配置信息：

/opt/presto/presto-server-0.189/etc

节点属性

每个节点的特定环境配置:etc/node.properties；

[root@hop01 etc]# vim node.properties

node.environment=production

node.id=presto01

node.data-dir=/opt/presto/data

配置内容：环境名称，唯一ID，数据目录。

JVM 配置

JVM的命令行选项，用于启动Java虚拟机的命令行选项列表:etc/jvm.config。

[root@hop01 etc]# vim jvm.config

-server

-Xmx16G

-XX:+UseG1GC

-XX:G1HeapRegionSize=32M

-XX:+UseGCOverheadLimit

-XX:+ExplicitGCInvokesConcurrent

-XX:+HeapDumpOnOutOfMemoryError

-XX:+ExitOnOutOfMemoryError

配置属性

Presto服务器的配置，每个Presto服务器都可以充当协调器和工作器，如果单独使用一台机器来执行协调工作可以在更大的集群上提供最佳性能，这里PrestoServer既当一个coordinator也是一个worker节点:etc/config.properties。

[root@hop01 etc]# vim config.properties

coordinator=true

node-scheduler.include-coordinator=true

http-server.http.port=8083

query.max-memory=3GB

query.max-memory-per-node=1GB

discovery-server.enabled=true

discovery.uri=http://hop01:8083

这里coordinator=true表示当前Presto实例充当协调器角色。

日志配置

[root@hop01 etc]# vim log.properties

com.facebook.presto=INFO

Catalog属性

/opt/presto/presto-server-0.189/etc/catalog

配置hive适配:

[root@hop01 catalog]# vim hive.properties

connector.name=hive-hadoop2

hive.metastore.uri=thrift://192.168.37.133:9083

配置MySQL适配:

[root@hop01 catalog]# vim mysql.properties

connector.name=mysql

connection-url=jdbc:mysql://192.168.37.133:3306

connection-user=root

connection-password=123456

3、运行服务

启动命令

[root@hop01 /]# /opt/presto/presto-server-0.189/bin/launcher run

启动日志

这样presto就启动成功了。

三、客户端安装

1、Jar包管理

[root@hop01 presto-cli]# pwd

/opt/presto/presto-cli

[root@hop01 presto-cli]# ll

presto-cli-0.196-executable.jar

[root@hop01 presto-cli]# mv presto-cli-0.196-executable.jar presto-cli.jar

2、连接MySQL

java -jar presto-cli.jar --server ip:9000 --catalog mysql --schema sq_export

四、源代码地址

GitHub·地址

https://github.com/cicadasmile/big-data-parent

GitEE·地址

https://gitee.com/cicadasmile/big-data-parent

阅读标签

【Java基础】【设计模式】【结构与算法】【Linux系统】【数据库】

【分布式架构】【微服务】【大数据组件】【SpringBoot进阶】【Spring&Boot基础】

【数据分析】【技术导图】【职场】

OLAP引擎：基于Presto组件进行跨数据源分析的更多相关文章

ActiveReports 报表控件V12新特性 -- 无需ETL处理，即可实现跨数据源分析数据
ActiveReports是一款专注于 .NET 平台的报表控件,全面满足 HTML5 / WinForms / ASP.NET / ASP.NET MVC / WPF 等平台下报表设计和开发工作需求 ...
OLAP引擎：基于Druid组件进行数据统计分析
一.Druid概述 1.Druid简介 Druid是一款基于分布式架构的OLAP引擎,支持数据写入.低延时.高性能的数据分析,具有优秀的数据聚合能力与实时查询能力.在大数据分析.实时计算.监控等领域都 ...
OLAP了解与OLAP引擎——Mondrian入门
一. OLAP的基本概念 OLAP(On-Line Analysis Processing)在线分析处理是一种共享多维信息的快速分析技术:OLAP利用多维数据库技术使用户从不同角度观察数据:OLAP ...
分布式大数据多维数据分析(olap)引擎kylin[转]
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区.它能在亚秒内查询巨大的Hiv ...
[转帖]OLAP引擎这么多，为什么苏宁选择用Druid？
OLAP引擎这么多,为什么苏宁选择用Druid? 原创 51CTO 2018-12-21 11:24:12 [51CTO.com原创稿件]随着公司业务增长迅速,数据量越来越大,数据的种类也越来越丰富, ...
python 全栈开发，Day100(restful 接口,DRF组件,DRF跨域(cors组件))
昨日内容回顾 1. 为什么要做前后端分离? - 前后端交给不同的人来编写,职责划分明确.方便快速开发 - 针对pc,手机,ipad,微信,支付宝... 使用同一个接口 2. 简述http协议? - 基 ...
转:高层游戏引擎——基于OGRE所实现的高层游戏引擎框架
高层游戏引擎——基于OGRE所实现的高层游戏引擎框架这是意念自己的毕业论文,在一个具体的实践之中,意念主要负责的是物件和GUI之外的其他游戏系统.意念才学疏陋,望众位前辈不吝赐教.由于代码质量不高. ...
基于Tesseract组件的OCR识别
基于Tesseract组件的OCR识别背景以及介绍欲研究C#端如何进行图像的基本OCR识别,找到一款开源的OCR识别组件.该组件当前已经已经升级到了4.0版本.和传统的版本(3.x)比,4.0时代 ...
基于HiKariCP组件，分析连接池原理
HiKariCP作为SpringBoot2框架的默认连接池,号称是跑的最快的连接池,数据库连接池与之前两篇提到的线程池和对象池,从设计的原理上都是基于池化思想,只是在实现方式上有各自的特点:

随机推荐

[转]ROS Q&A | How to read LaserScan data
http://www.theconstructsim.com/read-laserscan-data/ Step 1. Open a project on ROS Development Studio ...
spring-ioc注解-理解2 零配置文件
没有xml配置文件下的对象注入,使用到一个Teacher类,Config配置类,Test测试类. 1.Teacher类 import lombok.Data; import org.springfra ...
synchronized语法
synchronized( ){ } synchronized 关键字是加锁的意思,用它来修饰方法就表示给该方法加了锁,从而达到线程同步的效果;用它来修饰代码块就表示给该代码块加了锁,从而达到线程同步 ...
Guava - LoadingCache实现Java本地缓存
前言 Guava是Google开源出来的一套工具库.其中提供的cache模块非常方便,是一种与ConcurrentMap相似的缓存Map. 官方地址:https://github.com/google ...
go 语言如何发送微信信息到自己手机
使用 wxmgo 包可以把微信信息发送到自己的手机上.第一步: go get github.com/rehylas/wxmgo 第二步: import ( "fmt" wxm & ...
【开源】.net微服务开发引擎Anno 让复杂的事简单点- 日志、链路追踪一目了然 (上)
1.Anno简介? Anno是一个微服务框架引擎.入门简单.安全.稳定.高可用.全平台可视化监控.依赖第三方框架少.详情请查看<[开源].net微服务开发引擎Anno开源啦> 本章主题:. ...
go mod管理 init 和包导入的关系
你创建了一个文件的名字为:lisi001 如果你初始化项目名字为lisi, go mod init lisi 那么你导包的时候就得也用lisi import ( "lisi/path&quo ...
git的工作管理和基础操作
git的工作管理和基础操作在本地创建git仓库管理我们的代码初次使用git,先在本地配置一些基础信息 $ git config -l $ git config --global user.name ...
C语言之结构体内存的对齐
C语言之结构体内存的对齐大纲: 零.引例一.结构体内存对齐规则二.怎样计算结构体的大小三.设计结构体时要注意的方面四.为什么存在内存对齐五.修改默认对齐数在前面的章节中,我们谈到了C ...
mongoDB服务器连接不上Error: couldn't connect to server 127.0.0.1:27017, connection attempt failed: SocketException:
一大早打开node项目就报错,终端报 UnhandledPromiseRejectionWarning: MongooseServerSelectionError: connect ECONNREFU ...

OLAP引擎：基于Presto组件进行跨数据源分析