1.起因

公司hadoop集群里的datanonde和tasktracker节点负载主要集中于晚上到凌晨,平日工作时间负载不是很高。但在工作时间内,公司业务人员有实时查询需求,现在主要

借助于hive提供业务人员日常查询。总所周知,hive是一个基于MR的类SQL查询工具,它会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛,

让一般的业务人员也可以直接对大数据进行查询。但一个弊病也是很明显,它的查询速度由于基于MR,会是非常的让人着急。

在Spark,Storm横行的时代,spark由于耗用内存高而很难满足这种改良的需求,Storm由于和hive不是一个套路,本身实时流处理的思路也和我们的需求差距较大,所以,

寻求一个能提供类似SQL查询接口,并且速度比较接近于实时,能利用现有集群硬件的实时SQL查询引擎成为一个现有hive的替代查询引擎。如果有这个引擎,可以利用

datanode,tasktracker上空闲的内存构成一个分布式的“数据加载内存池”,将数据加载到内存后,再进行计算,这样无疑会提高大数据查询的速度。

幸好,创造了hive的facebook,不负众望,创造了这么一款神器---presto。下面我们来看presto能给我们带来什么。

插图:日常各个dn和tt的节点的内存使用情况,白天有比较多的空闲时段

2.presto的介绍

英文出处:Martin Traverso(Facebook)

Presto是一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。

Presto的运行模型和Hive或MapReduce有着本质的区别。Hive将查询翻译成多阶段的MapReduce任务, 一个接着一个地运行。 每一个任务从磁盘上读取输入数据并且将中间结果输出到磁盘上。 然而Presto引擎没有使用MapReduce。它使用了一个定制的查询和执行引擎和响应的操作符来支持SQL的语法。除了改进的调度算法之外, 所有的数据处理都是在内存中进行的。 不同的处理端通过网络组成处理的流水线。 这样会避免不必要的磁盘读写和额外的延迟。 这种流水线式的执行模型会在同一时间运行多个数据处理段, 一旦数据可用的时候就会将数据从一个处理段传入到下一个处理段。 这样的方式会大大的减少各种查询的端到端响应时间。

3.presto部署

首先安装jdk 1.8,下载jdk 1.8后,解压

  1. tar zxf jdk1.8.0_45.tar.gz

设置1.8为默认的jdk

  1. rm /usr/java/latest
  2. ln -s /usr/java/jdk1.8.0_45 /usr/java/latest

在/etc/profile里设置

export JAVA_HOME=/usr/java/default

然后运行:

  1. source /etc/profile

生效设置。

下载presto。

  1. wget https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.100/presto-server-0.100.tar.gz

解压presto

  1. tar zxf presto-server-0.100.tar.gz

由于presto有个调度节点和工作节点的区别,所以,我们先配置调度节点。可以在部署后,就用单节点模式,即调度和工作节点为同一台服务器来进行测试。

首先配置etc/catalog/hive.properties

  1. connector.name=hive-hadoop2
  2. hive.metastore.uri=thrift://192.168.1.xxx:10001
  3. hive.config.resources=/etc/hadoop/conf/core-site.xml,/etc/hadoop/conf/hdfs-site.xml

说明:

connector.name是当前集群是hadoop版本,有hadoop1,hadoop2,cdh4,cdh5等可选,详细可以参考plugin目录里支持类型。

hive.metasore.uri是对应hive数据源提供的thrift接口,不然presto怎么有元数据呢?

  1. hive.config.resources是对应hadoop配置。

然后配置:etc/node.properties

  1. node.environment=production
  2. node.id=ffffffff-ffff-ffff-ffff-ffffffffffffnode-103-15
  3. node.data-dir=/opt/presto/data

重要的,每个节点都有自己唯一id,不然不好协同工作了。

所以,node.id一定是一个唯一的id

node.data-dir是本机的一个presto数据文件目录。

最后配置:etc/config.properties

coordinator=true

  1. node-scheduler.include-coordinator=true
  2. http-server.http.port=1089
  3. task.max-memory=1GB
  4. discovery-server.enabled=true
  5. discovery.uri=http://node-103-15:1089
  1. http-server.http.port指明调度节点的端口,很重要啊,presto集群的机器都得和这个端口通讯。
  1. discovery.uri=http://node-103-15:1089 也很重要,调度节点的地址,端口,好好指定,集群唯一的。

4.遇到问题解决

首先遇到问题就是jdk的兼容,由于presto只兼容1.8以上jdk,以前hadoop的1.6,1.7都不行。

所以要将presto部署好,势必和以前hadoop环境的jdk有冲突。所以,干脆将系统jdk升级到1.8.

然后stop tasktracker,stop datanode,最后又重启datanode,tasktracker.最后启动presto.

  1. ./launcher start

最后启动presto cli进行查询

  1. ./presto-cli  --server node-103-15:1089 --catalog hive --schema default

注意,presto-cli是将presto-cli-excute.jar进行重命名,并且chmod后而来的。

最后比较尴尬的是,presto对lzo支持不好,特别是分片的lzo,基本就不支持,这个没办法,presto本身就讲明了

不支持。哎,哪位有办法,可以联系下我。

5.presto和hive的性能比较

用同一个SQL做查询,3台服务器presto是:

采用hive查询是:

基本上查询速度快了10倍。

综上所述,presto是一个部署容易,又能较好利用空闲内存的近实时查询引擎。

近实时运算的利器---presto在公司实践的更多相关文章

  1. 比hive快10倍的大数据查询利器presto部署

    目前最流行的大数据查询引擎非hive莫属,它是基于MR的类SQL查询工具,会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛, 让一般的业务人员也可以直接对大数据进行查询. ...

  2. vivo浏览器的快速开发平台实践-总览篇

    一.什么是快速开发平台 快速开发平台,顾名思义就是可以使得开发更为快速的开发平台,是提高团队开发效率的生产力工具.近一两年,国内很多公司越来越注重研发效能的度量和提升,基于软件开发的特点,覆盖管理和优 ...

  3. 面试的65个回答技巧-适用于BAT公司

    互联网职业群分享的资料,里面大多是BAT公司的人,很多是猎头.这些技巧对于职场人来说,是非常宝贵的. 1.请你自我介绍一下你自己? 回答提示:一般人回答这个问题过于平常,只说姓名.年龄.爱好.工作经验 ...

  4. 【快报】基于K2 BPM的新一代协同办公门户实践交流会

    2014年2月28日,“基于BPM的新一代协同办公门户”用户实践交流活动在深圳金茂JW万豪酒店3楼Meet Room IV举办.本次会议由K2携手微软共同举办,邀请到的参会企业都是K2 的BPM老客户 ...

  5. 基于Jenkins Pipeline的ASP.NET Core持续集成实践

    最近在公司实践持续集成,使用到了Jenkins的Pipeline来提高团队基于ASP.NET Core API服务的集成与部署效率,因此这里总结一下. 一.关于持续集成与Jenkins Pipelin ...

  6. 基于Jenkins的开发测试全流程持续集成实践

    今年一直在公司实践CI,本文将近半年来的一些实践总结一下,可能不太完善或优美,但的确初步解决了我目前所在项目组的一些痛点.当然这仅是一家之言也不够完整,后续还会深入实践和引入Kubernetes进行容 ...

  7. TDD的简单实践

    前言 最近有幸跟随资深ThoughtWorks咨询师熊节老师一起学习测试驱动设计,经过短暂的十几天培训,对测试驱动设计的基本原则.实践模式.技巧有了一点点初步的认识. 在此之前,经常自嘲我经历的公司实 ...

  8. hbase实践之协处理器Coprocessor

    HBase客户端查询存在的问题 Scan 用Get/Scan查询数据, Filter 用Filter查询特定数据 以上情况只适合几千行数据以及不是很多的列的"小数据". 当表扩展为 ...

  9. Python分析6000家破产IT公司

    前一阵有个字节跳动的程序员火了,年仅28岁实现了财务自由,宣布提前退休.最直接的原因是选择了一家发展前景很好的创业公司.当然平时我们经常能听到,某某人加入创业公司,xx年后公司上市,身价暴涨,财务自由 ...

随机推荐

  1. 算法手记 之 数据结构(线段树详解)(POJ 3468)

    依然延续第一篇读书笔记,这一篇是基于<ACM/ICPC 算法训练教程>上关于线段树的讲解的总结和修改(这本书在线段树这里Error非常多),但是总体来说这本书关于具体算法的讲解和案例都是不 ...

  2. Android 中沉浸式状态栏实现

    Android 中沉浸式状态栏实现方式如下 计算状态栏高度及调用沉浸式状态栏的相关API方法 package com.example.status; import android.annotation ...

  3. 【hihoCoder】第20周 线段树

    题目: 输入 每个测试点(输入文件)有且仅有一组测试数据. 每组测试数据的第1行为一个整数N,意义如前文所述. 每组测试数据的第2行为N个整数,分别描述每种商品的重量,其中第i个整数表示标号为i的商品 ...

  4. HDU 4793 Collision (解二元一次方程) -2013 ICPC长沙赛区现场赛

    题目链接 题目大意 :有一个圆硬币半径为r,初始位置为x,y,速度矢量为vx,vy,有一个圆形区域(圆心在原点)半径为R,还有一个圆盘(圆心在原点)半径为Rm (Rm < R),圆盘固定不动,硬 ...

  5. HTML认识

    1.1 认识什么是纯文本文件 txt window自带有一个软件,叫做记事本,记事本保存的格式TXT,就是英文text的缩写,术语上称呼为"纯文本文件" TXT文件,只能保存文本内 ...

  6. log4j介绍以及使用教程

    一.介绍 Log4j是Apache的一个开放源代码项目,通过使用Log4j,我们可以控制日志信息输送的目的地是控制台.文件.GUI组件.甚至是套接 口服务 器.NT的事件记录器.UNIX Syslog ...

  7. qt_计算器的简单实现

    //阶乘不知道怎么实现不了/(ㄒoㄒ)/~~,以后慢慢调试吧......... //转换为后缀表达式,实现最主要功能 void MainWindow::toPostfix () { QString e ...

  8. 查询Oracle中字段名带"."的数据

    SDE中的TT_L线层会有SHAPE.LEN这样的字段,使用: SQL>select shape.len from tt_l; 或 SQL>select t.shape.len from ...

  9. iOS自动更新如何实现

    APP检测更新可以使用两种方法.第一种是和安卓等系统一样,获取自己服务器的APP版本号与已安装的APP版本号比较:第二种是根据已发布到app store上的应用版本号与已安装的APP版本号比较更新.第 ...

  10. NYOJ题目10505C?5S?

    aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAscAAAJ/CAIAAAAbDelhAAAgAElEQVR4nO3dPXLbOhfG8XcT7r0Q11