前言

在实时计算中,通常是从队列中收集原始数据,这种原始数据在内存中通常是一个java bean,把数据收集过来以后,通常会把数据落地到数据库,供后面的ETL使用。举个一个简单的例子,对一个游戏来说,为了统计某个游戏,某个服务器的登陆注册

等事件,原始数据对应的java bean可能会是这样:

public class Event {
private String userName;
private String game;
private String server;
private String event;
}

Event

当数据量过大的时候,通常没有办法实时的去做一个些统计操作,例如统计按照游戏和服务器分组统计出登陆的人次是多少,对应的SQL大致如下:

select count(user_name) from event group by name,sever where event = 'login'

当有一个sql执行引擎,可以在内存中对于一批收集过来的数据执行sql计算的时候,无疑能够实时的计算出结果,另外由于sql是实时输入的,程序也可以比较灵活。

例如,收集过来的一批数据,可以换成成一个List<Map<String,Object>>形式的数据结构,通过sql执行引擎,执行某个特定的sql,得到结果(也是一个List<Map<String,Object>>形式的数据结构),demo如下

----------------
[username:user1,game:lol,server:s1,event:login]
[username:user2,game:dota2,server:s2,event:register]
[username:user3,game:lol,server:s2,event:login]
[username:user4,game:dota2,server:s3,event:register]
[username:user5,game:lol,server:s10,event:login]
[username:user6,game:dota2,server:s1,event:login]
[username:user7,game:lol,server:s1,event:login]
[username:user8,game:lol,server:s1,event:login]
[username:user9,game:lol,server:s1,event:login]
----------------
select count(*) as loginNum, game,server from event group by game,server where event='login'
----------------
[loginNum:1,game:lol,server:s2]
[loginNum:4,game:lol,server:s1]
[loginNum:1,game:lol,server:s10]
[loginNum:1,game:dota2,server:s1]
----------------

解析

此sql执行引擎只支持的sql语法中的一个很小的子集,所以我更加偏向称其为sql-like DSL(Domain Specific Language-特定领域语言),关于DSL的论述很多,我推荐两本书,一本是Martin大叔的Domain Specific Language,另外一个本是DSL in

action。之所以选择scala来实现,是因为scala语言中内置了对DSL的支持,可以很方便的实现一个自己的Parser,通过此Parser,可以解析你的DSL脚本(此处就是sql语句),得到你想要的中间结果,通常我们将中间结果称为AST(Abstract syntax tree),类似于

select {...} from {...} group by {...}  where {...}order by{...} limit {...}形式的sql语句,我将它转化成如下类型的AST。

解析器的入口为

def select: Parser[SelectStmt] = "select" ~> projectionStatements ~ fromStatements ~ opt(groupStatements) ~ opt(whereExpr) ~ opt(orderByExpr) ~ opt(limit) ~ opt(";") ^^ {
case p ~ f ~ g ~ w ~ o ~ l ~ end => SelectStmt(p, f, w, g, o, l)
}

其中,fromStatements,groupStatements,whereExpr等有是一个单独的解析器,通过scala中已经提供的parser combinators(解析器组合子),例如(~>,~,opt()...)等,将单独的解析器组合起来,可以得到更复杂的解析器,类似于lego积木,你编写一个解析

器,parserA, 只能解析某段特殊的文本,这个段文本的模式我们用patternA来表示。通过组合子 rep1sep(“,”,parserA),你就得到了一个新的解析器,这个解析器能解析的partern = patternA[,patternA][,patternA][,patternA]...

例如sql语句中的group by子句,不考虑having语法的话,大致格式是这样的 group by [tableName.]coulumn1,[tableName.]coulumn1,[tableName.]coulumn1 可见[tableName.]coulumn1这种格式的文本,可以是基本的pattern,于是可以写出一个解析器来解析这种格式的文本:

def selectIdent: Parser[SqlProj] = {
ident ~ opt("." ~> ident) ^^ {
case table ~ Some(b: String) => FieldIdent(Option(table), b)
case column ~ None => FieldIdent(None, column)
}
}

这个函数中ident值得的标示符,opt()表示的是可以有也可以没有,那么这个解析器解析的文本就可以有如下形式:标示符.标示符|标示符,那么通过rep1sep的组合子就能得到解析group by字句的解析器:

def groupStatements: Parser[SqlGroupBy] = "group" ~> "by" ~> rep1sep(selectIdent, ",") ^^ {
case keys => SqlGroupBy(keys)
}

其他部分的sql字句的解析大抵如此,整个项目的代码,在github上。下一篇讲拿到AST之后,怎么执行,得到想要的结果。

用scala实现一个sql执行引擎-(上)的更多相关文章

  1. 用scala实现一个sql执行引擎-(下)

    执行 上一篇讲述了如何通过scala提供的内置DSL支持,实现一个可以解析sql的解析器,这篇讲如何拿到了解析结果-AST以后,如何在数据上进行操作,得到我们想要的结果.之前说到,为什么选择scala ...

  2. 自己实现一个SQL解析引擎

    自己实现一个SQL解析引擎 功能:将用户输入的SQL语句序列转换为一个可运行的操作序列,并返回查询的结果集. SQL的解析引擎包含查询编译与查询优化和查询的执行,主要包含3个步骤: 查询分析: 制定逻 ...

  3. 自己动手写SQL执行引擎

    自己动手写SQL执行引擎 前言 在阅读了大量关于数据库的资料后,笔者情不自禁产生了一个造数据库轮子的想法.来验证一下自己对于数据库底层原理的掌握是否牢靠.在笔者的github中给这个database起 ...

  4. spark sql 执行计划生成案例

    前言 一个SQL从词法解析.语法解析.逻辑执行计划.物理执行计划最终转换为可以执行的RDD,中间经历了很多的步骤和流程.其中词法分析和语法分析均有ANTLR4完成,可以进一步学习ANTLR4的相关知识 ...

  5. 给隔壁的妹子讲『一个SQL语句是如何执行的?』

    前言 SQL作为Web开发是永远离开不的一个话题,天天写SQL,可是你知道一个SQL是如何执行的吗? select name from user where id = 1; 上面是一个简单的查询语句, ...

  6. Oracle数据库该如何着手优化一个SQL

    这是个终极问题,因为优化本身的复杂性实在是难以总结的,很多时候优化的方法并不是用到了什么高深莫测的技术,而只是一个思想意识层面的差异,而这些都很可能连带导致性能表现上的巨大差异. 所以有时候我们应该先 ...

  7. SQL执行过程中的性能负载点

    一.SQL执行过程 1.用户连接数据库,执行SQL语句: 2.先在内存进行内存读,找到了所需数据就直接交给用户工作空间: 3.内存读失败,也就说在内存中没找到支持SQL所需数据,就进行物理读,也就是到 ...

  8. Farseer.net轻量级开源框架 中级篇:SQL执行报告

    导航 目   录:Farseer.net轻量级开源框架 目录 上一篇:Farseer.net轻量级开源框架 中级篇: 数据库切换 下一篇:Farseer.net轻量级开源框架 中级篇: 探究ORM(M ...

  9. scrapy 源码解析 (三):启动流程源码分析(三) ExecutionEngine执行引擎

    ExecutionEngine执行引擎 上一篇分析了CrawlerProcess和Crawler对象的建立过程,在最终调用CrawlerProcess.start()之前,会首先建立Execution ...

随机推荐

  1. 安卓:assets目录下的文本文件(不受R文件节制)

    try { InputStream in = getAssets().open("testAsset.txt"); byte[] buffer = new byte[1024]; ...

  2. python发邮件

    # -*- coding:utf- -*- import smtplib,os,sys,string import mimetypes from email import Encoders from ...

  3. 【Python】 sorted函数

    我们需要对List.Dict进行排序,Python提供了两个方法对给定的List L进行排序,方法1.用List的成员函数sort进行排序,在本地进行排序,不返回副本方法2.用built-in函数so ...

  4. magnum 命令使用说明

    magnum 命令使用说明 1.用法 usage: magnum [--version] [--debug] [--os-cache] [--os-region-name <region-nam ...

  5. Egret中的对象池ObjectPool

    为了可以让对象复用,防止大量重复创建对象,导致资源浪费,使用对象池来管理. 对象池具体含义作用,自行百度. 一 对象池A 二 对象池B 三 字符串key和对象key的效率 一 对象池A /** * 对 ...

  6. 借助 MySQLTuner 优化 MySQL 性能(转载的一篇文章)

    MySQLTuner 是一个 Perl 脚本,可以用来分析您的 MySQL 性能,并且基于收集到的信息给出相应的优化建议.这样子,您就可以调整 my.cnf 从而优化您的 MySQL 设置. 这边只是 ...

  7. WPF的图片操作效果(一):RenderTransform

    一.RenderTransform类的成员: 1.TranslateTransform 平移效果 2.RotateTransform 旋转效果 3.ScaleTransform       缩放效果 ...

  8. Unity协程(Coroutine)管理类——TaskManager工具分享

    博客分类: Unity3D插件学习,工具分享 源码分析   Unity协程(Coroutine)管理类——TaskManager工具分享 By D.S.Qiu 尊重他人的劳动,支持原创,转载请注明出处 ...

  9. IIS中使用LocalDB遇到错误:error 50,Local Database Runtime error occurred.的解决办法

    参见: [1] http://www.cnblogs.com/yjmyzz/archive/2009/10/26/1590033.html [2] http://blogs.msdn.com/b/sq ...

  10. 邮件江湖群狼环伺 U-Mail邮件系统防狼有术

    小时候听过一首儿歌<小兔子乖乖>,里面说到有条恶狼,常常冒充小兔子的“妈妈”,要求小兔 子开门,但小兔子谨守妈妈的训诫,就是不开门,直到辨别出妈妈在窗外的声音,才打开房门.如果我们将一些似 ...