flink-SQL

Table API和SQL捆绑在flink-table Maven工件中。必须将以下依赖项添加到你的项目才能使用Table API和SQL：

<dependency>

  <groupId>org.apache.flink</groupId>

  <artifactId>flink-table_2.11</artifactId>

  <version>1.5.0</version>

</dependency>

另外，你需要为Flink的Scala批处理或流式API添加依赖项。对于批量查询，您需要添加：

<dependency>

  <groupId>org.apache.flink</groupId>

  <artifactId>flink-scala_2.11</artifactId>

  <version>1.5.0</version>

</dependency>

Table API和SQL程序的结构

Flink的批处理和流处理的Table API和SQL程序遵循相同的模式；

所以我们只需要使用一种来演示即可

要想执行flink的SQL语句，首先需要获取SQL的执行环境：

两种方式（batch和streaming）：

// ***************

// STREAMING QUERY

// ***************

val sEnv = StreamExecutionEnvironment.getExecutionEnvironment

// create a TableEnvironment for streaming queries

val sTableEnv = TableEnvironment.getTableEnvironment(sEnv)

// ***********

// BATCH QUERY

// ***********

val bEnv = ExecutionEnvironment.getExecutionEnvironment

// create a TableEnvironment for batch queries

val bTableEnv = TableEnvironment.getTableEnvironment(bEnv)

通过getTableEnvironment可以获取TableEnviromment；这个TableEnviromment是Table API和SQL集成的核心概念。它负责：

- 在内部目录中注册一个表

- 注册外部目录

- 执行SQL查询

- 注册用户定义的（标量，表格或聚合）函数

- 转换DataStream或DataSet成Table

- 持有一个ExecutionEnvironment或一个参考StreamExecutionEnvironment

在内部目录中注册一个表

TableEnvironment维护一个按名称注册的表的目录。有两种类型的表格，输入表格和输出表格。

输入表可以在Table API和SQL查询中引用并提供输入数据。输出表可用于将表API或SQL查询的结果发送到外部系统

输入表可以从各种来源注册：

- 现有`Table`对象，通常是表API或SQL查询的结果。

- `TableSource`，它访问外部数据，例如文件，数据库或消息传递系统。

- `DataStream`或`DataSet`来自DataStream或DataSet程序。

输出表可以使用注册TableSink。

注册一个表

// get a TableEnvironment

val tableEnv = TableEnvironment.getTableEnvironment(env)

// register the Table projTable as table "projectedX"

tableEnv.registerTable("projectedTable", projTable)

// Table is the result of a simple projection query

val projTable: Table = tableEnv.scan("projectedTable ").select(...)

注册一个tableSource

TableSource提供对存储在诸如数据库（MySQL，HBase等），具有特定编码（CSV，Apache [Parquet，Avro，ORC]，...）的文件的存储系统中的外部数据的访问或者消息传送系统（Apache Kafka，RabbitMQ，...）

// get a TableEnvironment

val tableEnv = TableEnvironment.getTableEnvironment(env)

// create a TableSource

 val csvSource: TableSource = new CsvTableSource("/path/to/file", ...)

 // register the TableSource as table "CsvTable" tableEnv.registerTableSource("CsvTable", csvSource)

注册一个tableSink

// get a TableEnvironment

val tableEnv = TableEnvironment.getTableEnvironment(env)

// create a TableSink

val csvSink: TableSink = new CsvTableSink("/path/to/file", ...)

// define the field names and types

val fieldNames: Array[String] = Array("a", "b", "c")

val fieldTypes: Array[TypeInformation[_]] = Array(Types.INT, Types.STRING, Types.LONG)

// register the TableSink as table "CsvSinkTable"

tableEnv.registerTableSink("CsvSinkTable", fieldNames, fieldTypes, csvSink)

例子：

 //创建batch执行环境

    val env = ExecutionEnvironment.getExecutionEnvironment

    //创建table环境用于batch查询

    val tableEnvironment = TableEnvironment.getTableEnvironment(env)

    //加载外部数据

    val csvTableSource = CsvTableSource.builder()

      .path("data1.csv")//文件路径

      .field("id" , Types.INT)//第一列数据

      .field("name" , Types.STRING)//第二列数据

      .field("age" , Types.INT)//第三列数据

      .fieldDelimiter(",")//列分隔符，默认是"，"

      .lineDelimiter("\n")//换行符

      .ignoreFirstLine()//忽略第一行

      .ignoreParseErrors()//忽略解析错误

      .build()

    //将外部数据构建成表

    tableEnvironment.registerTableSource("tableA" , csvTableSource)

    //TODO 1：使用table方式查询数据

    val table = tableEnvironment.scan("tableA").select("id , name , age").filter("name == 'lisi'")

    //将数据写出去

    table.writeToSink(new CsvTableSink("bbb" , "," , 1 , FileSystem.WriteMode.OVERWRITE))

    //TODO 2：使用sql方式

    //    val sqlResult = tableEnvironment.sqlQuery("select id,name,age from tableA where id > 0 order by id limit 2")

////    //将数据写出去

//    sqlResult.writeToSink(new CsvTableSink("aaaaaa.csv", ",", 1, FileSystem.WriteMode.OVERWRITE))

    env.execute()

flink-SQL的更多相关文章

KSQL和Flink SQL的比较
Confluent公司于2017年11月宣布KSQL进化到1.0版本,标志着KSQL已经可以被正式用于生产环境.自那时起,整个Kafka发展的重心都偏向于KSQL——这一点可以从Confluent官方 ...
Flink SQL与 SQL Parser ，calcite
http://vinoyang.com/2017/06/12/flink-table-sql-source/ Flink Table&Sql 如何结合Apache Calcite http:/ ...
使用flink Table &Sql api来构建批量和流式应用(3)Flink Sql 使用
从flink的官方文档,我们知道flink的编程模型分为四层,sql层是最高层的api,Table api是中间层,DataStream/DataSet Api 是核心,stateful Stream ...
Apache Flink SQL
本篇核心目标是让大家概要了解一个完整的 Apache Flink SQL Job 的组成部分,以及 Apache Flink SQL 所提供的核心算子的语义,最后会应用 TumbleWindow 编写 ...
OPPO数据中台之基石：基于Flink SQL构建实数据仓库
小结: 1. OPPO数据中台之基石:基于Flink SQL构建实数据仓库 https://mp.weixin.qq.com/s/JsoMgIW6bKEFDGvq_KI6hg 作者 | 张俊编辑 | ...
Flink SQL项目实录
一.Flink SQL层级为Flink最高层的API,易于使用,所以应用更加广泛,eg. ETL.统计分析.实时报表.实时风控等. Flink SQL所处的层级: 二.Flink聚合: 1.Wind ...
Flink SQL 如何实现数据流的 Join？
无论在 OLAP 还是 OLTP 领域,Join 都是业务常会涉及到且优化规则比较复杂的 SQL 语句.对于离线计算而言,经过数据库领域多年的积累,Join 语义以及实现已经十分成熟,然而对于近年来刚 ...
Flink SQL 系列 | 5 个 TableEnvironment 我该用哪个？
本文为 Flink SQL 系列文章的第二篇,前面对 Flink 1.9 Table 新架构及 Planner 的使用进行了详细说明,本文详细讲解 5 个 TableEnvironment 及其适用场 ...
从零构建Flink SQL计算平台 - 1平台搭建
一.理想与现实 Apache Flink 是一个分布式流批一体化的开源平台.Flink 的核心是一个提供数据分发.通信以及自动容错的流计算引擎.Flink 在流计算之上构建批处理,并且原生的支持迭代计 ...
Demo：基于 Flink SQL 构建流式应用
Flink 1.10.0 于近期刚发布,释放了许多令人激动的新特性.尤其是 Flink SQL 模块,发展速度非常快,因此本文特意从实践的角度出发,带领大家一起探索使用 Flink SQL 如何快速构 ...

随机推荐

web缓存服务器varnish-4.1.6的部署及配置详解
web缓存服务器varnish-4.1.6的部署及配置详解 1.安装varnish4.1.6安装依赖 yum install -y autoconf automake jemalloc-devel l ...
快速解决PHP调用Word组件DCOM权限的问题
1. 首先必须要在电脑上安装 Office 2. windows+r : 输入 dcomcnfg.exe 打开组件服务,然后双击组件服务 ==> 双击计算机 ==> 双击我的电脑 = ...
前端 --- 关于DOM的介绍
111 什么是DOM DOM:文档对象模型.DOM 为文档提供了结构化表示,并定义了如何通过脚本来访问文档结构.目的其实就是为了能让js操作html元素而制定的一个规范. DOM就是由节点组成的. 解 ...
IntelliJ IDEA插件 - ApiDebugger
IntelliJ IDEA插件 - ApiDebuggerApiDebugger,是一个开源的接口调试IntelliJ IDEA插件,具有与IDEA一致的界面,无需切换程序即可完成网络API请求,让你 ...
Python中加入中文注释
最近开发学习Pyton,当加入中文注释时,运行程序报错: File SyntaxError: Non-ASCII character , but no encoding declared; see h ...
Centos查看端口占用和开启端口命令
Centos查看端口占用情况命令,比如查看80端口占用情况使用如下命令: lsof -i tcp:80 列出所有端口 netstat -ntlp 1.开启端口(以80端口为例) 方法一: /sbin/ ...
BIgnum类的程序提交
日期:2018.7.19 星期四博客期:002 这之前赶着做一个单机游戏的修改器忘了时间,不好意思啊!今天我就把Bignum类的源代码发出来,文件的话,我不知道怎样发,待我好好研究研究这个网站哈!因 ...
Django框架第一篇基础
一个小问题: 什么是根目录:就是没有路径,只有域名..url(r'^$') 补充一张关于wsgiref模块的图片一.MTV模型 Django的MTV分别代表: Model(模型):和数据库相关的,负 ...
django----Form提交按钮
form表单中要用submit,如果用button切记要加上type,不然button默认的type是submit,会有影响 <button class="login" ty ...
bzoj 4011
看了好多篇题解才看懂的题,我实在太菜了... 首先根据一个我不知道的算法,可以证明在没有加入新的边的时候,原图的所有生成树的方案数就是所有点(除1以外)的度之积那么在新加入这条边之后,我们仍然可以这 ...

flink-SQL

Table API和SQL程序的结构

在内部目录中注册一个表

flink-SQL的更多相关文章

随机推荐

热门专题