背景 大数据发展至今,按照 Google 2003年发布的<The Google File System>第一篇论文算起,已走过17个年头.可惜的是 Google 当时并没有开源其技术,"仅仅"是发表了三篇技术论文.所以回头看,只能算是揭开了大数据时代的帷幕.随着 Hadoop 的诞生,大数据进入了高速发展的时代,大数据的红利及商业价值也不断被释放.现今大数据存储和处理需求越来越多样化,在后 Hadoop 时代,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,…
1. 引入 开源Apache Hudi项目为Uber等大型组织提供流处理能力,每天可处理数据湖上的数十亿条记录. 随着世界各地的组织采用该技术,Apache开源数据湖项目已经日渐成熟. Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一个数据湖项目,可在与Apache Hadoop兼容的云存储系统(包括Amazon S3.Aliyun OSS)上进行流数据处理. 该项目最初于2016年在Uber开发,于2017年成为开源,并于2019年1…
本文翻译自官网:Configuration https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/config.html Flink Table Api & SQL 翻译目录 默认情况下,Table&SQL API已预先配置为产生具有可接受性能的准确结果. 根据表程序的要求,可能需要调整某些参数以进行优化.例如,无界流程序可能需要确保所需的状态大小是有上限的(请参阅流概念). 总览 执行选项 优化器选项…
本文翻译自官网:SQL Client Beta  https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/sqlClient.html Flink Table Api & SQL 翻译目录 Flink的Table&SQL API使使用SQL语言编写的查询成为可能,但是这些查询需要嵌入用Java或Scala编写的表程序中. 此外,在将这些程序提交给集群之前,需要将它们与构建工具打包在一起. 这或多或少地将Fl…
本文翻译自官网:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/common.html Flink Table Api & SQL 翻译目录 Table API和SQL集成在共同API中.该API的中心概念是Table,用作查询的输入和输出.本文档介绍了使用Table API和SQL查询的程序的通用结构,如何注册 Table,如何查询Table以及如何发出 Table(数据). 两个 planner 之间…
本文翻译自官网:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/types.html Flink Table Api & SQL 翻译目录 由于历史原因,在 Flink 1.9之前,Flink 的  Table和SQL API 数据类型与 Flink TypeInformation 紧密相关.TypeInformation 在 DataStream 和 DataSet API 中使用,并且足以描述在分布式…
本文翻译自官网:Connect to External Systems  https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/connect.html Flink Table Api & SQL 翻译目录 注:本文对应代码段为多种格式,影响文章篇幅,所以只选取其中一种类似列入,全部内容见官网对应页面 Flink 的 Table API 和 SQL 程序可以连接到其他外部系统,以读取和写入批处理表和流式表.表源…
近年来出现了从单体架构向微服务架构的转变.微服务架构使应用程序更容易扩展和更快地开发,支持创新并加快新功能上线时间.但是这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难.为了获得更深入和更丰富的见解,企业应该将来自不同孤岛的所有数据集中到一个地方. AWS 提供复制工具,例如 AWS Database Migration Service (AWS DMS),用于将数据更改从各种源数据库复制到各种目标,包括 Amazon Simple Storage Service (Amazon S…
Can't create table './store/#sql-b2c_1a.frm' (errno: 150)解决方法 错误原因有四: 1.外键的引用类型不一样,主键是int外键是char 2.找不到主表中 引用的列 3.主键和外键的字符编码不一致 4.还有要建立外键的话,要先建立索引.没有建立索引也会出错. 我的错误原因是将一个bigint的外键指向了一个int类型的主键,都改成bigint或者int就解决了. 转载自: http://www.cnblogs.com/xwdreamer/a…
先上代码: table = tablexx.select('*).tablexx.groupBy('x).select('x, xx.count ) tableEnvironment // declare the external system to connect to .connect( new Kafka() .version("0.10") .topic("test-input") .startFromEarliest() .property("z…