Apache Flink 1.12.0 正式发布 Apache Flink 社区很荣幸地宣布 Flink 1.12.0 版本正式发布!近 300 位贡献者参与了 Flink 1.12.0 的开发,提交了超过 1000 多个修复或优化.这些修改极大地提高了 Flink 的可用性,并且简化(且统一)了 Flink 的整个 API 栈.其中一些比较重要的修改包括: 在 DataStream API 上添加了高效的批执行模式的支持.这是批处理和流处理实现真正统一的运行时的一个重要里程碑. 实现了基于Ku…
官宣 | Apache Flink 1.12.0 正式发布,流批一体真正统一运行! 原创 Apache 博客 [Flink 中文社区](javascript:void(0) 翻译 | 付典 Review | 徐榜江.朱翥 Apache Flink 社区很荣幸地宣布 Flink 1.12.0 版本正式发布!近 300 位贡献者参与了 Flink 1.12.0 的开发,提交了超过 1000 多个修复或优化.这些修改极大地提高了 Flink 的可用性,并且简化(且统一)了 Flink 的整个 API…
8月22日,Apache Flink 1.9.0 正式发布,早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎Blink进行开源并向 Apache Flink 贡献代码.当前 Flink 1.9.0是阿里内部版本 Blink 合并入 Flink 后的首次发版,修改代码150万行,此次发版不仅在结构上有重大变更,在功能特性上也更加强大与完善.本文将为大家介绍 Flink 1.9.0 有哪些重大变更与新增功能特性. 在此先简单回顾一下阿里巴巴 Blink 开源的部分要点: Blink 开源的…
摘要:Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能.目前,Apache Flink 1.9.0版本已经正式发布,该版本有什么样的里程碑意义,又具有哪些重点改动和新功能呢?本文中,阿里巴巴高级技术专家伍翀就为大家带来了对于Apache Flink 1.9.0版本的介绍. 演讲嘉宾介绍: 本次分享主要分为以下三个方面: Flink 1.9.0的里程碑意义 Flink 1.9.0的重点改动和新…
Apache Flink Apache Flink 是一个兼顾高吞吐.低延迟.高性能的分布式处理框架.在实时计算崛起的今天,Flink正在飞速发展.由于性能的优势和兼顾批处理,流处理的特性,Flink可能正在颠覆整个大数据的生态. DataSet API 首先要想运行Flink,我们需要下载并解压Flink的二进制包,下载地址如下:https://flink.apache.org/downloads.html 我们可以选择Flink与Scala结合版本,这里我们选择最新的1.9版本Apache…
Apache Flink: Apache Flink 1.5.0 Release Announcement https://flink.apache.org/news/2018/05/25/release-1.5.0.html Apache Flink 1.5.0 Release Announcement 25 May 2018 Fabian Hueske (@fhueske) The Apache Flink community is thrilled to announce the 1.5.…
本章内容: 待整理 参考文献: Apache Spark 2.2.0正式发布 Spark Release 2.2.0…
1. 前言 当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储. 2. 模型特征架构的演进 2.1 第一代架构 广告业务发展初期,为了提升策略迭代效率,整理出一套通用的特征生产框架,该框架由三部分组成:特征统计.特征推送和特征获取模型训练.如下图所示: 客户端以及服务端数据先通过统一服务Sink到HDFS上 基于基HDFS数据,统…
摘要:Apache Flink是为分布式.高性能的流处理应用程序打造的开源流处理框架. 本文分享自华为云社区<[云驻共创]手把手教你玩转Flink流批一体分布式实时处理引擎>,作者: 萌兔之约. Apache Flink是为分布式.高性能的流处理应用程序打造的开源流处理框架.Flink不仅能提供同时支持高吞吐和exactly-once语义的实时计算,还能提供批量数据处理.相较于市面上的其他数据处理引擎,它采用的是基于流计算来模拟批处理. 一.Flink原理及架构 Flink简介 Apache…
1. 背景 OnZoom是Zoom新产品,是基于Zoom Meeting的一个独一无二的在线活动平台和市场.作为Zoom统一通信平台的延伸,OnZoom是一个综合性解决方案,为付费的Zoom用户提供创建.主持和盈利的活动,如健身课.音乐会.站立表演或即兴表演,以及Zoom会议平台上的音乐课程. 在OnZoom data platform中,source数据主要分为MySQL DB数据和Log数据. 其中Kafka数据通过Spark Streaming job实时消费,MySQL数据通过Spark…