本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君.文章将从平台的架构.Flink 现状,Flink 应用以及未来计划四部分分享. 一.平台架构 1.Flink 应用时间线 首先是平台的架构,2018 年 3 月之前基本都是基于 Storm 和 Spark Streaming 来做的.目前,基本已经把 Spark Streaming 和 Storm 淘汰了,主要都是 Flink SQL 来做的.起初还比较传统,一般是接需求然后开发类似于 Flink SQL 的任务,基本是手工…
文 | 陈肃 DataPipeline  CTO 随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心. 服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数据库集群来支撑不断增长的业务需要.以应用为中心的数据持久化架构,在带来可伸缩性好处的同时,也给数据的融合计算带来了障碍. 由于数据散落在不同的数据库.消息队列.文件系统中,计算平台如果直接访问这些数据,会遇到可访问性和数据传输延迟等问题.在一些场景下,计算平台直接访问应用系统数据库会对系统吞吐造成显…
导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望. 在4月21日的Kafka Beijing Meetup第四场活动上,DataPipeline CTO陈肃分享了DataPipeline是如何基于Kafka Connect框架构建实时数据集成平台的应用实践.以下内容是基于现场录音整理的文字,供大家参考. 什么是数据集成?最简单的应用场景就是:一个数据源,一个数据目的地,数据目的地可以一个数据仓库,把关系型数据库的数据同步到数据仓库…
摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能.通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户.本文主要从新华智云数芯平台,媒体行业数据特征,批流处理数据架构,以及通用的媒体大数据平台能力等几个方面介绍了如何基于MaxCompute做媒体大数据开放平台建设. 演讲嘉宾简介:李金波,新华智云首席数据官.负责阿里巴巴大数据通用计算平台MaxCompute(原ODPS)…
作者:vivo 互联网实时计算团队- Chen Tao 本文根据"2022 vivo开发者大会"现场演讲内容整理而成. vivo 实时计算平台是 vivo 实时团队基于 Apache Flink 计算引擎自研的覆盖实时流数据接入.开发.部署.运维和运营全流程的一站式数据建设与治理平台. 一.vivo 实时计算业务现状 2022年,vivo互联网在网用户总数达到2.8亿,多款互联网应用的日活超过了千万甚至突破了1亿,为了向用户提供优质的内容和服务,我们需要对如此大规模的用户所产生的海量数…
干货分享 | 阿里PB级Kubernetes日志平台建设实践https://www.infoq.cn/article/HiIxh-8o0Lm4b3DWKvph 日志最主要的采集工具是 Agent,在 Kubernetes 场景下,通常会分为两种采集方式: DaemonSet 方式:在 K8S 的每个 node 上部署日志 agent,由 agent 采集所有容器的日志到服务端. Sidecar 方式:一个 POD 中运行一个 sidecar 的日志 agent 容器,用于采集该 POD 主容器产…
Kafka Connect是一种用于在Kafka和其他系统之间可扩展的.可靠的流式传输数据的工具,可以更快捷和简单地将大量数据集合移入和移出Kafka的连接器.Kafka Connect为DataPipeline提供了一个相对成熟稳定的基础框架,还提供了一些开箱即用的工具,大大地降低研发的投入和提升应用的质量. 下面,我们看一看Kafka Connect的具体优势. 首先,Kafka Connect提供的是以数据管道为中心的业务抽象.在Kafka Connect里有两个核心概念:Source和S…
本篇文章内容来自第10期魅族开放日魅族运维架构师林钟洪的现场分享.编辑:Cynthia 一.自动化建设历程1.1 魅族互联网发展的时间线 2003-2008年被称之为“互联网1.0时代”.2003年,源于对音乐的梦想,魅族成立.2006年,魅族成为中国音乐播放器第一品牌,主营业务是MP3,当时其互联网业务只有官网和BBS,这部分业务单个IDC就搞定了.2009-2011年被称之为“互联网2.0时代”.2008年,魅族发布M8智能手机,并将业务从音乐播放器转移到手机业务上,互联网业务除了原来的官网…
[51CTO.com原创稿件]Kubernetes是Google开源的一个容器编排引擎,它支持自动化部署.大规模可伸缩.应用容器化管理.伴随着云原生技术的迅速崛起,如今Kubernetes 事实上已经成为应用容器化平台的标准,越来越受到企业的青睐,在生产中也应用的越来越广泛. 我们的容器平台建设从2016年开始,大致经历了探索预研.体系建设和平台落地这样三个阶段. 下面就从Kubernetes的网络.存储.集群管理和监控与运维几个方面来分享下我们容器云平台建设走过的历程,希望给大家一些思考和启发…
背景 由于公司业务场景的需要,我们需要开发HBase平台,主要需要以下功能: 建表管理 授权管理 SDK实现 与公司内部系统打通 我们使用的HBase 版本: HBase 1.2.0-cdh5.16.2 Hadoop: 2.6.0-cdh5.16.2 目前主要应用场景: 实时计算如商品.商家等维度表 去重逻辑 中间件服务等监控数据 用户画像 平台建设 建表管理 1.指定命名空间 HBase系统默认定义了两个缺省的namespace: hbase:系统内建表,包括namespace和meta表 d…