大家下午好,我是来自当贝网络科技大数据平台的基础开发工程师 王昱翔,感谢社区的邀请来参与这次分享,关于 Apache DolphinScheduler 在当贝网络科技大数据环境中的应用. 本次演讲主要包含四个部分: 平台建设的背景 大数据平台重构 大数据调度平台建设 下一步规划 王昱翔 当贝大数据平台基础开发工程师 毕业于电子科技大学,主要是做大数据平台的构建.集成及组件的运维的工作. 01 背景 在当贝网络科技使用 Apache DolphinScheduler 作为大数据调度平台之前,我们在…
当今许多企业都有着技术架构的DataOps程度不够.二次开发成本高.迁移成本高.集群部署混乱等情况,团队在技术选型之后发现并不适合自己的需求,但是迁移成本和难度又比较大,甚至前团队还留下了不少坑,企业自有的开发能力又比较有限,导致后面的小伙伴上手难度高体验差. 俗话说"工具选得好,下班回家早:调度用得对,半夜安心睡",面对各种难点和痛点: 如何有效地评估数据调度工具? 如何平滑的过渡到Apache DolphinScheduler? 如何稳定高效的对已有的工具升级改造? 这几个问题是改…
携程大数据平台负责人张翼分享携程的实时大数据平台的迭代,按照时间线介绍采用的技术以及踩过的坑.携程最初基于稳定和成熟度选择了Storm+Kafka,解决了数据共享.资源控制.监控告警.依赖管理等问题之后基本上覆盖了携程所有的技术团队.今年的两个新尝试是Streaming CQL(华为开源)和JStorm(阿里开源),意在提升开发效率.性能和处理消息拥塞能力,目前已有三分之一的Storm应用已经迁到JStorm 2.1上. 今天给大家分享的是携程在实时数据平台的一些实践,按照时间顺序来分享我们是怎…
概述 以 Hortonworks Data Platform (HDP) 平台为例 ,hadoop大数据平台的安全机制包括以下两个方面: 身份认证 即核实一个使用者的真实身份,一个使用者来使用大数据引擎平台,这个使用者需要表明自己是谁,即提供自己的身份证明,大数据平台需要检验这个证明,确定这个证明是有效的,且不是伪造的.否则,就拒绝这个使用者进入大数据引擎. 授权管理 这个使用者的真实身份核实之后,需要对这个使用者的使用权限进行界定,即这个使用者在大数据平台中能够使用什么组件,能够获取哪些资源,…
马蜂窝技术原创文章,更多干货请订阅公众号:mfwtech Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐.低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的交流和传递问题. Kafka 在马蜂窝也有非常广泛的应用,为很多核心的业务提供支撑.本文将围绕 Kafka 在马蜂窝大数据平台的应用实践,介绍相关业务场景.在 Kafka 应用的不同阶段我们遇到了哪些问题以及如何解决.之后还有哪些计划等. Part.1 应用场景 从 Kafka 在大数据平台的应…
Hadoop 的诞生改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变:随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hadoop 的架构进行改造. 今天与大家一起简单回顾 Hadoop 架构以及目前市面上不同的存算分离的架构方案,他们的利弊各有哪些,希望可以给正在存算分离架构改造的企业一些参考和启发. Hadoop 存算耦合架构回顾 2006 年 Hadoop 刚发布,这是一个 all-in-one 的套装,最早有三个核…
http://blog.csdn.net/jacktan/article/details/9200979 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影<云图>——云里雾里的感觉.或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面,但是您…
大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影<云图>——云里雾里的感觉.或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面,但是您至少要保持清醒的头脑,认真仔细的慎问一下自己,我们公司真的需要大数据吗? 做为一家第三方支付公司,数据的确…
今天我们来看一下淘宝.美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图.通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅. 淘宝大数据平台 淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的 Hadoop 大数据平台,比较典型. 淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步:中间是云梯 1,也就是淘宝的 Hadoop 大数据集群:下面是大数据的应用…
点击上方 蓝字关注我们 作者 | 宋哲琦 ✎ 编 者 按 在不久前的 Apache  DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人 宋哲琦 带来了平台调度系统从 Airflow 迁移到 Apache  DolphinScheduler 的方案设计思考和生产环境实践. 这位来自浙江杭州的 90 后年轻人自 2019 年 9 月加入有赞,在这里从事数据开发平台.调度系统和数据同步组件的研发工作.刚入职时,有赞使用的还是同为 Apache 开源项目的 Airf…