我与DolphinScheduler社区的故事 Apache DolphinScheduler 是一个开源的分布式去中心化.易扩展的可视化DAG大数据调度系统. 于2017年在易观数科立项,2019年3月开源,于2019年8月29日通过Apache基金会投票正式成为Apache孵化器项目.社区发展非常迅速,目前已有 400+ 公司在生产上使用,代码+文档贡献者近200位,社区用户4000 +人. 主人翁简介 姓名:黄立 长安汽车-云平台开发部-大数据工程师,负责车联网数据基础平台建设工作,Dol…
背景 本文的主人翁是 2 次飞机参会现场交流,四天研究就把 DolphinScheduler 用上生产的来自车联网行业的大数据 boy - 黄立同学.怎么样,听起来是不是有点 crazy?下面就来看看黄同学艺高人胆大的开源故事. 主人翁:黄立,长安汽车 - 云平台开发部 - 大数据工程师,负责车联网数据基础平台建设工作,DolphinScheduler Committer.目前专注于物联网数据存储和计算领域. 我参与到 DS 社区应该刚好一年,是非常典型的从开源用户到了解社区最后参与社区的路线.…
DolphinScheduler是什么? Apache DolphinScheduler 是一个分布式.易扩展并带有强大的可视化界面的大数据工作流调度系统. 2021 年 03 月 18 日正式成为 Apache 顶级项目,是首个由国人主导并贡献到 Apache 基金会的大数据工作流领域的顶级项目. DolphinScheduler 致力于在数据工作流编排中 "解决复杂的大数据任务依赖及触发关系,让各种任务开箱即用".截止 2020 年 10 月,已有 400+ 公司在生产上使用. 我…
新一代大数据任务调度 -  Apache DolphinScheduler 继 11 月 19 日由 InfoQ 举办.在 300+ 参评项目中脱颖而出获得 "2020 年度十大开源新锐项目" 和 "2020 年度最具人气新锐项目" 以来,近期社区又荣获 OSCHINA 年度 "最佳技术团队" 称号,非常欢迎更多小伙伴加入到贡献队伍中来,为中国的开源崛起贡献自己的一份力量. 1 DolphinScheduler 介绍 Apache Dolphin…
在软件开发领域有一个流行的原则:Don't Repeat Yourself(DRY),翻译过来就是:不要重复造轮子.而开源项目最基本的目的,其实就是为了不让大家重复造轮子. 尤其是在大数据这样一个高速发展的领域,现在各类企业都有使用大量的开源软件,当发现开源项目不能满足场景业务需求的时候,越来越多的开发者也开始关注技术生态的"外延",结合各类场景打磨企业适用的技术架构.在此背景下,技术软件如何让更多用户能**"轻松上手"."简单应用"**就显得更…
在众多企业都在进行数字化转型的大背景下,大数据.人工智能等行业有着十分广阔的前景,其发展也可谓如火如荼.发展过程中这其中当然离不开数据采集.数据流通和数据价值挖掘等各种环节,而各环节的打通需要一个坚实底座来作为支撑,这个支撑就是今天要聊的大数据调度系统. 1 大数据调度介绍 多年来,谈到开源的大数据调度,大家可能一想到的就是 oozie.azkaban 等,这其中有没有痛点呢? 当然有,是否稳定.高可用一直都是各个调度的巨大痛点.在大数据中,其他服务可以挂,但调度不能挂的首要要求,是否能很简单易…
​  点亮 ️ Star · 照亮开源之路 GitHub:https://github.com/apache/dolphinscheduler   ​ 版本发布 2022/8/10 2022 年 8 月 10 日,Apache DolphinScheduler 在经过 3.0.0 alpha.3.0.0-beta-1.3.0.0-beta-2 不断验证之后,终于迎来了社区期盼已久的第三个大版本! 3.0.0 正式版本发生了自发版以来的最大幅度变动,新增了众多全新功能和特性,旨在为用户带来全新的体…
本周伊始,Apache DolphinScheduler 项目在 GitHub 上的 Github Star 总数首次突破 8K.目前,Apache DolphinScheduler 社区已经拥有 Contributor 345+,fork 数 3k+,社区发展呈现出一片欣欣向荣. 既 Apache DolphinScheduler 项目荣登 GitHub Java Trending 周月度榜单之后,Apache DolphinScheduler 的社区活力与开发热度再一次得到了印证.3.0.0…
在新网银行,每天都有大量的任务实例产生,其中实时任务占据多数.为了更好地处理任务实例,新网银行在综合考虑之后,选择使用 Apache DolphinScheduler 来完成这项挑战.如今,新网银行多个项目已经完成了实时与准实时的跑批,指标管理系统的离线跑批,应用于离线数据开发和任务调度.准实时数据开发和任务调度,以及其他非 ETL 用户定义数据跑批三类场景中. 为了更好地适应业务需求,新网银行是如何基于Apache DolphinScheduler 做改造的呢?在 Apache Dolphin…
2022年1月,科学技术部高新技术司副司长梅建平在"第六届中国新金融高峰论坛"上表示,当前数据量已经大大超过了处理能力的上限,若信息技术仍然是渐进式发展,则数据处理能力的提升将远远落后于指数级增长的数据量.因此,在一段时期内,数据处理能力与效率的提升仍将是大数据发展要面对的技术难点. 随着5G.物联网等网络信息技术的快速发展以及应用的快速增长,数据量也呈指数级增长,纵观运营商整个大数据开发的链路上,在各个环节都会出现各种严峻的问题,随着数据任务调度量级日益增大,阻碍数据正确且高效地发挥…