在各行各业中,越来越多的公司开始重视收集数据,并寻找创新方法来获得真实可行的商业成果,并且愿意投入大量时间和金钱来实现这一目标。

据IDC称,数据和分析软件及云服务市场规模在 2021 年达到了 900 亿美元,随着企业继续对人工智能和机器学习 (AI/ML) 和现代数据计划进行投资,预计到 2026 年将增长一倍以上。

然而,尽管投入了大量资金,数据项目往往收效甚微。麦肯锡最近对高级主要分析项目进行的一项调查发现,公司 80% 的时间都花在准备数据等重复性任务上,而这些任务产生的增值作用有限。此外,他们还发现,只有 10% 的公司认为他们已经控制住了这个问题。

项目为何失败?

尽管增加了投资和关注,数据项目的失败率为什么仍然如此之高?

许多变量都会影响项目的成功,经常被提及的因素包括项目复杂性和对应的开发人才技术水平。企业也意识到,许多数据项目都失败了,是因为他们难以在生产中大规模实施数据计划。

这导致了 DataOps 的出现,成为克服大数据项目中常见挑战的新框架。DataOps 是敏捷工程和 DevOps 最佳实践在数据管理领域的应用,能帮助企业快速将新见解转化为完全可操作的生产交付成果,从而从数据中释放出商业价值。

数据调度的挑战

大多数数据工作流都非常复杂,需要跨多个不同的应用程序、数据源和基础架构技术运行,并且这些技术需要协同工作。虽然目标是在生产中实现这些流程的自动化,但现实情况是,如果没有强大的工作流调度平台,在企业规模上交付这些项目可能会非常昂贵,而且通常需要花费大量时间进行手动工作。

2023年1月份,白鲸开源正式发布了 Apache DolphinScheduler商业版Whalescheduler。相比于开源版本,商业版拥有更为专业的服务支持,感兴趣的小伙伴可以看下这篇文章进一步了解:什么是数据调度平台 WhaleScheduler

数据工作流调度项目有四个关键阶段:

  • 数据引入:这涉及从传统来源(如企业资源规划 (ERP) 和客户资源管理 (CRM) 解决方案、金融系统等)以及现代来源(如设备、物联网 (IoT) 传感器和社交媒体)收集数据。

  • 数据存储:存储数据的方式和地点取决于持久性、数据集的相对价值、分析模型的刷新率以及数据移动到处理阶段的速度。

  • 数据处理:处理阶段也面临许多挑战,包括需要多少处理能力?是恒定的还是可变的?是定期的、事件驱动的还是临时的?如何将成本降到最低?

  • 洞察传递:这需要将数据输出移动到分析系统。这一层同样复杂,有越来越多的工具代表数据管道中的最后一英里。

随着新数据和云技术的频繁推出,公司不断重新评估其技术堆栈。这种不断发展的创新带来了压力和客户流失,这可能是一个挑战,因为公司需要轻松采用新技术并将其扩展到生产中。

最终,如果新的数据分析服务没有大规模投入生产,公司就无法获得可操作的见解或实现价值。

实现规模生产

在生产中成功大规模运行业务关键型工作流程并非偶然。正确的工作流程调度平台可以帮助您简化数据管道并获得所需的可行见解。

考虑到这一点,以下是您在工作流调度平台中需要寻找的八个基本功能

  • 支持异构工作流:各公司正在迅速转向云,在可预见的未来,工作流将跨越高度复杂的混合环境。对于许多公司而言,这将包括支持跨数据中心和多个私有云和/或公共云的大型机和分布式系统。Apache DolphinScheduler 是一个强大的开源分布式工作流调度平台,能够处理多种应用程序和基础设施的多样性,提供一致的自动化策略。

  • SLA 管理:业务工作流(从预测风险的 ML 模型到财务结算和付款结算)都有完成 SLA,这些 SLA 有时受监管机构制定的准则的约束。您的调度平台必须能够理解并通知您复杂工作流中的任务失败和延迟,并且需要能够将问题映射到更广泛的业务影响。

  • 错误处理和通知:在生产中运行时,即使是设计得最好的工作流程也会出现故障和延迟,而海豚调度恰恰有非常完善的告警机制,并支持一些主流的平台

  • 自我修复和补救:响应业务工作流中的作业故障时,平台会采取纠正措施,例如重新启动作业、删除文件或刷新缓存或临时表。调度平台应允许自动化工程师配置此类操作,以便在下次发生相同问题时自动执行。

  • 端到端可视性:工作流跨混合技术栈执行互连的业务流程。调度平台应该能够清晰地显示工作流的沿袭。这对于帮助工程师了解应用程序与其支持的业务流程之间的关系至关重要。这对于变更管理也很重要。在进行变更时,了解流程上游和下游发生的情况至关重要。

  • 自助式用户体验:工作流调度是一项团队活动,涉及许多利益相关者,例如数据团队、开发人员、运营、业务流程所有者等。每个团队对于如何与调度工具交互都有不同的用例和偏好。

  • 生产标准:在生产中运行工作流需要遵守标准,这意味着使用正确的命名约定、错误处理模式等。您的调度平台应该有一个机制,提供一种非常简单的方法来定义这些标准,并在用户构建工作流时引导遵循适当的标准。

  • 支持 DevOps 实践:随着公司采用 DevOps 实践,例如持续集成和持续部署 (CI/CD) 管道、工作流开发、修改甚至工作流基础设施部署,您的调度平台应该能够适应现代发布实践。

对数据的需求正在上升,并且没有减弱的迹象,这意味着拥有存储、处理和操作数据的能力对于任何企业的成功仍然至关重要。DataOps 实践与强大的调度功能相结合,可以帮助企业调度数据管道、简化数据交付流程并改善业务成果。

WhaleStudio是白鲸开源根据全球领先的DataOps理念打造的新一代全栈数据集成调度产品,具有分布式、云原生并带有强大可视化界面的特点,将全球领先的调度开发组件Apache DolphinScheduler与数据集成组件Apache SeaTunnel集成在一起提供给全球用户领先的完整解决方案,支持170+数据源集成并全面支持信创环境,目前已服务于6000+企业。

本文来源于:https://www.datanami.com/2024/05/15/unlock-your-data-initiatives-with-dataops/ 如有侵权,请联系删除

本文由 白鲸开源 提供发布支持!

DataOps真能“降本增效”?的更多相关文章

  1. 企业网管用linux搭建邮件服务器为公司降本增效

    在企业中,节约一分钱比挣一分钱容易得多,这是指导企业降本增效的名言之一啊,作为一名企业里的IT人员我是深有感触,尤其是IT方面,除了在互联网公司是生产力的排头兵,在制造业单位里那一般都是后勤保障部门, ...

  2. PCB 2019年IT工作主题【降本增效】 词云

    降本增效是IT部门永恒的主题,从自身做起.踏踏实实把工作做好 在线词云制作软件: https://wordart.com/create

  3. StartDT AI Lab | 需求预测引擎如何助力线下零售业降本增效?

    在当下经济明显进入存量博弈的阶段,大到各经济体,小到企业,粗放的增长模式已不适宜持续,以往高增长的时代已经成为过去,亟需通过变革发掘新的增长点.对于竞争激烈的线下零售行业而言,则更需如此. 零售行业一 ...

  4. 降本增效利器!趣头条Spark Remote Shuffle Service最佳实践

    王振华,趣头条大数据总监,趣头条大数据负责人 曹佳清,趣头条大数据离线团队高级研发工程师,曾就职于饿了么大数据INF团队负责存储层和计算层组件研发,目前负责趣头条大数据计算层组件Spark的建设 范振 ...

  5. kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析

    作者:詹雪娇,腾讯云容器产品经理,目前主要负责腾讯云集群运维中心的产品工作. 张鹏,腾讯云容器产品工程师,拥有多年云原生项目开发落地经验.目前主要负责腾讯云TKE集群和运维中心开发工作. 引言 降本增 ...

  6. kubernetes 降本增效标准指南| 资源利用率提升工具大全

    背景 公有云的发展为业务的稳定性.可拓展性.便利性带来了极大帮助.这种用租代替买.并且提供完善的技术支持和保障的服务,理应为业务带来降本增效的效果.但实际上业务上云并不意味着成本一定较少,还需适配云上 ...

  7. CRM帮助初创企业降本增效的四个方法

    对大部分初创公司来说,只有少数企业能够实现盈利,大部分只能维持盈亏平衡甚至是亏损.这是因为初创企业很难在短时间之内找到稳定的赢利点,而企业面临的风险和投入又是无法预知的.初创企业想要快速盈利,只能降低 ...

  8. kubernetes 降本增效标准指南|理解弹性,应用弹性

    弹性伸缩在云计算领域的简述 弹性伸缩又称自动伸缩,是云计算场景下一种常见的方法,弹性伸缩可以根据服务器上的负载.按一定的规则.进行弹性的扩缩容服务器. 弹性伸缩在不同场景下的含义: 对于服务运行在自建 ...

  9. 英特尔内存革新助平安云 Redis 云服务降本增效

    英特尔内存革新助平安云 Redis 云服务降本增效 英特尔 傲腾 数据中心级持久内存的引入,为平安云的降本增效开启了一条新的道路.通过对平安云 Redis 数据库产品的支持,用户能享受到性能优异且价格 ...

  10. kubernetes 降本增效标准指南|ProphetPilot:容器智能成本管理引擎

    作者 田奇,腾讯云高级工程师,专注大规模离在线混部,弹性伸缩,云原生成本优化,熟悉Kubernetes,关注云原生大数据.AI. 王孝威,腾讯云容器产品经理,热衷于为客户提供高效的 Kubernete ...

随机推荐

  1. postman Could not get any response 无法请求

    外网访问接口地址,刚开始考虑到是阿里云服务器上面的ECS网络安全策略拦截,添加了白名单, 首先在浏览器中回车访问,页面有反应. 但是在postman中请求,仍然返回 Could not get any ...

  2. Linux基本编程环境安装

    前言 可以采用组合式安装,如:https://oneinstack.com/ 选择好要安装的,然后复制安装命令就可以一键搞定很多东西了 VMware安装Centos7 按照物理机CPU实际情况,选择处 ...

  3. 韦东山freeRTOS系列教程之【第五章】队列(queue)

    目录 系列教程总目录 概述 5.1 队列的特性 5.1.1 常规操作 5.1.2 传输数据的两种方法 5.1.3 队列的阻塞访问 5.2 队列函数 5.2.1 创建 5.2.2 复位 5.2.3 删除 ...

  4. Simple WPF: WPF 实现按钮的长按,短按功能

    最新内容优先发布于个人博客:小虎技术分享站,随后逐步搬运到博客园. 实现了一个支持长短按得按钮组件,单击可以触发Click事件,长按可以触发LongPressed事件,长按松开时触发LongClick ...

  5. 汇编语言--cpu的工作原理(寄存器)--手稿

    03

  6. MySQL 并发控制(锁得使用)

    导读 并发问题:同一时刻进行读写,并发问题回引发数据不一致问题. 解决并发问题:MySQL采用了锁定机制去解决并发问题 锁的分类 MySQL使用两种锁机制去解决问题:共享锁和排他锁,也叫读锁或者写锁. ...

  7. HOOK别人的dylib(HOOK cydia里面的插件)

    以下仅做我在hook 中的记录, 环境 VM PRO 15 MAC OS 15 Xcode 11.2 工具 monkeydev install_name_tool otool 思路:将要hook 的d ...

  8. 可能是全网最适合入门的面向对象编程教程:Python实现-嵌入式爱好者必看!

    前言 对于嵌入式入门的同学来说,往往会遇到设备端处理能力不足.在面对大规模计算情况下需要借助上位机完成进一步的数据处理的情况.此时,Python 语言因其简单易用的特点和丰富多样的库成为了我们做上位机 ...

  9. 5 pdf页码跳转失效

    PC端网页查看pdf时,输入非数字页码回车后,页码跳转功能失效

  10. 用 Git 操作的数据库?这个项目火了!

    # 用 Git 操作的数据库?这个项目火了!> 超级特别又实用的数据库,快来补课!Git 是一个开源的分布式版本控制系统,可以敏捷高效地管理代码,让项目代码支持同时存在多个不同的版本和分支,是程 ...