DolphinScheduler & K8s 在优路科技的实践

【DolphinScheduler & K8s 在优路科技的实践】的更多相关文章

DolphinScheduler & K8s 在优路科技的实践

T 摘要 · 本文通过介绍DolphinScheduler on Kubernetes 在优路科技的实践,阐述了DolphinScheduler如何在云原生时代,更好地助力企业实现高效的数据调度解决方案. 讲师介绍李文禾,重庆优路科技书香事业部大数据组及创新组负责人 & Apache DolphinScheduler Committer,文禾也是 DolphinScheduler 对 K8s 实现的主要作者. 10 月 24 日的易观A10数据智能峰会 - 开发者日上,来自优路科技的李文禾同学…

Spark Shuffle调优原理和最佳实践

对性能消耗的原理详解在分布式系统中,数据分布在不同的节点上,每一个节点计算一部份数据,如果不对各个节点上独立的部份进行汇聚的话,我们计算不到最终的结果.我们需要利用分布式来发挥Spark本身并行计算的能力,而后续又需要计算各节点上最终的结果,所以需要把数据汇聚集中,这就会导致Shuffle,这也是说为什么Shuffle 是分布式不可避免的命运.因为Shuffle 的过程中会产生大量的磁盘 IO.网络 IO.以及压缩.解压缩.序列化和反序列化的操作,这一系列的操作对性能都是一个很大的负担. 调优…

JVM参数调优：Eclipse启动实践

本文主要参考自<深入理解 Java 虚拟机>.这本书是国人写的难得的不是照搬代码注释的且不是废话连篇的技术书,内容涵盖了 Java 从源码到字节码到执行的整个过程,包括了 JVM(Java Virtual Machine)的架构,垃圾收集的介绍等.这里摘录出关于配置 JVM 基本参数来调优 Eclipse 启动的过程,比较初级,供初学者参考. 基础知识针对 JVM 的参数调优主要集中在数据区大小的控制和垃圾回收策略的选择.关于 JVM 运行机制等更多内容可参考其他博文 JVM 的运行时数据区…

看MySQL的参数调优及数据库锁实践有这一篇足够了

史上最强MySQL参数调优及数据库锁实践 1. 应用优化 1.2 减少对MySQL的访问 1.2.1 避免对数据进行重复检索 1.2.2 增加cache层 1.3 负载均衡 1.3.1 利用MySQL复制分流查询 1.3.2 采用分布式数据架构 2. MySQL中查询缓存优化 2.1 概述 2.2 操作流程 2.3 查询缓存配置 2.4 开启查询缓存 2.5 查询缓存SELECT选项 2.6 查询缓存失效的情况 3. MySQl内存管理及优化 3.1 内存优化原则 3.2 MyISAM内存优化…

K8S集群Master高可用实践

K8S集群Master高可用实践 https://blog.51cto.com/ylw6006/2164981 本文将在前文基础上介绍k8s集群的高可用实践,一般来讲,k8s集群高可用主要包含以下几个内容:1.etcd集群高可用2.集群dns服务高可用3.kube-apiserver.kube-controller-manager.kube-scheduler等master组件的高可用其中etcd实现的办法较为容易,具体实现办法可参考前文:https://blog.51cto.com/y…

挑战海量数据：基于Apache DolphinScheduler对千亿级数据应用实践

点亮 ️ Star · 照亮开源之路 GitHub:https://github.com/apache/dolphinscheduler 精彩回顾近期,初灵科技的大数据开发工程师钟霈合在社区活动的线上 Meetup 上中,给大家分享了<基于 Apache DolphinScheduler 对千亿级数据的应用实践>主题演讲. 我们对于千亿级数据量的数据同步需求,进行分析和选型后,初灵科技最终决定使用DolphinScheduler进行任务调度,同时需要周期性调度 DataX.SparkSQL…

开源有魔力 - DolphinScheduler 的 Apache 之路

关于 Apache DolphinScheduler社区 Apache DolphinScheduler(incubator) 于17年在易观数科立项,19年3月开源, 19 年8月进入Apache 孵化器,社区发展非常迅速,目前已有 400+ 公司在生产上使用,代码+文档贡献者近200位,社区用户4000 +人.DolphinScheduler (简称DS) 致力于使大数据任务调度开箱即用,它以拖拉拽的可视化方式将各种任务间的关系组装成 DAG(有向无环图),并实时监控整个数据pipeline…

SparkShuffle调优原理和最佳实践

在网络层,互联网提供所有应用程序都要使用的两种类型的服务,尽管目前理解这些服务的细节并不重要,但在所有TCP/IP概述中,都不能忽略他们: 无连接分组交付服务(Connectionless Packet Delivery Service) 无连接交付抽象地表示大多数分组交换网络都能提供的一种服务.简单地讲,指的是TCP/IP灰暗网按照报文上携带的地址信息把短报文从一台机器传递到另一台机制.因为无连接服务单独传递每个分组,所以不能保证可靠.有序地传递.而且,由于无连接服务通常直接映射到底层的硬件上…

《Hadoop学习之路》学习实践

(实践机器:blog-bench) 本文用作博文<Hadoop学习之路>实践过程中遇到的问题记录. 本文所学习的博文为博主“扎心了,老铁” 博文记录.参考链接https://www.cnblogs.com/qingyunzong/category/1169344.html 问题一: <Hadoop学习之路(四)Hadoop集群搭建和简单应用>执行start-dfs.sh时,报错3个: 1. 报错现象: 原因:hadoop默认ssh采用的是22端口号,但是我们公司内部机器为了安全已修…

一款不错的 Go Server/API boilerplate，使用 K8S+DDD+CQRS+ES+gRPC 最佳实践构建

Golang API Starter Kit 该项目的主要目的是使用最佳实践.DDD.CQRS.ES.gRPC 提供样板项目设置. 为开发和生产环境提供 kubernetes 配置.允许与反映生产的 environment 一起工作,从而减少任何错误配置. 这是许多服务(如身份验证或用户域)的单一存储库(mono-repository). 除了共享包外,每个服务都有自己的代码库,以简化这个样板文件. 服务之间通过 gRPC 进行通信.每个服务都可能为外部通信或/和 gRPC 公开 HTTP AP…