Spark的基本概念及工作原理】的更多相关文章

Spark作业的基本概念 -Application:用户自定义的Spark程序,用户提交后,Spark为App分配资源将程序转换并执行. -Driver Program:运行Application的main()函数并且创建SparkContext. -RDD DAG:当RDD遇到Action算子,将之前的所有算子形成一个有向无环图(DAG).再在Spark中转化为Job,提交到集群进行执行.一个App中可以包含多Job. -Job:一个RDD Graph触发的作业,往往由Spark Action…
上一篇文章中我讲述了关于消息推送的方案以及一个基于Netty实现的一个简单的Hello World,为了更好的理解Hello World中的代码,今天我来讲解一下关于Netty中一些概念和工作原理的内容,如果你觉得本篇文章有些枯燥,请先去阅读<Android 基于Netty的消息推送方案之Hello World(一)> ChannelEvent Netty是基于事件驱动的,就是我们上文提到的,发生什么事,就通知"有关部门".所以,不难理解,我们自己的业务代码中,一定有跟这些…
LVM基本概念及工作原理 背景知识: 一直困惑于LVM,特地找资料查了查,终于对LVM的概念和工作原理有了深入的理解.接下来记录下.新的技术出来必定是为了改变现有的不足,所以LVM的出现是由于对现有磁盘管理的缺陷做出改进.传统的磁盘管理中,太机械式,不够灵活.比如,在window上的分区大小是固定的,这是很让人头疼的事!虽然目前也有扩容的第三方工具,但有可能损坏我们的文件系统.在不使用扩容工具时,我们只能由一个容量更大的硬盘,格式化他,并把空间不足的硬盘把全部文件拷贝到新硬盘.显然这种方式在企业…
zabbix监控的基础概念.工作原理及架构 转载于网络 一.什么是zabbix及优缺点 Zabbix能监视各种网络参数,保证服务器系统的安全运营,并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题.是一个基于WEB界面的提供企业级的开源分布式系统监视以及网络监视功能的企业级的开源解决方案. Agent端:主机通过安装agent方式采集数据 Server端:通过收集agent发送的数据,写入数据库(MySQL,ORACLE),在通过php+apache/nginx在web前端展示 Za…
基本概念 Elasticsearch有几个核心的概念,花几分钟时间了解一下,有助于后面章节的学习. NRT Near Realtime,近实时,有两个层面的含义,一是从写入一条数据到这条数据可以被搜索,有一段非常小的延迟(大约1秒左右),二是基于Elasticsearch的搜索和分析操作,耗时可以达到秒级. Cluster 集群,对外提供索引和搜索的服务,包含一个或多个节点,每个节点属于哪个集群是通过集群名称来决定的(默认名称是elasticsearch),集群名称搞错了后果很严重.命名建议是研…
随着云计算技术的快速普及与发展,越来越多的企业开始学习和搭建自己的云平台代替传统的 IT 交付模式,企业的 IT 环境也随之越来越复杂,常规的运维方法与技术已经无法满足现在云环境中系统的配置与变更.基于云计算的发展,大数据.认知技术及容器技术也在企业中得到了越来越多的应用,大量的服务器管理操作.配置变更被频繁的执行与部署,以应对多变的业务需求.按照常规的方式,运维人员需逐个服务器进行配置调整,手动管理大量的系统信息,难免有各种各样的问题及事故发生.为了避免这样的风险,本文的示例中,笔者将详细介绍…
一.什么是zabbix及优缺点(对比cacti和nagios) Zabbix能监视各种网络参数,保证服务器系统的安全运营:并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题.是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案. agent端:主机通过安装agent方式采集数据. server端:通过收集agent发送的数据,写入数据库(MySQL,ORACLE等),再通过php+apache在web前端展示. zabbix = cacti + nagios…
在大数据的各种框架中,hadoop无疑是大数据的主流,但是随着电商企业的发展,hadoop只适用于一些离线数据的处理,无法应对一些实时数据的处理分析,我们需要一些实时计算框架来分析数据.因此出现了很多流式实时计算框架,比如Storm,Spark Streaming,Samaz等框架,本文主要讲解Spark Streaming的工作原理以及如何使用. 一.流式计算 1.什么是流? Streaming:是一种数据传送技术,它把客户机收到的数据变成一个稳定连续的流,源源不断地送出,使用户听到的声音或看…
转自:http://blog.sina.com.cn/s/blog_5d302bd20100gprv.html 近年来,随着 Internet 的迅猛发展,连入 Internet 的主机数量成倍增长.由于最初设计 Internet 的时候并没有考虑到需要支持这么大的规模,因而 Internet 使用的 Ipv4 协议中 IP 地址的长度选择了 32 位,它可以使 IP 包的格式很好地对齐:但是,目前 IP 地址的短缺已经成为 Internet 面临的最大问题之一.为了解决 IP 地址短缺的问题,…
VRRP是一种路由容错协议,也可以叫做备份路由协议,可以把一个虚拟路由器的责任动态分配到局域网上的 VRRP 路由器中的一台. 控制虚拟路由器 IP 地址的 VRRP 路由器称为主路由器, 它负责转发数据包到这些虚拟 IP地址. 当缺省路由器down掉(即端口关闭)之后,内部主机将无法与外部通信,如果路由器设置了VRRP时,那么这时,虚拟路由将启用备份路由器,从而实现全网通信. 工作原理: VRRP的工作过程如下: 1.路由器开启 VRRP功能后,会根据优先级确定自己在备份组中的角色.优先级高的…