Spark简介 Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群. Spark源码从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码.整个Spark框架源码是一个巨大的工程.下面我们一起来看下spark的底层执行原理. Spark运行流程 具体运行流程如下: SparkContext 向资源管理器注册并向资源管理器申请运行Exec…
前言 Flink 是流式的.实时的 计算引擎 上面一句话就有两个概念,一个是流式,一个是实时. 流式:就是数据源源不断的流进来,也就是数据没有边界,但是我们计算的时候必须在一个有边界的范围内进行,所以这里面就有一个问题,边界怎么确定? 无非就两种方式,根据时间段或者数据量进行确定,根据时间段就是每隔多长时间就划分一个边界,根据数据量就是每来多少条数据划分一个边界,Flink 中就是这么划分边界的,本文会详细讲解. 实时:就是数据发送过来之后立马就进行相关的计算,然后将结果输出.这里的计算有两种:…
C++多态的实现及原理详细解析 作者: 字体:[增加 减小] 类型:转载   C++的多态性用一句话概括就是:在基类的函数前加上virtual关键字,在派生类中重写该函数,运行时将会根据对象的实际类型来调用相应的函数.如果对象类型是派生类,就调用派生类的函数:如果对象类型是基类,就调用基类的函数   1. 用virtual关键字申明的函数叫做虚函数,虚函数肯定是类的成员函数.2. 存在虚函数的类都有一个一维的虚函数表叫做虚表.类的对象有一个指向虚表开始的虚指针.虚表是和类对应的,虚表指针是和对象…
代理模式是一种很常见的模式,本文主要分析cglib动态代理的过程 1. 举例 使用cglib代理需要引入两个包,maven的话包引入如下 <!-- https://mvnrepository.com/artifact/cglib/cglib --> <dependency> <groupId>cglib</groupId> <artifactId>cglib</artifactId> <version>3.3.0</…
目录 Spark SQL/DF的执行过程 集群运行部分 Aggregation Join Shuffle Tungsten 内存管理机制 缓存敏感计算(Cacheaware computation) 动态代码生成(Code generation) Spark SQL/DF的执行过程 将上层的SQL语句映射为底层的RDD模型. 写代码(DF/Dataset/SQL)并提交 Parser解析后得到unresolved logical plan(代码合法但未判断data是否存在.数据类型) Analy…
我们开发任何一个Spring Boot项目,都会用到如下的启动类 1 @SpringBootApplication 2 public class Application { 3 public static void main(String[] args) { 4 SpringApplication.run(Application.class, args); 5 } 6 } 从上面代码可以看出,Annotation定义(@SpringBootApplication)和类定义(SpringAppli…
虽然用delphi也有7,8年了,但大部分时间还是用在系统的架构上,对delphi底层还是一知半解,今天在网上看到一篇文章写得很好,虽然是07年的,但仍有借鉴的价值. 现摘录如下: Delphi程序设计之--经验技巧 这些日子太忙了,今天把剩下的部分贴完,希望对大家有用.看过前一篇的都知道此文的作者和出处,我就不详细说了. { No. 16 } //对于记录类型Record的分析. 实例: type TBaseRec = record   rStr: Integer;   rStr2: Stri…
NormalMap的实现标志着对渲染流水线的各个环节以及矩阵变化有了正确和深入的认识.这里记录一下学习过程,以及关于NormalMap的诸多细节. 刚开始想要实现NormalMap程序的时候,查阅的是<Real Time Rendering>和橙皮书.这本书里从纹理映射开始讲,提到Normal Map是Bump Map的一种,原理都是利用纹理中记录的值来干扰光照方程中的法线参数,以达到改变光照结果,模拟表面细微纹理的作用.只不过,在Normal Map 中保存的就是一个法向量,直接使用即可.但…
文章目录 1.背景 2.ROC曲线 2.1 ROC名称溯源(选看) 2.2 ROC曲线的绘制 3.AUC(Area Under ROC Curve) 3.1 AUC来历 3.2 AUC几何意义 3.3 AUC计算 3.4 理解AUC的意义 3.4.1 从Mann-Whitney U test角度理解 3.4.2 从AUC计算公式角度理解 3.4.3 一句话介绍AUC 3.5 为什么用AUC 3.6 AUC的一般判断标准 1.背景 很多学习器是为测试样本产生一个实值或概率预测(比如比较简单的逻辑回…
[源码解析] 深度学习分布式训练框架 horovod (8) --- on spark 目录 [源码解析] 深度学习分布式训练框架 horovod (8) --- on spark 0x00 摘要 0x01 Spark相关知识 1.1 为什么整合 Spark 1.2 Spark 简单架构 1.3 Pyspark 原理 1.3.1 架构修改 1.3.2 Driver端 1.3.3 Executor端 1.3.4 流程 0x02 机器学习 on Spark 2.1 机器学习的特点 2.2 机器学习…