http://chenyuzhao.me/2017/02/06/flink%E7%89%A9%E7%90%86%E8%AE%A1%E5%88%92%E7%94%9F%E6%88%90/ https://yq.aliyun.com/articles/225618#…
General logical plan 典型的 Job 逻辑执行图如上所示,经过下面四个步骤可以得到最终执行结果: 从数据源(可以是本地 file,内存数据结构, HDFS,HBase 等)读取数据创建最初的 RDD.上一章例子中的 parallelize() 相当于 createRDD(). 对 RDD 进行一系列的 transformation() 操作,每一个 transformation() 会产生一个或多个包含不同类型 T 的 RDD[T].T 可以是 Scala 里面的基本类型或数…
本博文主要内容: 1.再次思考pipeline 2.窄依赖物理执行内幕 3.宽依赖物理执行内幕 4.Job提交流程 一:再次思考pipeline 即使采用pipeline的方式,函数f对依赖的RDD中的数据的操作也会有2种方式: 1:f(record), f作用于集合的每一条记录,每次只作用于一条记录. 2.f(redord), f一次性作用于集合的全部数据. Spark采用的是第一种方式,原因: 1.spark无需等待,可以最大化的使用集群计算资源. 2.减少OOM的发生 3.最大化的有利于开…
批量更改数据库表架构(生成sql后直接执行!) use my_test; --当前数据库 ), ), ), @NewSql VARCHAR(max), @Index INT; SET @SchemaOld='dbo';--原架构名称 SET @SchemaNew='SC';--新架构名称 SET @NewSql=''; ; SELECT @alltable=isnull(@alltable+',','')+[name] FROM SysObjects Where XType='U' ORDER…
最近论文需要一些比较直观的图表, 发现echart做出来的图还是比较美观的,这里介绍如何修改数据生成你需要的echart图. 1.堆积柱状图: http://echarts.baidu.com/examples/editor.html?c=bar-stack 以上的类型的颜色是自动分配的,stack属性可以将同一类型的数据放在一个矩形图中. 2.扇形图 http://echarts.baidu.com/examples/editor.html?c=pie-legend 1---->随机生成扇形图…
一.VS2010 打包生成exe文件后  执行安装文件出现  TODO:<文件说明>已停止工作并已关闭 TODO: <文件说明>已停止工作 原因: 打包的时候在文件系统中建立了空目录,那么该空的目录就不会被载入进去,导致程序执行用到该目录的时候就会出现了该问题. 解决方法: 如建立了文件Calibration 那么先随便载入一个文件(如:3.csv)文件进去  不让它为空即可了 二.打包经常使用设置: 1.设置软件的安装文件夹 能够直接改动的faultLocation  如:E:\…
highchart 动态生成x轴和折线图 <!DOCTYPE HTML> <html> <head> <meta charset="utf-8"><link rel="icon" href="https://static.jianshukeji.com/highcharts/images/favicon.ico"> <meta name="viewport" c…
本博文主要内容:  1.再次思考pipeline 2.窄依赖物理执行内幕 3.宽依赖物理执行内幕 4.Job提交流程 一:再次思考pipeline 即使采用pipeline的方式,函数f对依赖的RDD中的数据的操作也会有2种方式: 1:f(record), f作用于集合的每一条记录,每次只作用于一条记录. 2.f(redord), f一次性作用于集合的全部数据. Spark采用的是第一种方式,原因: 1.spark无需等待,可以最大化的使用集群计算资源. 2.减少OOM的发生 3.最大化的有利于…
<暗黑世界V1.6>服务器代码执行图 (原文地址:http://www.9miao.com/forum.php?mod=viewthread&tid=44016&highlight=%E6%9A%97%E9%BB%91%E4%B8%96%E7%95%8C) 刚刚学习,然后自己有的地方看不懂,估计大家和我一样,所以我画了一个简单的流程图.希望给大家带来帮助.图片第一个箭头是依赖.其他的是流程.我这里只画了一组,其他的箭头没画,不难发现,它的规则都是一样的.后期有时间会多做一点这样…
即使采用pipeline的方式,函数f对依赖的RDD中的数据集合的操作也会有两种方式: 1.f(record),f作用于集合的每一条记录,每次只作用于一条记录 2.f(records),f一次性作用于集合的全部数据: Spark采用的是第一种方式,因为: 1.无需等待,可以最大化的使用集群的计算资源 2.减少OOM的产生 3.最大化的有利于并发 4.可以精准的控制每一个Partition本身(Dependency)及其内部的计算(compute) 5.基于lineage的算子流动式函数式计算,可…