本摘抄不保证论文完整性和理解准确性

原始的MapReduce。分Map，Shuffle，Reduce。

Map里包含shards。

Shuffle理解为groupByKey的事情。Reduce里包含Combiner，能够定义Sharder来控制key怎么和Reducer worker相应起来。

核心抽象和基本原语

PCollection<T>是一个不可变的bag，能够是有序的(Sequence)，也能够是无序的(Collection)。PCollection能够来自于内存里的Java PCollection对象，也能够读取自文件。

PTable<K, V>，能够看成PCollection<Pair<K, V>>。不可变无序multi-map。

第一个原语是parallelDo()，把PCollection<T>变成新的PCollection<S>，处理方式定义在DoFn<T, S>里。emitFn是call-back。传给用户的process(…)。使用emitFn.emit(outElem)发射出去。parallelDo()能够在map或reduce中使用。DoFn不应该使用闭包外全局的变量。(inline function)纯操作自己的inputs。

第二个原语是groupByKey()，把PTable<K, V>转变成PTable<K,Collection<V>>。

第三个原语是combineValues()，接收input为PTable<K,Collection<V>>和一个V的符合结合律的方法，返回PTable<K, V>。

第四个原语是flatten()。接收一个PCollection<T>的list，返回一个PCollection<T>

衍生原语(Derived Operations)

count()，接收PCollection<T>，返回PTable<T, Integer>

实现方式为parallelDo()。groupByKey()和combineValues()

join()，接收PTable<K, V1>，PTable<K, V2>。返回PTable<K,Tuple2<Collection<V1>, Collection<V2>>

实现方式为，第一步，使用parallelDo()把每一个input PTable<K, Vi>变成通用的PTable<K, TaggedUnion2<V1,V2>>；第二步使用flattern来combine tables。第三步。使用groupByKey()作用于被扁平过了tables。产生PTable<K,Collection<TaggedUnion2<V1, V2>>>

top()，接收比較函数和N，

实现方式为parallelDo()，groupByKey()和combineValues()

延迟分析(Deffered Evaluation)

PCollection对象有两种状态，defferred或materialized。

FlumeJava.run()真正触发execution plan的物化/运行。

PObjects

PObject<T>用于存储Java对象，物化过了之后能够使用getValue()方法获得PObject的值。有点像Future。

operate()方法

优化器

parallelDoFusion(融合)

Producer-Consumer and Sibling Fusion。例如以下图

大致是说。ABCD这几种由同一份input产生的parallelDo，能够融合起来在一个parallelDo，即A+B+C+D，里处理。一些中间结果也能够不要。

MapShuffleCombineReduce(MSCR) Operation

FlumeJava优化器的核心在于把ParallelDo，GroupByKey，CombineValues和Flattern的组合转换成一个个单个的MapReduce。

MSCR是一个中间层的操作，有M个input channels(每一个能够进行map操作)，有R个Reduce channels(每一个能够进行shuffle，或combine。或reduce操作)。单个input channal m，接收PCollection<T_m>作为输入，运行R路output输出的ParallelDo “map”操作，产生R个PTable<K_r, V_s> outputs。每一个output channel r flatterns它的M个inputs，然后

a) 进行一次GroupByKey的“shuffle”，或CombineValues的“combine”。或O_r-output的ParallelDo “reduce”。然后把结果写出到O_r-output PCollections

b) 把inputs直接写出为outputs

前者这种output channel称为”Grouping” channel，后者称为”pass-through” channel。”pass-through” channel同意map的output成为一个MSCR操作的输出。

每一个MSCR操作能够用一个MapReduce完毕。

它让MapReduce更加通用，体如今：

Ø 同意多个reducers和combiners。

Ø 同意每一个reducer产生多个outputs；

Ø 消除了每一个reducer必须以同样的key为input来产出output的约束；

Ø 同意pass-through形式的outputs。

所以MSCR是优化器里非常好的一个中间操作目标。

MSCR Fusion

MSCR操作产生于一些相关的GroupByKey操作集合。相关的GroupByKey操作是指产生于同样的input(如Flattern操作)，或被同一个parallelDo操作制造出来的input。

这部分比較晦涩难懂啊。可是是理解核心

全局优化策略

优化要达到的效果是最后的运行计划里包含尽可能少的又高效的MSCR操作。

1. Sink Flatterns。把扁平操作下沉，如h(f(a)+f(b))=> h(f(a))+h(f(b))，即分配律，然后又能和parallelDo的融合特性结合起来，如(hof)(a)+(hog)(b)

2. Lift CombineValues。假设CombineValues紧跟着GroupByKey操作。

3. Insert fusion blocks。假设俩GroupByKey操作是由生产者-消费者的ParallelDo chain连起来的，ParallelDo要在GroupByKey里做上调和下移。

4. Fuse ParallelDos。

5. Fuse MSCRs。

针对这几个策略的实施，后面举了个样例而且描绘了详细的运行图，非常帮助理解

优化的不足和未来工作

优化器没有分析用户写的方法，比方估算input和output数据量大小。

也没有改动用户的代码来做优化。

须要做一些分析避免运算的反复。及去除不必要或不合理的groupByKey。

Executor

优化完了之后是运行。眼下支持的是batch的模式提交作业。

在运行方面，FlumeJava会做方便用户开发、debug，自己主动创建删除文件。自己主动识别数据量大小调整运行并行度和改变运行模式(remote)等等事情。

全文完 :)

论文摘抄 - FlumeJava的更多相关文章

《OAuth2.0协议安全形式化分析-》----论文摘抄整理
---恢复内容开始--- 本篇论文发表在计算机工程与设计,感觉写的还是很有水准的.实验部分交代的比较清楚本篇论文的创新点: 使用Scyther工具主要是在 DY模型下面形式化分析了 OAuth2 ...
论文查重知网万方 paperpass
相信各个即将毕业的学生或在岗需要评职称.发论文的职场人士,论文检测都是必不可少的一道程序.面对市场上五花八门的检测软件,到底该如何选择?选择查重后到底该如何修改?现在就做一个知识的普及.其中对于中国的 ...
The Dataflow Model 论文
A Practical Approach to Balancing Correctness, Latency, and Cost in MassiveScale, Unbounded, OutofOr ...
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
Apache Spark RDD（Resilient Distributed Datasets）论文
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
智能机器人chatbot论文集合
机器不学习 jqbxx.com-专注机器学习,深度学习,自然语言处理,大数据,个性化推荐,搜索算法,知识图谱今年开始接触chatbot,跟着各种专栏学习了一段时间,也读了一些论文,在这里汇总一下.感 ...
Google关于Spanner的论文中分布式事务的实现
Google关于Spanner的论文中分布式事务的实现 Google在Spanner相关的论文中详细的解释了Percolator分布式事务的实现方式, 而且用简洁的伪代码示例怎么实现分布式事务; Pe ...
【论文】CornerNet：几点疑问
1.cornerpooling的设计,个人觉得解释有些牵强. 这里的两个特征图如何解释,corner点为何是横向与纵向响应最强的点.如果仅仅当成一种奇特的池化方式,恰好也有着不错的效果,那倒是可以接受 ...
[Berkeley]弹性分布式数据集RDD的介绍（RDD: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 论文翻译）
摘要: 本文提出了分布式内存抽象的概念--弹性分布式数据集(RDD,Resilient Distributed Datasets).它同意开发者在大型集群上运行基于内存的计算.RDD适用于两种 ...

随机推荐

C#与.Net Framework的各种版本和联系
C#是微软公司发布的一种面向对象的.运行于.NET Framework之上的高级程序设计语言.并定于在微软职业开发者论坛(PDC)上登台亮相.C#是微软公司研究员Anders Hejlsberg的最新 ...
Java方法的参数是按值传递的.【转】
在Java中,所有的方法参数,都是"按值传递". 有那么一种说法,Java中基本类型是按值传递,对象是按引用传递.这个说法其实是不确切的,确切的说法是 Java中基本类型将值作为参 ...
android布局1
第二类:属性值必须为id的引用名“@id/id-name” 仅RelativeLayout中有效 android:layout_below 在某元素的下方 android:la ...
WebService传递XML数据 C#DataSet操作XML 解析WebService返回的XML数据
Webservice传递的数据只能是序列化的数据,典型的就是xml数据. /// <summary> /// 通过用户名和密码返回下行数据 /// & ...
[Python笔记]第六篇:文件处理
本篇主要内容:open文件处理函数的使用 open函数,该函数用于文件处理操作文件时,一般需要经历如下步骤: 打开文件操作文件一.打开文件文件句柄 = open('文件路径', '模式') 打 ...
sublime text3 下搭建python IDE环境 --Anaconda插件篇
近来在园区发现大家使用ST3(Sublime text 3)工具进行python学习.然后自己也跟风了一把. 1.ST3下载地址: http://www.sublimetext.com/3 2.安装S ...
python之sys模块
38.python的sys模块: 用于提供对Python解释器相关的操作: 1 2 3 4 5 6 7 8 9 sys.argv 命令行参数List,第一个元素是程序本身路径 sy ...
POJ 2250(LCS最长公共子序列)
compromise Time Limit:1000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u Descri ...
reaver使用相关
(非TP-LINK路由推荐–d9 –t9参数防止路由僵死 reaver -i mon0 -b MAC -a -S –d9 –t9 -vv) 小结-学习时应因状况调整参数(-c后面都已目标频道为1作为例 ...
C++学习笔记--Season 2
一个简单的EGE程序: #include "graphics.h" //EGE库的头文件 int main(int argc, char** argv) { initgraph(, ...

论文摘抄 - FlumeJava