本文节选不保证论文的完整性和理解的准确性

原始的MapReduce。分Map，Shuffle，Reduce。

Map里包含shards。

Shuffle理解为groupByKey的事情。Reduce里包含Combiner，能够定义Sharder来控制key怎么和Reducer worker相应起来。

核心抽象和基本原语

PCollection<T>是一个不可变的bag。能够是有序的(Sequence)，也能够是无序的(Collection)。PCollection能够来自于内存里的Java PCollection对象。也能够读取自文件。

PTable<K, V>，能够看成PCollection<Pair<K, V>>，不可变无序multi-map。

第一个原语是parallelDo()。把PCollection<T>变成新的PCollection<S>，处理方式定义在DoFn<T, S>里。emitFn是call-back，传给用户的process(…)，使用emitFn.emit(outElem)发射出去。parallelDo()能够在map或reduce中使用，DoFn不应该使用闭包外全局的变量，(inline function)纯操作自己的inputs。

第二个原语是groupByKey()。把PTable<K, V>转变成PTable<K,Collection<V>>，

第三个原语是combineValues()，接收input为PTable<K,Collection<V>>和一个V的符合结合律的方法，返回PTable<K, V>。

第四个原语是flatten()，接收一个PCollection<T>的list，返回一个PCollection<T>

衍生原语(Derived Operations)

count()，接收PCollection<T>，返回PTable<T, Integer>

实现方式为parallelDo()。groupByKey()和combineValues()

join()，接收PTable<K, V1>，PTable<K, V2>。返回PTable<K,Tuple2<Collection<V1>, Collection<V2>>

实现方式为，第一步，使用parallelDo()把每一个input PTable<K, Vi>变成通用的PTable<K, TaggedUnion2<V1,V2>>。第二步使用flattern来combine tables；第三步。使用groupByKey()作用于被扁平过了tables。产生PTable<K,Collection<TaggedUnion2<V1, V2>>>

top()，接收比較函数和N，

实现方式为parallelDo()，groupByKey()和combineValues()

延迟分析(Deffered Evaluation)

PCollection对象有两种状态，defferred或materialized。

FlumeJava.run()真正触发execution plan的物化/运行。

PObjects

PObject<T>用于存储Java对象，物化过了之后能够使用getValue()方法获得PObject的值。有点像Future。

operate()方法

优化器

parallelDoFusion(融合)

Producer-Consumer and Sibling Fusion，例如以下图

大致是说，ABCD这几种由同一份input产生的parallelDo。能够融合起来在一个parallelDo，即A+B+C+D，里处理。

一些中间结果也能够不要。

MapShuffleCombineReduce(MSCR) Operation

FlumeJava优化器的核心在于把ParallelDo。GroupByKey，CombineValues和Flattern的组合转换成一个个单个的MapReduce。

MSCR是一个中间层的操作，有M个input channels(每一个能够进行map操作)。有R个Reduce channels(每一个能够进行shuffle，或combine，或reduce操作)。

单个input channal m，接收PCollection<T_m>作为输入，运行R路output输出的ParallelDo “map”操作。产生R个PTable<K_r, V_s> outputs。每一个output channel r flatterns它的M个inputs，然后

a) 进行一次GroupByKey的“shuffle”，或CombineValues的“combine”。或O_r-output的ParallelDo “reduce”，然后把结果写出到O_r-output PCollections

b) 把inputs直接写出为outputs

前者这种output channel称为”Grouping” channel，后者称为”pass-through” channel。”pass-through” channel同意map的output成为一个MSCR操作的输出。

每一个MSCR操作能够用一个MapReduce完毕。它让MapReduce更加通用，体如今：

Ø 同意多个reducers和combiners。

Ø 同意每一个reducer产生多个outputs；

Ø 消除了每一个reducer必须以同样的key为input来产出output的约束；

Ø 同意pass-through形式的outputs。

所以MSCR是优化器里非常好的一个中间操作目标。

MSCR Fusion

MSCR操作产生于一些相关的GroupByKey操作集合。相关的GroupByKey操作是指产生于同样的input(如Flattern操作)，或被同一个parallelDo操作制造出来的input。

这部分比較晦涩难懂啊。可是是理解核心

全局优化策略

优化要达到的效果是最后的运行计划里包含尽可能少的又高效的MSCR操作。

1. Sink Flatterns。把扁平操作下沉，如h(f(a)+f(b))=> h(f(a))+h(f(b))，即分配律。然后又能和parallelDo的融合特性结合起来，如(hof)(a)+(hog)(b)

2. Lift CombineValues。假设CombineValues紧跟着GroupByKey操作。

3. Insert fusion blocks。假设俩GroupByKey操作是由生产者-消费者的ParallelDo chain连起来的。ParallelDo要在GroupByKey里做上调和下移。

4. Fuse ParallelDos。

5. Fuse MSCRs。

针对这几个策略的实施。后面举了个样例而且描绘了详细的运行图。非常帮助理解

优化的不足和未来工作

优化器没有分析用户写的方法，比方估算input和output数据量大小。

也没有改动用户的代码来做优化。

须要做一些分析避免运算的反复，及去除不必要或不合理的groupByKey。

Executor

优化运行结束后。

它现在支持batch该模式提交作业。

在操作。FlumeJava做到人性化发展、debug，创建自己主动删除文件。自己主动识别数据并行调整操作量，改变操作模式(remote)而这样的事情。

掌声 :)

本文摘录 - FlumeJava的更多相关文章

本文摘录 - Infobright
背景论文 Brighthouse: AnAnalytic Data Warehouse for Ad-hoc Queries.VLDB 2008 brighthouse它是一个面向列的数据仓库.在数 ...
effective C++学习三（仅供个人学习记录，本文摘录effective C++）
条款 3:尽量用 new 和 delete 而不用 malloc 和 free 把 new和 delete 与malloc 和 free 混在一起用也是个坏想法.对一个用 new 获取来的指针调用 ...
effective C++学习二（仅供个人学习记录，本文摘录effective C++）
条款 2:尽量用<iostream>而不用<stdio.h> scanf 和 printf 很轻巧,很高效,你也早就知道怎么用它们,这我承认.但尽管他们很有用,事实上 sca ...
effective C++学习一（仅供个人学习记录，本文摘录effective C++）
条款 1:尽量用 const 和 inline 而不用#define #define ASPECT_RATIO 1.653 编译器会永远也看不到 ASPECT_RATIO 这个符号名,因为在源码进 ...
高效CSS开发核心要点摘录
做网站的,我们都知道尽量减少请求数,压缩CSS代码量,使用高效CSS选择符等方式可以来提高网站的载入速度和访问速度,也就是优化网站的性能. 下面分析了一些CSS的书写方式,很多都是我们知道并且正在使用 ...
What's new in Windows 10 Enterprise with Microsoft Edge.(Windows 10 新功能)
What's new in Windows 10 Enterprise with Microsoft Edge --带有Edge浏览器的Windows 10 企业版的新功能本文摘录自公司群发邮件, ...
UART to Serial Terminal(转载)
前一篇<UART Explained>介绍了UART的基本信息,重点分析了UART的信号.本文摘录的文章则重点介绍了波特率(Baud Rate)相关的内容,波特率越高,传输速度越快,但实际 ...
Node 进阶：express 默认日志组件 morgan 从入门使用到源码剖析
本文摘录自个人总结<Nodejs学习笔记>,更多章节及更新,请访问 github主页地址.欢迎加群交流,群号 197339705. 章节概览 morgan是express默认的日志中间件, ...
Nodejs进阶：如何玩转子进程（child_process）
本文摘录自个人总结<Nodejs学习笔记>,更多章节及更新,请访问 github主页地址.欢迎加群交流,群号 197339705. 模块概览在node中,child_process这个模 ...

随机推荐

sublime课程3 emmet插件中的常用符号有哪些
sublime课程3 emmet插件中的常用符号有哪些一.总结一句话总结:emmet插件中的符号和css选择器里面哪些符号的意思很像. 1.+是干嘛的? 组合 2.{}是干嘛的? 标签里面的inn ...
Spring+Netty+WebSocket实例
比较贴近生产,详见注释一.pom.xml 具体太长,详见源码 </dependency> <dependency> <groupId>io.netty</g ...
Android Widget和悬浮窗原理
1.简单介绍 Android widget是桌面插件,在android系统应用开发层面有特殊用途. AppWidget是把一个进程的控件嵌入到别外一个进程的窗口里的一种方法.悬浮窗的效果与Widget ...
jquery 点击其他地方
<script type="text/javascript"> function stopPropagation(e) { if (e.stopPropagation) ...
Java高级个人笔记(RandomStringUtils工具类)
//产生5位长度的随机字符串,中文环境下是乱码 RandomStringUtils.random(5); //使用指定的字符生成5位长度的随机字符串 RandomStringUtils.random( ...
[Ramda] Convert Object Methods into Composable Functions with Ramda
In this lesson, we'll look at how we can use Ramda's invoker and constructNfunctions to take methods ...
[Ramda] Pick and Omit Properties from Objects Using Ramda
Sometimes you just need a subset of an object. In this lesson, we'll cover how you can accomplish th ...
Erlang 杂记
学习Erlang的时候在书的留白处随手记录了一些东西,还有一些记录在了demo的注释里面,今天抽时间整理出来了一部分,分享一下. Erlang的设计哲学是为每一个独立的事件创建一个新进程. Erlan ...
Android Studio 如何打JAR包（修订版）
AndroidStudio项目打包成jar 前言:在eclipse中我们知道如何将一个项目导出为jar包,现在普遍AndroidStuido开发,这里一步一步详加介绍AS项目打包成jar,jar和ar ...
【PHP Manager for IIS】让IIS支持PHP
本文安装环境: 操作系统:Win7 64位 PHP版本:PHP 5.5.15(VC11 x64 Thread Safe) 下载地址:http://windows.php.net/download ...

本文摘录 - FlumeJava