Physical Plan生成过程

优化后的逻辑运行计划被LogToPhyTranslationVisitor处理，生成物理运行计划。

这是一个经典的Vistor设计模式应用场景。

当中，LogToPhyTranslationVisitor的visit()为入口方法，通过DependencyOrderWalker遍历处理逻辑运行计划中的每个LogicalRelationalOperator。DependencyOrderWalker依照依赖顺序遍历DAG中节点，保证当且仅当节点的全部前驱都被訪问后，它才会被訪问。核心逻辑例如以下，doAllPredecessors递归调用自己，将符合无前驱条件的节点加入到fifo队列中，终于实现的效果等效于将图拓扑排序后顺序訪问。

public void walk(PlanVisitorvisitor) throws FrontendException {

        List<Operator> fifo = new ArrayList<Operator>();

        Set<Operator> seen = new HashSet<Operator>();

        List<Operator> leaves = plan.getSinks();

        if (leaves == null) return;

        for (Operator op : leaves) {

            doAllPredecessors(op, seen, fifo);

        }

        for (Operator op: fifo) {

            op.accept(visitor);

        }

}

接下来，每一个LogicalRelationalOperator又反过来调用LogToPhyTranslationVisitor对应的visit方法对自身进行处理，转化成PhysicalOperator。终于生成完整的逻辑运行计划。下图是LogToPhyTranslationVisitor中全部的visit
operator方法。

Physical Plan结构

分析之前Pig系统分析（3）中代码生成的运行计划，如图所看到的：

以下是完整的物理运行计划。物理运行计划与逻辑运行计划结构类似，部分Operator一一相应，但存在几个明显差别：

物理运行计划中包括了实际使用的Loader和Store，以及要操作的文件实际路径。
Group操作被分成了三部分：Local Rearrage、Global Rearrange和Package。（分别相应map-reduce中的map、shuffle和reduce）
非replicate的join操作先被转换成CoGroup和Foreach操作，然后CoGroup操作与Group操作类似，也被转换为Local Rearrage，Global Rearrange和Package三步。

F:Store(output:org.apache.pig.builtin.PigStorage) - scope-28

|

|---F: New ForEach(false,false)[bag] - scope-27

    |   |

    |  Project[bytearray][0] - scope-22

    |   |

    |  POUserFunc(org.apache.pig.builtin.COUNT)[long] - scope-25

    |   |

    |  |---Project[bag][1] - scope-24

    |

    |---E: Package[tuple]{bytearray} - scope-19

        |

        |---E: Global Rearrange[tuple] -scope-18

            |

            |---E: LocalRearrange[tuple]{bytearray}(false) - scope-20

                |   |

                |   Project[bytearray][2] - scope-21

                |

                |---D: New ForEach(true,true)[tuple] - scope-17

                    |   |

                    |   Project[bag][1] - scope-15

                    |   |

                    |   Project[bag][2] - scope-16

                    |

                    |---D:Package[tuple]{bytearray} - scope-10

                        |

                        |---D: GlobalRearrange[tuple] - scope-9

                            |

                            |---D: LocalRearrange[tuple]{bytearray}(false) - scope-11

                            |   |   |

                            |   |  Project[bytearray][0] - scope-12

                            |   |

                            |   |---C: Filter[bag] - scope-1

                            |       |  |

                            |       |  Greater Than[boolean] - scope-5

                            |       |  |

                            |       |  |---Cast[int] - scope-3

                            |       |  |   |

                            |      |   |   |---Project[bytearray][1] - scope-2

                            |       |  |

                            |       |  |---Constant(0) - scope-4

                            |       |

                            |       |---A: Load(file:///D:/Develop/projects/pig/file1:org.apache.pig.builtin.PigStorage)- scope-0

                            |

                            |---D: LocalRearrange[tuple]{bytearray}(false) - scope-13

                                |   |

                                |  Project[bytearray][1] - scope-14

                                |

                                |---B:Load(file:///D:/Develop/projects/pig/file2:org.apache.pig.builtin.PigStorage) -scope-6

PhysicalPlan类代表物理运行计划，继承自OperatorPlan。（继承时会使用PhysicalOperator替换以下代码片段中泛型參数E）

public abstract class OperatorPlan<E extends Operator> implements Iterable<E>, Serializable, Cloneable {

    protected Map<E, OperatorKey> mOps;

    protected Map<OperatorKey, E> mKeys;

    protected MultiMap<E, E> mFromEdges;

    protected MultiMap<E, E> mToEdges;

}

Pig系统分析(5)-从Logical Plan到Physical Plan的更多相关文章

Pig系统分析(6)-从Physical Plan到MR Plan再到Hadoop Job
从Physical Plan到Map-Reduce Plan 注:由于我们重点关注的是Pig On Spark针对RDD的运行计划,所以Pig物理运行计划之后的后端參考意义不大,这些部分主要分析流程, ...
第六篇：Spark SQL Catalyst源码分析之Physical Plan
/** Spark SQL源码分析系列文章*/ 前面几篇文章主要介绍的是spark sql包里的的spark sql执行流程,以及Catalyst包内的SqlParser,Analyzer和Optim ...
Catalyst揭秘 Day6 Physical plan解析
Catalyst揭秘 Day6 Physical plan解析物理计划是Spark和Sparksql相对比而言的,因为SparkSql是在Spark core上的一个抽象,物理化就是变成RDD,是S ...
第七篇：Spark SQL 源码分析之Physical Plan 到 RDD的具体实现
/** Spark SQL源码分析系列文章*/ 接上一篇文章Spark SQL Catalyst源码分析之Physical Plan,本文将介绍Physical Plan的toRDD的具体实现细节: ...
Pig系统分析(8)-Pig可扩展性
本文是Pig系统分析系列中的最后一篇了,主要讨论怎样扩展Pig功能.不仅介绍Pig本身提供的UDFs扩展机制,还从架构上探讨Pig扩展可能性. 补充说明:前些天同事发现twitter推动的Pig On ...
Spark SQL 源代码分析之Physical Plan 到 RDD的详细实现
/** Spark SQL源代码分析系列文章*/ 接上一篇文章Spark SQL Catalyst源代码分析之Physical Plan.本文将介绍Physical Plan的toRDD的详细实现细节 ...
ADF_Database Develop系列2_通过UML数据库开发之将Logical UML转为Physical Models
2013-05-01 Created By BaoXinjian
Pig系统分析(7)-Pig有用工具类
Explain Explain是Pig提供的调试工具,使用explain能够输出Pig Lation的运行计划.值得一提的是,explain支持-dot选项.将运行计划以DOT格式输出, (DOT是一 ...
Spark SQL源码解析（四）Optimization和Physical Planning阶段解析
Spark SQL原理解析前言: Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述 Spark SQL源码解析(二)Antlr4解析Sql并生成树 Spark SQL源码解析(三 ...

随机推荐

微信 JS API 支付教程
最近一个项目中用到了微信开发,之前没有做过支付相关的东西,算是拿这个来练练手,刚开始接触支付时候很懵逼,加上微信支付开发文档本来就讲得不清楚,我是彻底蒙圈了,参考了很多代码之后,算是有一点思路了. 用 ...
HTML网页自动跳转
<meta http-equiv="refresh" content="3;URL=res.html">
（四）Jsoup 获取 DOM 元素属性值
第一节: Jsoup 获取 DOM 元素属性值 Jsoup获取DOM元素属性值比如我们要获取博客的href属性值: 我们这时候就要用到Jsoup来获取属性的值 : 我们给下示例代码: package ...
node模拟socket
什么是Socket?网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接的一端称为一个socket. Socket通信流程基于net模块实现socket 服务端SocketServer.j ...
afl入门学习
一个简单的示例安装afl wget http://lcamtuf.coredump.cx/afl.tgz tar xfz afl.tgz cd afl-xxx sudo make install 用 ...
SQL 2008 还原SQL 2005备份文件不成功的解决方
在SQL Server 2008 r2上还原一个SQL Server 2005时,还原不成功,提示如下信息: 按照如下情况则还原成功: -- 查看备份文件的类型 RESTORE FILELISTONL ...
iOS模块器截屏闪退
最近不知道什么原因,iOS模块器截屏命令点击模拟器就闪退,在此记录下在命令行截屏操作: 第一步:打开对应的模拟器第二步:模拟器缩放比为100% 第三步:输入以下命令,001.jpg为要保存的文件名 ...
USACO 6.1 Postal Vans（一道神奇的dp）
Postal Vans ACM South Pacific Region -- 2003 Tiring of their idyllic fields, the cows have moved to ...
USACO 4.4 Shuttle Puzzle
Shuttle PuzzleTraditional The Shuttle Puzzle of size 3 consists of 3 white marbles, 3 black marbles, ...
Server sent passive reply with unroutable address. Using server address instead
最近在linux服务器安装vsftp服务.经过一轮设置,终于可以连接上了,用winSCP连接,刷新目录就提示这个错误. 解决办法: vim /etc/vsftpd.conf ,编辑配置文件,最后加上 ...

Pig系统分析(5)-从Logical Plan到Physical Plan

Physical Plan生成过程

Physical Plan结构

Pig系统分析(5)-从Logical Plan到Physical Plan的更多相关文章

随机推荐

热门专题