先抛出问题:Spark on Yarn有cluster和client两种模式,它们有什么区别? 用Jupyter写Spark时,只能使用client模式,为什么? 写一篇文章,搞清楚 Spark on Yarn 的运行原理,同时回答上面的问题. 首先,把Spark和Yarn当做两个独立概念来看.单看Spark,不去管它底层依赖的存储结构,本质上讲,它就是个分布式计算的程序.程序的入口是一个叫做 SparkContext 的对象,也可以抽象地称为Driver,启动了 SparkContext 后,…