1.Yarn运行模式介绍 Yarn运行模式就是说Spark客户端直接连接Yarn,不需要额外构建Spark集群.如果Yarn是分布式部署的,那么Spark就跟随它形成了分布式部署的效果.有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点. yarn-client:Driver程序运行在客户端,适用于交互.调试,希望立即看到app的输出 yarn-cluster:Driver程序运行在由RM(ResourceManager)启动的AP(APPMas…
Spark SQL快速入门 本地表 (1)准备数据 [root@node1 ~]# mkdir /tmp/data [root@node1 ~]# cat data/ml-1m/users.dat |tr -s "::" "," >> /tmp/data/users.dat [root@node1 ~]# tail - /tmp/data/users.dat ,F,,, ,F,,, ,F,,, ,F,,, ,M,,, [root@node1 ~]# (2…
1.RDD的局限性 RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义. RDD需要用户自己优化程序,对程序员要求较高. 从不同数据源读取数据相对困难. 合并多个数据源中的数据也较困难. 2 DataFrame和Dataset (1)DataFrame 由于RDD的局限性,Spark产生了DataFrame. DataFrame=RDD+Schema 其中Schema是就是元数据,是语义描述信息. 在Spark1.3之前,DataFrame被称为SchemaRDD.以行为单位构成的分…
Spark SQL所支持的SQL语法 select [distinct] [column names]|[wildcard] from tableName [join clause tableName on join condition] [where condition] [group by column name] [having conditions] [order by column names [asc|desc]] 如果只用join进行查询,则支持的语法为: select state…
不多说,直接上干货! 问题详情 电脑8G,目前搭建3节点的spark集群,采用YARN模式. master分配2G,slave1分配1G,slave2分配1G.(在安装虚拟机时) export SPARK_WORKER_MERMORY=1g  (在spark-env.sh) export JAVA_HOME=/usr/local/jdk/jdk1.8.0_60 (必须写) export SCALA_HOME=/usr/local/scala/scala-2.10.5 (必须写) export H…
spark on yarn模式下配置spark-sql访问hive元数据 目的:在spark on yarn模式下,执行spark-sql访问hive的元数据.并对比一下spark-sql 和hive的效率. 软件环境: hadoop2.7.3 apache-hive-2.1.1-bin spark-2.1.0-bin-hadoop2.7 jd1.8 hadoop是伪分布式安装的,1个节点,2core,4G内存. hive是远程模式. spark的下载地址: http://spark.apach…
不多说,直接上干货! 问题详情 电脑8G,目前搭建3节点的spark集群,采用YARN模式. master分配2G,slave1分配1G,slave2分配1G.(在安装虚拟机时) export SPARK_WORKER_MERMORY=1g  (在spark-env.sh) export JAVA_HOME=/usr/local/jdk/jdk1..0_60 (必须写) export SCALA_HOME=/usr/local/scala/scala- (必须写) export HADOOP_H…
说白了 Spark on YARN模式的安装,它是非常的简单,只需要下载编译好Spark安装包,在一台带有Hadoop YARN客户端的的机器上运行即可.  Spark on YARN简介与运行wordcount(master.slave1和slave2)(博主推荐) Spark on YARN分为两种: YARN cluster(YARN standalone,0.9版本以前)和 YARN client.    如果需要返回数据到client就用YARN client模式. 如果数据存储到hd…
为什么要提出这个问题? spark跑YARN模式或Client模式提交任务不成功(application state: ACCEPTED) 然后执行 [spark@master spark--bin-hadoop2.]$ su root Password: [root@master spark--bin-hadoop2.]# echo > /proc/sys/vm/drop_caches [root@master spark--bin-hadoop2.]# echo > /proc/sys/v…
1. AQS共享模式 前面已经说过了AQS的原理及独享模式的源码分析,今天就来学习共享模式下的AQS的几个接口的源码. 首先还是从顶级接口acquireShared()方法入手: public final void acquireShared(int arg) { if (tryAcquireShared(arg) < 0) doAcquireShared(arg); } 与acquire()方法一样,tryAcquireShared()为自己是实现的对资源获取的接口,AQS对返回值的语义已经定…