spark thriftserver】的更多相关文章

spark可以作为一个分布式的查询引擎,用户通过JDBC的形式无需写任何代码,写写sql就可以实现查询啦,spark thriftserver的实现也是相当于hiveserver2的方式,并且在测试时候,即可以通过hive的beeline测试也可以通过spark bin/下的beeline,不管通过哪个beeline链接,都要指定spark thriftserver的主机和端口(默认是10000),比如 beeline> !connect jdbc:hive2://host_ip:port sp…
当用beeline连接default后,通过use xxx切换到其他数据库,再退出, 再次使用beeline -u jdbc:hive2://hadoop000:10000/default -n spark连接到default,此时后台连接的其实还是xxx 测试步骤: 1.beeline -u jdbc:hive2://hadoop000:10000/default -n spark 2.create database demo; 3.use demo; 4.退出beeline 5.beelin…
Spark SQL主要提供了两个工具来访问hive中的数据,即CLI和ThriftServer.前提是需要Spark支持Hive,即编译Spark时需要带上hive和hive-thriftserver选项,同时需要确保在$SPARK_HOME/conf目录下有hive-site.xml配置文件(可以从hive中拷贝过来).在该配置文件中主要是配置hive metastore的URI(Spark的CLI和ThriftServer都需要)以及ThriftServer相关配置项(如hive.serve…
启动hiveserver2: hiveserver2 --hiveconf hive.execution.engine=spark spark.master=yarn 使用beeline连接hiveserver2: beeline -u jdbc:hive2://hadoop000:10000 -n spark 注意:每个beeline对应一个SparkContext,而在Spark thriftserver中,多个beeline共享一个SparkContext 可以通过YARN监控页面观察到:…
当Spark程序在运行时,会提供一个Web页面查看Application运行状态信息.是否开启UI界面由参数spark.ui.enabled(默认为true)来确定.下面列出Spark UI一些相关配置参数,默认值,以及其作用. 参数 默认值 作用描述 spark.ui.enabled true 是否开启UI界面 spark.ui.port 4040(顺序探查空闲端口) UI界面的访问端口号 spark.ui.retainedJobs 1000 UI界面显示的Job个数 spark.ui.ret…
设计背景 spark thriftserver目前线上有10个实例,以往通过监控端口存活的方式很不准确,当出故障时进程不退出情况很多,而手动去查看日志再重启处理服务这个过程很低效,故设计利用Spark streaming去实时获取spark thriftserver的log,通过log判断服务是否停止服务,从而进行对应的自动重启处理,该方案能达到秒级 7 * 24h不间断监控及维护服务. 设计架构 在需要检测的spark thriftserver服务节点上部署flume agent来监控日志流…
1. 请描述spark RDD原理与特征 RDD为Resilient Distributed Datasets缩写,译文弹性分布式数据集. 他是spark系统中的核心数据模型之一,另外一个是DAG模型. 它是“只读”,“分区”的数据集合.其类内部有5个部分组成: 1. 一组partition    partitions_ : Array[Partition] 2.每个partition的计算函数 通过诗选compute函数达到这个目的. 3.RDD依赖关系,新的RDD可以从已有的RDD转换而来,…
本教程记录 spark 1.3.1 版本的thriftserver 的metastore 对接 postgresql postgresql 的编译,参考:http://www.cnblogs.com/chenfool/p/4530925.html 一 启动postgresql 服务 1 首先需要将postgresql 的lib 加载到 LD_LIBRARY_PATH 环境变量中 export LD_LIBRARY_PATH=/opt/sequoiadb/lib:${LD_LIBRARY_PATH…
问题: 线上的spark thriftserver运行一段时间以后,ui的executor页面上显示大量的active task,但是从job页面看,并没有任务在跑.此外,由于在yarn mode下,默认情况是一个executor只能有一个active task,但是executor页面的active task却可以有多个.而且在没有任务在跑的情况下,动态资源你分配不能生效,spark thriftserver在空闲的情况下资源得不到释放. 问题排查: 1,看到某个executor有大量的act…
spark动态资源调整其实也就是说的executor数目支持动态增减,动态增减是根据spark应用的实际负载情况来决定. 开启动态资源调整需要(on yarn情况下) 1.将spark.dynamicAllocation.enabled设置为true.意思就是启动动态资源功能 2.将spark.shuffle.service.enabled设置为true. 在每个nodeManager上设置外部shuffle服务 2.1 将spark-<version>-yarn-shuffle.jar拷贝到…