spark的thriftserver端口多少

2024-09-04

Spark ThriftServer使用的大坑

当用beeline连接default后,通过use xxx切换到其他数据库,再退出, 再次使用beeline -u jdbc:hive2://hadoop000:10000/default -n spark连接到default,此时后台连接的其实还是xxx 测试步骤: 1.beeline -u jdbc:hive2://hadoop000:10000/default -n spark 2.create database demo; 3.use demo; 4.退出beeline 5.beelin

编译spark支持thriftserver

cdh默认把spark的spark-sql以及hive-thriftserver给弃用掉了,想玩玩thriftserver,于是自己重新编译一个官网参考: http://spark.apache.org/docs/2.3.3/building-spark.html#building-a-runnable-distribution http://spark.apache.org/docs/2.3.3/sql-programming-guide.html#distributed-sql-engin

理解Spark SQL(一）—— CLI和ThriftServer

Spark SQL主要提供了两个工具来访问hive中的数据,即CLI和ThriftServer.前提是需要Spark支持Hive,即编译Spark时需要带上hive和hive-thriftserver选项,同时需要确保在$SPARK_HOME/conf目录下有hive-site.xml配置文件(可以从hive中拷贝过来).在该配置文件中主要是配置hive metastore的URI(Spark的CLI和ThriftServer都需要)以及ThriftServer相关配置项(如hive.serve

spark thriftserver

spark可以作为一个分布式的查询引擎,用户通过JDBC的形式无需写任何代码,写写sql就可以实现查询啦,spark thriftserver的实现也是相当于hiveserver2的方式,并且在测试时候,即可以通过hive的beeline测试也可以通过spark bin/下的beeline,不管通过哪个beeline链接,都要指定spark thriftserver的主机和端口(默认是10000),比如 beeline> !connect jdbc:hive2://host_ip:port sp

Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理

转载请注明出处:http://www.cnblogs.com/xiaodf/ 之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主要介绍Spark SQL JDBC方式操作Hive库时的身份认证和权限管理实现. ThriftServer是一个JDBC/ODBC接口,用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据.ThriftServer在启动的时候,会启动了一个sparkSQL的应用程序

[Spark SQL_3] Spark SQL 高级操作

0. 说明 DataSet 介绍 && Spark SQL 访问 JSON 文件 && Spark SQL 访问 Parquet 文件 && Spark SQL 访问 JDBC 数据库 && Spark SQL 作为分布式查询引擎 1. DataSet 介绍强类型集合,可以转换成并行计算. Dataset 上可以执行的操作分为 Transfermation 和 Action ,类似于 RDD. Transfermation 生成新的 Dat

CentOS6安装各种大数据软件第十章：Spark集群安装和部署

相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础软件的安装 CentOS6安装各种大数据软件第四章:Hadoop分布式集群配置 CentOS6安装各种大数据软件第五章:Kafka集群的配置 CentOS6安装各种大数据软件第六章:HBase分布式集群的配置 CentOS6安装各种大数据软件第七章:Flume安装与配置 CentOS6安装各

spark sql 对接 HDFS

上一篇博客我向大家介绍了如何快速地搭建spark run on standalone,下面我将介绍saprk sql 如何对接 hdfs 我们知道,在spark shell 中操作hdfs 上的数据是很方便的,但是操作也未免过于繁琐,幸好spark 还想用户提供另外两种操作 spark sql 的方式一 spark-sql 启动方式也比较简单如果不添加 hive.metastore.warehouse.dir hiveconf 这个参数,则启动的spark sql 是基于本地文件的,默认为

Spark动态资源分配-Dynamic Resource Allocation

微信搜索lxw1234bigdata | 邀请体验:数阅–数据管理.OLAP分析与可视化平台 | 赞助作者:赞助作者 Spark动态资源分配-Dynamic Resource Allocation Spark lxw1234@qq.com 4年前 (2015-12-31) 30544℃ 6评论关键字:spark.资源分配.dynamic resource allocation Spark中,所谓资源单位一般指的是executors,和Yarn中的Containers一样,在Spark On Y

spark 获取applicationID

在编写spark 程序时,有时需要获取job id 进行记录. 只需在程序中加入: sc.applicationId res0: String = app-- 每个job提交后, 均有自己的监控页面. 采用spark restful api 监控job时,如: curl 127.0.0.1:4040/api/v1/applications 时, 只能获取一个application的状态,这是因为,同时提交多个任务的的时候,默认的端口是从4040开始递增的, 即,第二个application 的

spark JAVA 开发环境搭建及远程调试

spark JAVA 开发环境搭建及远程调试以后要在项目中使用Spark 用户昵称文本做一下聚类分析,找出一些违规的昵称信息.以前折腾过Hadoop,于是看了下Spark官网的文档以及 github 上官方提供的examples,看完了之后决定动手跑一个文本聚类的demo,于是有了下文. 1. 环境介绍本地开发环境是:IDEA2018.JDK8.windows 10.远程服务器 Ubuntu 16.04.3 LTS上安装了spark-2.3.1-bin-hadoop2.7 看spark官网

spark配置参数

~/.bashrc export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin /usr/local/spark/conf/log4j.properties /usr/local/spark/conf/spark-env.sh export SPARK_MASTER_IP=master export SPARK_WORKER_CORES=XX export SPARK_WORKER_MEMORY=XXXm export

Spark SQL configuration

# export by: spark.sql("SET -v").show(n=200, truncate=False) key value meaning spark.sql.adaptive.enabled false When true, enable adaptive query execution. spark.sql.adaptive.shuffle.targetPostShuffleInputSize 67108864b The target post-shuffle i

Spark学习笔记——Spark Streaming

许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用, 还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码. Spark Streaming 使用离散化流( discretized stream)作为抽象表示, 叫作 DStream. DStream 是随时间推移而收到的数据的序列.在内部,每个时间区间收到

spark技术总结（1）

1. 请描述spark RDD原理与特征 RDD为Resilient Distributed Datasets缩写,译文弹性分布式数据集. 他是spark系统中的核心数据模型之一,另外一个是DAG模型. 它是“只读”,“分区”的数据集合.其类内部有5个部分组成: 1. 一组partition partitions_ : Array[Partition] 2.每个partition的计算函数通过诗选compute函数达到这个目的. 3.RDD依赖关系,新的RDD可以从已有的RDD转换而来,

[转] Spark sql 内置配置（V2.2）

[From] https://blog.csdn.net/u010990043/article/details/82842995 最近整理了一下spark SQL内置配.加粗配置项是对sparkSQL 调优性能影响比较大的项,小伙伴们按需酌情配置.后续会挑出一些通用调优配置,共大家参考.有不正确的地方,欢迎大家在留言区留言讨论. 配置项默认值概述 spark.sql.optimizer.maxIterations 100 sql优化器最大迭代次数 spark.sql.optimizer.in

Spark Streaming实战

1.Storm 和 SparkStreaming区别 Storm 纯实时的流式处理,来一条数据就立即进行处理 SparkStreaming 微批处理,每次处理的都是一批非常小的数据 Storm支持动态调整并行度(动态的资源分配),SparkStreaming(粗粒度, 比较消耗资源) Storm 优点 || 缺点 Storm 流式计算(扶梯) 优点:数据延迟度很低,Storm的事务机制要比SparkStreaming的事务机制要完善(什么是事

Spark 0.9.1和Shark 0.9.1分布式安装指南

目录目录 1 1. 约定 1 2. 安装Scala 1 2.1. 下载 2 2.2. 安装 2 2.3. 设置环境变量 2 3. 安装Spark 2 3.1. 部署 2 3.2. 下载 3 3.3. 安装 3 3.4. 配置 3 3.4.1. 修改conf/spark-env.sh 3 3.4.2. 修改conf/slaves 3 4. 启动Spark 3 5. 安装Shark 4 5.1. 下载 4 5.2. 安装 4 5.3. 配置 4 5.3.1. 修改shark-env.sh 4 6.

Hadoop端口一览表

Hadoop端口一览表 @(Hadoop) 端口名用途 50070 Hadoop Namenode UI端口 50075 Hadoop Datanode UI端口 50090 Hadoop SecondaryNamenode 端口 50030 JobTracker监控端口 50060 TaskTrackers端口 8088 Yarn任务监控端口 60010 Hbase HMaster监控UI端口 60030 Hbase HRegionServer端口 8080 Spark监控UI端口 4040

05、Spark

05.Spark shell连接到Spark集群执行作业 5.1 Spark shell连接到Spark集群介绍 Spark shell可以连接到Spark集群,spark shell本身也是spark的一个应用,是和Spark集群的一种交互方式.每次action动作的执行,都会对应一个job. 5.2 连接方式指定 #进入Spark bin目录 $>cd /soft/spark/bin #连接到Spark master的RPC端口 $>spark-shell --master spark:/

Spark集群-Standalone 模式

Spark 集群相关 table td{ width: 15% } 来源于官方, 可以理解为是官方译文, 外加一点自己的理解. 版本是2.4.4 本篇文章涉及到: 集群概述 master, worker, driver, executor的理解打包提交,发布 Spark application standalone模式 SparkCluster 启动及相关配置资源, executor分配开放网络端口高可用(Zookeeper) 名词解释 Term(术语) Meaning(含义) App

spark的thriftserver端口多少

热门专题