Spark TempView和GlobalTempView的区别

TempView和GlobalTempView在spark的Dataframe中经常使用，两者的区别和应用场景有什么不同。

我们以下面的例子比较下两者的不同。

from pyspark.sql import SparkSession

import numpy as np

import pandas as pd

spark = SparkSession.builder.getOrCreate()

d = np.random.randint(1,100, 5*5).reshape(5,-1)

data = pd.DataFrame(d, columns=list('abcde'))

df = spark.createDataFrame(data)

df.show()

+---+---+---+---+---+

|  a|  b|  c|  d|  e|

+---+---+---+---+---+

| 17| 30| 61| 61| 33|

| 32| 23| 24|  7|  7|

| 47|  6|  4| 95| 34|

| 50| 69| 83| 21| 46|

| 52| 12| 83| 49| 85|

+---+---+---+---+---+

从tempview中取数据

temp = df.createTempView('temp')

temp_sql = "select * from temp where a=50"

res = spark.sql(temp_sql)

res.show()

+---+---+---+---+---+

|  a|  b|  c|  d|  e|

+---+---+---+---+---+

| 50| 69| 83| 21| 46|

+---+---+---+---+---+

从globaltempview中取数据

glob = df.createGlobalTempView('glob')

glob_sql = "select * from global_temp.glob where a = 17"

res2 = spark.sql(glob_sql)

res2.show()

+---+---+---+---+---+

|  a|  b|  c|  d|  e|

+---+---+---+---+---+

| 17| 30| 61| 61| 33|

+---+---+---+---+---+

Globaltempview 数据可以在多个sparkSession中共享

# 创建新的sparkSession

spark2 = spark.newSession()

spark2 == spark

False

# 新的sparkSession可以获取globaltempview中的数据

new_sql = "select * from global_temp.glob where a = 47"

temp = spark2.sql(new_sql)

temp.show()

+---+---+---+---+---+

|  a|  b|  c|  d|  e|

+---+---+---+---+---+

| 47|  6|  4| 95| 34|

+---+---+---+---+---+

# 新的sparkSession无法获取tempview中的数据

# 会提示找不到temp表

new_sql2 = "select * from temp where a = 47"

temp = spark2.sql(new_sql2)

temp.show()

# 使用global_temp前缀也不行

new_sql2 = "select * from global_temp.temp where a = 47"

temp = spark2.sql(new_sql2)

temp.show()

---------------------------------------------------------------------------

Py4JJavaError                             Traceback (most recent call last)

# 此处多行删除异常信息

AnalysisException: "Table or view not found: `global_temp`.`temp`; line 1 pos 14;\n'Project [*]\n+- 'Filter ('a = 47)\n   +- 'UnresolvedRelation `global_temp`.`temp`\n"

tempview删除后无法使用

spark.catalog.dropTempView('temp')

spark.catalog.dropGlobalTempView('glob')

# 报错，找不到table temp

temp_sql2 = "select * from temp where a = 47"

temp = spark.sql(temp_sql2)

# 报错，找不到global_temp.glob，spark和spark2中均报错

glob_sql2 = "select * from global_temp.glob where a = 47"

temp = spark.sql(glob_sql2)

temp = spark2.sql(glob_sql2)

总结

spark中有四个tempview方法

df.createGlobalTempView
df.createOrReplaceGlobalTempView
df.createOrReplaceTempView
df.createTempView

replace方法：不存在则直接创建，存在则替换

tempview删除后无法使用

两个删除方法

spark.catalog.dropTempView('temp')

spark.catalog.dropGlobalTempView('glob')

TempView和GlobalTempView的异同

tempview只能在一个sparkSession中使用
GlobaltempView可以在多个sparkSession中共享使用
但是他们都不能跨Application使用

Spark TempView和GlobalTempView的区别的更多相关文章

spark中map与mapPartitions区别
在spark中,map与mapPartitions两个函数都是比较常用,这里使用代码来解释一下两者区别 import org.apache.spark.{SparkConf, SparkContext ...
[Spark RDD_add_1] groupByKey & reduceBykey 的区别
[groupByKey & reduceBykey 的区别] 在都能实现相同功能的情况下优先使用 reduceBykey Combine 是为了减少网络负载 1. groupByKey 是没有 ...
spark 的createDstream和createDirectStream区别
spark读取kafka数据流提供了两种方式createDstream和createDirectStream. 两者区别如下: 1.KafkaUtils.createDstream 构造函数为Kafk ...
MR的shuffle和Spark的shuffle之间的区别
mr的shuffle mapShuffle 数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的在某个节点上启动了map Task,map Task读取是通 ...
spark的flatMap和map区别
map()是将函数用于RDD中的每个元素,将返回值构成新的RDD. flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD,这样就得到了一个由各列表中的元素组成的R ...
spark coalesce和repartition的区别和使用场景
区别: repartition底层调用的是coalesce方法,默认shuffle def repartition(numPartitions: Int)(implicit ord: Ordering ...
spark map和mapPartitions的区别
package dayo1 import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.Arra ...
spark:reducebykey与groupbykey的区别
从源码看: reduceBykey与groupbykey: 都调用函数combineByKeyWithClassTag[V]((v: V) => v, func, func, partition ...
zhihu spark集群,书籍,论文
spark集群中的节点可以只处理自身独立数据库里的数据,然后汇总吗? 修改我将spark搭建在两台机器上,其中一台既是master又是slave,另一台是slave,两台机器上均装有独立的mongo ...

随机推荐

Java实现第八届蓝桥杯纸牌三角形
纸牌三角形题目描述 A,2,3,4,5,6,7,8,9 共9张纸牌排成一个正三角形(A按1计算).要求每个边的和相等. 下图就是一种排法(如有对齐问题,参看p1.png). A 9 6 4 8 3 ...
Linux磁盘空间容量不够-通过新增磁盘-挂载原磁盘
首先上一张图 -------1)首先fdisk 一块磁盘并格式化 mkfs.ext4 /dev/sda15 --------2)将此磁盘挂载在mnt目录下,并将磁盘容量不够的磁盘所有文件进行复制到mn ...
网络编程-Netty-Reactor模型
目录 # 摘要高性能服务器 Reactor模式 Reactor单线程模型设计 Reactor多线程模型设计主从Reactor多线程模型设计 Netty Reactor模型设计参考你的鼓励也是我 ...
关于Graph Convolutional Network的初步理解
为给之后关于图卷积网络的科研做知识积累,这里写一篇关于GCN基本理解的博客.GCN的本质是一个图网络中,特征信息的交互+与传播.这里的图指的不是图片,而是数据结构中的图,图卷积网络的应用非常广泛 ,经 ...
ffmpeg m3u8生成剪辑及格式转换
使用 ffmpeg 工具, 生成 m3u8 文件 ffmpeg -re -i 03.ts -c copy -f hls -hls_base_url /Users/admin/Downloads/dow ...
Spyder汉化教程
汉化包下载地址:https://www.lizenghai.com/archives/523.html 1.解压汉化包 2. 3.1.运行汉化补丁PS C:\WINDOWS\system32> ...
kafka架构、基本术语、消息存储结构
1.kafka架构 kafka处理消息大概流程生产者发送消息给kafka服务器消费者从kafka服务器(broker)读取消息 kafka服务器依靠zookeeper集群进行服务协调管理 2.ka ...
logrotate 如何执行日志按照大小切分
说在最先的话,logrotate要设置按照文件大小来配置日志切分,需要通过三个东西. 1.配置logrotate 的配置文件命名未任意文件,在启动的时候指定,例如/etc/weblog.conf 参 ...
十几万条数据的表中，基于帝国cms 。自己亲身体验三种批量更新数据的方法，每一种的速度是什么样的
需求是上传Excel 读取里面的数据.根据Excel中某一个字段,与数据表中的一个字段的唯一性.然后把 Excel表中数据和数据库表中数据一次更改.本次测试一次更新31条数据. 本次测试基于帝国cm ...
EIGRP-15-其他和高级的EIGRP特性-1-路由器ID
与很多协议一样, EIGRP也使用了路由器ID (RTD)的概念,用一个4字节的编号来标识某个路由器实例.每个地址家族实例拥有自已独立的RID.工程师可以在一台路由器上,为多个EIGRP进程和地址家族 ...

Spark TempView和GlobalTempView的区别

Spark TempView和GlobalTempView的区别

从tempview中取数据

从globaltempview中取数据

Globaltempview 数据可以在多个sparkSession中共享

tempview删除后无法使用

总结

Spark TempView和GlobalTempView的区别的更多相关文章

随机推荐

热门专题