Databricks 第6篇:Spark SQL 维护数据库和表
Spark SQL 表的命名方式是db_name.table_name,只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name,实际上是引用default 数据库下的表。在Spark SQL中,数据库只是指定表文件存储的路径,每个表都可以使用不同的文件格式来存储数据,从这个角度来看,可以把database看作是Databricks 表的上层目录,用于组织数据表及其文件。
在python语言环境中,可以使用 %sql 切换到SQL命令模式:
- %sql
一,数据库
常用的数据库命令,切换当前的数据库、显示数据库列表、表列表、视图列表和列信息:
- use db_name
- show databases
- show tables [in db_name]
- show views [in db_name]
- show columns in db_name.table_name
1,创建数据库
创建数据库,通过LOCATION 指定数据库文件存储的位置:
- CREATE { DATABASE | SCHEMA } [ IF NOT EXISTS ] database_name
- [ LOCATION database_directory ]
LOCATION database_directory:指定存储数据库文件系统的路径,如果底层的文件系统中不存在该路径,那么需要先创建该目录。如果未指定LOCATION参数,那么使用默认的数据仓库目录来创建数据库,默认的数据仓库目录是由静态配置参数spark.sql.warehouse.dir指定的。
2,查看数据库的描述
- { DESC | DESCRIBE } DATABASE [ EXTENDED ] db_name
extended 选项表示查看数据库的扩展属性。
3,删除数据库
- DROP { DATABASE | SCHEMA } [ IF EXISTS ] dbname [ RESTRICT | CASCADE ]
IF EXISTS:该选项表示在数据库不存在时,DROP操作不会引发异常。
RESTRICT:该选项表示不能删除非空数据库,并在默认情况下启用。
CASCADE:该选项表示删除数据库中所有关联的表和函数。
二,创建表
表有两种作用域:全局和本地,全局表可以在所有的Cluster中引用,而本地表只能在本地的Cluster中引用,被称作临时视图。用户可以从DBFS中的文件或存储在任何受支持数据源中的数据来填充表。
在创建表时,需要指定存储表数据的文件格式,以及表数据文件存储的位置。
1,使用数据源创建表(标准的CREATE TABLE命令)
创建表的语法,注意:如果数据库中已存在同名的表,则会引发异常。
- CREATE TABLE [ IF NOT EXISTS ] [db_name].table_name
- [ ( col_name1 col_type1, ... ) ]
- USING data_source
- [ OPTIONS ( key1=val1, key2=val2, ... ) ]
- [ PARTITIONED BY ( col_name1, col_name2, ... ) ]
- [ CLUSTERED BY ( col_name3, col_name4, ... )
- [ SORTED BY ( col_name [ ASC | DESC ], ... ) ]
- INTO num_buckets BUCKETS ]
- [ LOCATION path ]
- [ AS select_statement ]
参数注释:
- IF NOT EXISTS:如果数据库中已存在同名的表,则不会执行任何操作。
- USING data_source:用于表的文件格式,data_source 必须是 TEXT、CSV、JSON、JDBC、PARQUET、ORC、HIVE、DELTA 或 LIBSVM 中的一个,或 org.apache.spark.sql.sources.DataSourceRegister 的自定义实现的完全限定的类名。支持使用 HIVE 创建 Hive SerDe 表。 你可以使用 OPTIONS 子句指定 Hive 特定的 file_format 和 row_format,这是不区分大小写的字符串映射。选项键为 FILEFORMAT、INPUTFORMAT、OUTPUTFORMAT、SERDE、FIELDDELIM、ESCAPEDELIM、MAPKEYDELIM 和 LINEDELIM。
- OPTIONS:用于优化表的行为或配置 HIVE 表的表选项。
- PARTITIONED BY (col_name1, col_name2, ...):按指定的列对创建的表进行分区,将为每个分区创建一个目录。
- CLUSTERED BY col_name3, col_name4, ...):按照指定的列,把表中的分区分割到固定数目的 Bucket中,该选项通常与分区操作配合使用。delta格式的文件不支持该子句。
- SORTED BY:数据在buckets中的排序方式,默认是升序ASC。
- INTO num_buckets BUCKETS:bucket是一个优化技术,使用bucket(和bucket 列)来确定数据的分区,并避免数据洗牌(data shuffle),使数据变得有序。
- LOCATION path:用于存储表数据的目录,可以指定分布式存储上的路径。
- AS select_statement:使用来自 SELECT 语句的输出数据填充该表。
2,使用Delta Lake(增量Lake)创建表
用户可以使用标准的CREATE TABLE命令来创建存储在delta lake中的表,除了标准的创建delta table的命令之外,还可以使用以下的语法来创建delta表:
- CREATE [OR REPLACE] TABLE table_identifier[(col_name1 col_type1 [NOT NULL], ...)]
- USING DELTA
- [LOCATION <path-to-delta-files>]
table_identifier 有两种格式:
[database_name.] table_name
: 表的名称delta.`delta_file_path`
LOCATION <path-to-delta-files> :如果指定的 LOCATION 已包含增量 lake 中存储的数据,Delta lake 会执行以下操作:
如果仅指定了表名称和位置,例如:
- CREATE TABLE events
- USING DELTA
- LOCATION '/mnt/delta/events'
Hive 元存储中的表会自动继承现有数据的架构、分区和表属性,此功能可用于把数据“导入”到元存储(metastore)中。
如果你指定了任何配置(架构、分区或表属性),那么 Delta Lake 会验证指定的内容是否与现有数据的配置完全匹配。如果指定的配置与数据的配置并非完全匹配,则 Delta Lake 会引发一个描述差异的异常。
3,创建表的示例
- --Use data source
- CREATE TABLE student (id INT, name STRING, age INT) USING PARQUET;
- --Use data from another table
- CREATE TABLE student_copy USING PARQUET
- AS SELECT * FROM student;
- --Omit the USING clause, which uses the default data source (parquet by default)
- CREATE TABLE student (id INT, name STRING, age INT);
--Create partitioned and bucketed table- CREATE TABLE student (id INT, name STRING, age INT)
- USING PARQUET
- PARTITIONED BY (age)
- CLUSTERED BY (Id) INTO 4 buckets;
三,和数据源的交互
数据源表的作用类似于指向基础数据源的指针,例如,您可以使用JDBC数据源在Azure Databricks中创建表foo,该表指向MySQL中的表bar。当读写表foo时,实际上就是读写表bar。
通常,CREATE TABLE会创建一个“指针”,并且必须确保它指向的对象是存在的,一个例外是文件源,例如Parquet,JSON,如果您未指定LOCATION选项,那么Azure Databricks会创建一个默认表位置。
对于CREATE TABLE AS SELECT,Azure Databricks使用select查询的输出数据来覆盖(overwrite)底层的数据源,以确保创建的表包含与输入查询完全相同的数据。
四,插入数据
用户可以向表种插入数据,也可以向Spark支持的文件中插入数据。
1,向表中插入数据
使用INSERT INTO 命令向表中追加数据,不会影响表中的现有数据;使用INSERT OVERWRITE 命令,会覆盖表中的现有数据。
- INSERT INTO [ TABLE ] table_identifier [ partition_spec ]
- { VALUES ( { value | NULL } [ , ... ] ) [ , ( ... ) ] | query }
- INSERT OVERWRITE [ TABLE ] table_identifier [ partition_spec [ IF NOT EXISTS ] ]
- { VALUES ( { value | NULL } [ , ... ] ) [ , ( ... ) ] | query }
参数注释:
- table_identifier:[database_name.] table_name:表名称,可选择使用数据库名称进行限定。delta.<路径到表> :现有增量表的位置。
- partition_spec:一个可选参数,用于指定分区的键/值对的逗号分隔列表。语法:PARTITION ( partition_col_name = partition_col_val [ , ... ] )
- 值 ( {value |NULL} [,...] ) [, ( ... ) ]:要插入的值。 显式指定的值或 NULL 。 使用逗号分隔子句中的每个值。 您可以指定多个值集来插入多个行。
- query:生成要插入的行的查询,可用的查询格式:SELECT语句、TABLE语句、FROM语句
举个例子,创建表之后,通过VALUES子句向表中插入少量的值,也可以通过 SELECT 子句、TABLE和FROM向表中批量插入数据。
- CREATE TABLE students (name VARCHAR(64), address VARCHAR(64), student_id INT)
- USING PARQUET PARTITIONED BY (student_id);
- INSERT INTO students VALUES
- ('Amy Smith', '123 Park Ave, San Jose', 111111);
- INSERT INTO students VALUES
- ('Bob Brown', '456 Taylor St, Cupertino', 222222),
- ('Cathy Johnson', '789 Race Ave, Palo Alto', 333333);
- INSERT INTO students PARTITION (student_id = 444444)
- SELECT name, address FROM persons WHERE name = "Dora Williams";
- INSERT INTO students TABLE visiting_students;
- INSERT INTO students
- FROM applicants SELECT name, address, id applicants WHERE qualified = true;
2,向文件中插入数据
向文件中插入数据时,只能用新数据覆盖现有的数据:
- INSERT OVERWRITE [ LOCAL ] DIRECTORY [ directory_path ]
- USING file_format [ OPTIONS ( key = val [ , ... ] ) ]
- { VALUES ( { value | NULL } [ , ... ] ) [ , ( ... ) ] | query }
参数注释:
- directory_path:目标目录,还可以使用在中指定 OPTIONS path 。 LOCAL关键字用于指定目录位于本地文件系统中。
- file_format:要用于插入的文件格式。 有效选项包括 TEXT 、 CSV 、 JSON 、 JDBC 、 PARQUET 、、、或的 ORC HIVE LIBSVM 自定义实现的完全限定类名 org.apache.spark.sql.execution.datasources.FileFormat 。
- OPTIONS ( key = val [,...] ):指定用于写入文件格式的一个或多个选项。
参考文档:
SQL reference for Databricks Runtime 7.x
Databricks 第6篇:Spark SQL 维护数据库和表的更多相关文章
- SQL跨数据库复制表数据
SQL跨数据库复制表数据 不同服务器数据库之间的数据操作 不同数据库之间复制表的数据的方法: 当表目标表存在时: insert into 目的数据库..表 select * from 源数据库.. ...
- 第16课-数据库开发及ado.net-数据库SQl,创建数据库和表,增删改语句,约束,top和Distinct,聚合函数介绍
第16课-数据库开发及ado.net 数据库SQl,创建数据库和表,增删改语句,约束,top和Distinct,聚合函数介绍 SQL语句入门(脚本.命令) SQL全名是结构化查询语言(Structur ...
- Spark sql读取数据库和ES数据进行处理代码
读取数据库数据和ElasticSearch数据进行连接处理 import java.util.HashMap; import java.util.List; import java.util.Map; ...
- 6.3 使用Spark SQL读写数据库
Spark SQL可以支持Parquet.JSON.Hive等数据源,并且可以通过JDBC连接外部数据源 一.通过JDBC连接数据库 1.准备工作 ubuntu安装mysql教程 在Linux中启动M ...
- Spark 加载数据库mysql表中数据进行分析
1.工程maven依赖包 <properties> <spark_version>2.3.1</spark_version> <!-- elasticsear ...
- SQL Server数据库、表、数据类型基本概念
一.SQL Server的数据存储结构 SQL Server是一个数据库管理系统,需要以有效方式存储高容量数据.要更好地理解SQL Server处理数据的方式,就需要了解数据的存储结构. 1.文件类型 ...
- SQL Server数据库(表的创建)
表的创建 1.创建列(字段):列名+类型 2.设置主键列:能够唯一表示一条数据 3.设置唯一键:设计--索引/键--添加--唯一键(选择列)--确定 唯一键的内容不能重复 4.外键关系:一张表(从表) ...
- SQL语句(一)SQL和数据库数据表的创建
SQL的组成 (1) 数据定义语言DDL(Data Definition Language) 用于数据库和数据表的创建.修改和删除等操作 CREATE (create) 创建数据库.数据表 ALTER ...
- MS Sql Server 数据库或表修复(DBCC CHECKDB)
MS Sql Server 提供了很多数据库修复的命令,当数据库质疑或是有的无法完成读取时可以尝试这些修复命令. 1. DBCC CHECKDB 重启服务器后,在没有进行任何操作的情况下,在SQL ...
随机推荐
- P6772 [NOI2020]美食家
题目大意 给你一个 \(n\) 个点,\(m\) 条边的有向图,每条边有一个权值 \(w_i\) ,每个节点有一个权值 \(a_i\) . 你从节点 \(1\) 出发,每经过一个节点就可以获得该点的权 ...
- Docker 安装Mysql,RabbitMQ
安装Mysql 拉取镜像 docker pull mysql:5.7.30 运行容器 docker run -itd --name mysql5.7 -p 33006:3306 --restart=a ...
- 微信小程序图片上传和裁剪
本篇博客用于解决微信小程序图片裁剪问题 图片裁剪常用于头像选择和图片合成等. 图片裁剪解决方案: 目前网络上知名的微信小程序图片裁剪插件是we-cropper(文末有链接) 操作步骤:下载好we-cr ...
- JDK11 下载安装与配置环境变量
1.jdk11本身也包含jre,不需要安装jre,低版本需要安装jre 2.jdk下载地址:https://www.oracle.com/technetwork/java/javase/downloa ...
- mysql 8.0 改变数据目录和日志目录(一)
一.背景 原数据库数据目录:/data/mysql3306/data,日志文件目录:/data/mysql3306/binlog 变更后数据库目录:/mysqldata/3306/data,日志文件目 ...
- 搭建本地yum镜像源
Blog:博客园 个人 目录 概述 语法说明 参数说明 部署 配置阿里云源 同步源 建仓 Nginx配置 配置定时计划 yum配置 概述 由于内网有大量机器不能访问公网,安装软件比较费劲,那么,如何让 ...
- java.lang.NoClassDefFoundError: org/I0Itec/zkclient/IZkStateListener
spark streaming 读 kafka 报错 java.lang.NoClassDefFoundError: org/I0Itec/zkclient/IZkStateListener java ...
- vue第三单元(webpack的应用-能根据具体的需求构建对应的开发环境)
第三单元(webpack的应用-能根据具体的需求构建对应的开发环境) #课程目标 理解什么是单页面应用. 掌握单页面和多页面的差异. 了解单页面的实现原理. 掌握模块化的方式实现webpack配置,区 ...
- Tensorflow Windows安装
操作系统: Windows 7 安装步骤 Step 1: 安装Tensorflow支持的Python版本,配置环境变量 目前,Tensorflow支持: Python 3.5.x 64-bit fro ...
- C# List的并集、交集、差集
并集---Union 集合的并集是合并两个集合的所有项,去重,如下图所示: List<int> ls1 = new List<int>() { 1,2,3,5,7,9 }; ...