Spark使用jdbc时的并行度

Spark SQL支持数据源使用JDBC从其他数据库读取数据。与使用JdbcRDD相比，应优先使用此功能。这是因为结果以DataFrame的形式返回，并且可以轻松地在Spark SQL中进行处理或与其他数据源合并。 JDBC数据源也更易于从Java或Python使用，因为它不需要用户提供ClassTag。（请注意，这与Spark SQL JDBC服务器不同，后者允许其他应用程序使用Spark SQL运行查询）。

首先，您需要在spark类路径上包含特定数据库的JDBC驱动程序。

例如，要从Spark Shell连接到postgres，您可以运行以下命令：

bin/spark-shell --driver-class-path postgresql-9.4.1207.jar --jars postgresql-9.4.1207.jar

Spark读取关系型数据库，官方有API接口，如下：

①、SparkSession.read.jdbc(url, table, properties)

②、SparkSession.read.jdbc(url, table, columnName, lowerBound, upperBound, numPartitions, connectionProperties)

③、SparkSession.read.jdbc(url, table, predicates, connectionProperties)

单partition方式：使用如下函数

def jdbc(url: String, table: String, properties: Properties): DataFrame

例子:

val url = "jdbc:mysql://mysqlHost:3306/database"

val tableName = "table"

// 设置连接用户&密码

val prop = new java.util.Properties

prop.setProperty("user","username")

prop.setProperty("password","pwd")

// 取得该表数据

val jdbcDF = spark.read.jdbc(url,tableName,prop)

// 一些操作

jdbcDF.write.mode..

查看并发度

jdbcDF.rdd.partitions.size # 结果返回 1

该操作的并发度为1，你所有的数据都会在一个partition中进行操作，意味着无论你给的资源有多少，只有一个task会执行任务，执行效率可想而之，并且在稍微大点的表中进行操作分分钟就会OOM。

更直观的说法是，达到千万级别的表就不要使用该操作，count操作就要等一万年，亲测4个小时 !

根据Long类型字段分区

调用函数为

 def jdbc(

  url: String,

  table: String,

  columnName: String,    # 根据该字段分区，需要为整形，比如id等

  lowerBound: Long,      # 分区的下界

  upperBound: Long,      # 分区的上界

  numPartitions: Int,    # 分区的个数

  connectionProperties: Properties): DataFrame

例子:

val url = "jdbc:mysql://mysqlHost:3306/database"

val tableName = "table"

val columnName = "colName"

val lowerBound = 1,

val upperBound = 10000000,

val numPartitions = 10,

// 设置连接用户&密码

val prop = new java.util.Properties

prop.setProperty("user","username")

prop.setProperty("password","pwd")

// 取得该表数据

val jdbcDF = spark.read.jdbc(url,tableName,columnName,lowerBound,upperBound,numPartitions,prop)

// 一些操作

....

查看并发度

jdbcDF.rdd.partitions.size # 结果返回 10

该操作将字段 colName 中1-10000000条数据分到10个partition中，使用很方便，缺点也很明显，只能使用整形数据字段作为分区关键字。

根据任意类型字段分区

调用函数为

jdbc(

  url: String,

  table: String,

  predicates: Array[String],

  connectionProperties: Properties): DataFrame

例子：

val url = "jdbc:mysql://localhost:3306/db"

val tableName = "tablename"

// 设置连接用户&密码

val prop = new java.util.Properties

prop.setProperty("user","mysql")

prop.setProperty("password","123456")

val predicates =

  Array(

    "2018-10-01" -> "2018-11-01",

    "2018-11-02" -> "2018-12-01",

    "2018-12-02" -> "2019-01-01",

    "2019-02-02" -> "2019-03-01",

    "2019-03-02" -> "2019-04-01",

    "2019-04-02" -> "2019-05-01",

    "2019-05-02" -> "2019-06-01",

    "2019-06-02" -> "2019-07-01",

    "2019-07-02" -> "2019-08-01",

    "2019-08-02" -> "2019-09-01",

    "2019-09-02" -> "2019-10-01",

    "2019-10-02" -> "2019-11-01"

  ).map {

    case (start, end) =>

      s"cast(txntime as date) >= date '$start' " + s"AND cast(txntime as date) <= date '$end'"

  }

// 取得该表数据

val jdbcDF = spark.read.jdbc(url, tableName, predicates, prop)

// 写入到hive表

jdbcDF.write.partitionBy().mode("overwrite").format("orc")

  .saveAsTable("db.tableName")

一千万级别数据实测2.4min左右导入完成。

limit分页分区

依旧采用上述函数，但是partitions做了修改，例子：

val url = "jdbc:mysql://localhost:3306/db"

val tableName = "tablename"

// 设置连接用户&密码

val prop = new java.util.Properties

prop.setProperty("user","mysql")

prop.setProperty("password","123456")

def getPartition(count:Int) = {

  val step = count / 10

  Range(0, count, step).map(x =>{

    (x, step)

  }).toArray

}

val partitions = getPartition(10000000)

  .map {

    case (start,end) => s"1=1 limit ${start},${end}"

  }

// 取得该表数据

val jdbcDF = spark.read.jdbc(url, tableName, partitions, prop)

// 写入到hive表

jdbcDF.write.partitionBy().mode("overwrite").format("orc")

  .saveAsTable("db.tableName")

实际测试效果和上面的差不多，区别是这里不需要字段有特殊的要求，对行数做处理就行啦。

Spark使用jdbc时的并行度的更多相关文章

spark之JDBC开发（实战）
一.概述 Spark Core.Spark-SQL与Spark-Streaming都是相同的,编写好之后打成jar包使用spark-submit命令提交到集群运行应用$SPARK_HOME/bin#. ...
spark之JDBC开发（连接数据库测试）
spark之JDBC开发(连接数据库测试) 以下操作属于本地模式操作: 1.在Eclipse4.5中建立工程RDDToJDBC,并创建一个文件夹lib用于放置第三方驱动包 [hadoop@CloudD ...
使用Spring Boot操作Hive JDBC时，启动时报出错误：NoSuchMethodError: org.eclipse.jetty.servlet.ServletMapping.setDef
使用Spring Boot操作Hive JDBC时,启动时报出错误:NoSuchMethodError: org.eclipse.jetty.servlet.ServletMapping.setDef ...
spark通过JDBC读取外部数据库，过滤数据
官网链接: http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases http:// ...
streaming优化：spark.default.parallelism调整处理并行度
官方是这么说的: Cluster resources can be under-utilized if the number of parallel tasks used in any stage o ...
spark 操作Hive时遇到的问题
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).17/10/14 ...
Spark读写HBase时出现的问题--RpcRetryingCaller: Call exception
问题描述 Exception in thread "main" org.apache.hadoop.hbase.client.RetriesExhaustedException: ...
Spark实际项目中调节并行度
实际项目中调节并行度实际项目中调节并行度并行度概述 spark架构一览如果不调节并行度,导致并行度过低,会怎么样? 设置spark作业并行度小结并行度概述其实就是指的是,Spark作业中, ...
Spark执行失败时的一个错误分析
错误分析堆栈信息中有一个错误信息:Job aborted due to stage failure: Task 1 in stage 2.0 failed 4 times, most recent ...

随机推荐

Python在计算内存时应该注意的问题？
我之前的一篇文章,带大家揭晓了 Python 在给内置对象分配内存时的 5 个奇怪而有趣的小秘密.文中使用了sys.getsizeof()来计算内存,但是用这个方法计算时,可能会出现意料不到的问题. ...
Spring的工作原理
一.什么是Spring (1).Spring真正的精华是它的Ioc模式实现的BeanFactory和AOP,它自己在这个基础上延伸的功能有些画蛇添足. (2). Spring它是一个开源的项目,而且目 ...
Angular 1 深度解析：脏数据检查与 angular 性能优化
TL;DR 脏检查是一种模型到视图的数据映射机制,由 $apply 或 $digest 触发. 脏检查的范围是整个页面,不受区域或组件划分影响使用尽量简单的绑定表达式提升脏检查执行速度尽量减少页面 ...
前端每日实战：113# 视频演示如何用纯 CSS 创作一个赛车 loader
效果预览按下右侧的"点击预览"按钮可以在当前页面预览,点击链接可以全屏预览. https://codepen.io/comehope/pen/mGdXGJ 可交互视频此视频是可 ...
Python读取和写入文件
1 从文件中读取数据 1.1 读取整个文件创建名为test的txt文本文件,添加内容如下所示: 123456789023456789013456789012 实现代码: with open('tes ...
Hibernage错误：Could not open Hibernate Session for transaction
今天客户发来的错误,是SSH框架做的项目,是用户在登陆时候出现的错误,但刷新之后就没问题. 提示错误:Could not open Hibernate Session for transaction. ...
Element-UI饿了么时间组件控件按月份周日期，开始时间结束时间范围限制参数
在日常开发中,我们会遇到一些情况,在使用Element-UI 限制用户的日期时间范围的选择控制(例如:查询消息开始和结束时间,需要限制不能选择今天之后的时间). 看了网上的一些文档,零零散散.各式各样 ...
Redis系列六 - 浅谈如何设计秒杀系统
前言设计一个系统之前,我们肯定要先确认系统业务场景是怎样的,下面就以某电商平台上的秒杀活动为场景,一起来探讨一个秒杀系统改如何去设计. 场景我们现在要卖100件纸尿布,按照系统的用户量及以往经验来 ...
误用git reset -hard 的检讨书
误用git reset -hard 的检讨书消失的代码们: 我知道你们可能看不到了,但是我还是需要自我反省自己,因为自己的误操作,导致了你们的消失. 事情的始末夜阑人静,周围除了少年敲击键盘的声音 ...
云CRM系统安全吗
云CRM系统有一个特点只要连接互联网就能够进行访问,这种访问可以是移动端也可以是电脑端的,而且本地CRM系统只允许电脑端访问.云CRM系统将数据存储在云服务器上,很多人就会问云CRM系统安全吗?下面和 ...

Spark使用jdbc时的并行度

Spark使用jdbc时的并行度的更多相关文章

随机推荐

热门专题