Hive和Spark分区策略
1.概述
离线数据处理生态系统包含许多关键任务,最大限度的提高数据管道基础设施的稳定性和效率是至关重要的。这边博客将分享Hive和Spark分区的各种策略,以最大限度的提高数据工程生态系统的稳定性和效率。
2.内容
大多数Spark Job可以通过三个阶段来表述,即读取输入数据、使用Spark处理、保存输出数据。这意味着虽然实际数据转换主要发生在内存中,但是Job通常以大量的I/O开始和结束。使用Spark常用堆栈是使用存储在HDFS上的Hive表作为输入和输出数据存储。Hive分区有效地表示为分布式文件系统上的文件目录。理论上,尽可能多的文件写入是有意义的,但是,这个也是有代价的。HDFS不能很好的支持大量小文件,每个文件在NameNode内存中大概有150字节的开销,而HDFS的整体IOPS数量有限。文件写入中的峰值绝对会导致HDFS基础架构的某些部分产生性能瓶颈。
比如从某个历史日期到当前日期重新计算表,通常用于修复错误或者数据质量问题。在处理包含一年数据的大型数据集(比如1TB以上)时,可能会将数据分成几千个Spark分区进行处理。虽然从表面上看,这种处理方法并不是最合适的,使用动态分区并将数据结果写入按照日期分区的Hive表中将产生多大100+万个文件。
假如有一个包含3个分区的Spark任务,并且想将数据写入到包含3个分区的Hive中。在这种情况下,希望发送的是将3个文件写入到HDFS,所有数据都存储在每个分区键的单个文件中。实际发生的是将生成9个文件,并且每个文件都有1个记录。使用动态分区写入Hive时,每个Spark分区都由执行程序并行处理。处理Spark分区数据时,每次执行程序在给定Spark分区中遇到新的分区键时,它都会打开一个新文件。默认情况下,Spark对数据会使用Hash或者Round Robin分区器。当应用于任意数据时,可以假设这2中方法在整个Spark分区中相对均匀但是随机分布数据行。如下图所示:
理想情况下,目标文件大小应该大约是HDFS Block大小的倍数,默认情况下为128MB。在Hive管道中,提供了一些配置来自动将结果收集到合理大小的文件中,从开发人员的角度来看几乎是透明的,比如hive.merge.smallfiles.avgsize和hive.merge.size.per.task。但是,Spark中不存在此类功能,因此,我们需要自己开发实现,来给定一个数据集,应该写入多少文件。
2.1 基于Size的计算
理论上,这是最直接的方法,设置目标大小,估计数据的大小,然后进行划分。但是,在很多情况下,文件被写入磁盘时会进行压缩,并且其格式与存储在Java堆中的记录格式有所不同。这意味着估算写入磁盘时内存的记录大小不是一件容易的事情。
虽然可以使用Spark SizeEstimator实用程序通过内存中数据的大小进行估计,然后应用某种估计的压缩文件格式因此,但是SizeEstimator会考虑数据帧、数据集的内部消耗,以及数据的大小。总体来说,这种方式不太容易准确实现。
2.2 基于行数的计算
这种方法是设置目标行数,计算数据集的大小,然后执行除法以估计目标。我们的目标行数可以通过多种方式确定,或者通过为所有数据集选择一个静态数字,或者通过确定磁盘上单个记录的大小并执行必要的计算。哪种方式是最好取决于你的数据集数量及其复杂性。计数相对来说成本较低,但是需要在计数前缓存以避免重新计算数据集。
2.3 静态文件计数
最简单的解决方案是只要求开发人员在每个插入的基础上告诉Spark总共应该写入多少个文件,这种方式需要给开发人员一些其他方法来获得具体的数字,可以通过这种方式来替换昂贵的计算。
3.如何让Spark以合理的方式分发处理数据?
即使我们知道希望如何将文件写入磁盘,我们仍然必须让Spark以符合实际的方式生成这些文件来构建我们的分区。Spark提供了许多工具来确定数据在整个分区中的分布方式。但是,各种功能中隐藏着很多复杂性,在某些情况下,它们的含义并不明显。下面将介绍Spark提供的一些选项来控制Spark输出文件的数量。
3.1 合并
Spark Coalesce是一个特殊版本的重新分区,它只允许减少总的分区,但是不需要完全的Shuffle,因此比重新分区要快得多。它通过有效的合并分区来实现这一点。如下图所示:
Coalesce在某些情况下看起来不错,但是也有一些问题。首先,Coalesce有一个让我们难以使用的行为。以一个非常基本的Spark应用程序为例,代码如下:
load().map(…).filter(…).save()
比如设置的并行度为1000,但是最终只想写入10个文件,可以设置如下:
load().map(…).filter(…).coalesce(10).save()
但是,Spark会尽可能早的有效的将合并操作下推,因此这将执行为:
load().coalesce(10).map(…).filter(…).save()
有效的解决这种问题的方法是在转换和合并之间强制执行,代码如下所示:
val df = load().map(…).filter(…).cache()
df.count()
df.coalesce(10)
缓存是必须的,否则,你将不得不重新计算数据,这可能会重新消耗资源。然后,缓存是需要消费一定资源的,如果你的数据集无法放入内存中,或者无法腾出内存将数据有效的存储在内存中两次,那么必须使用磁盘缓存,这有其自身的局限性和显著的性能损失。
此外,正如我们看到的,通常需要执行Shuffle来获得我们想要的更复杂的数据集结果。因此,Coalesce仅适用于特定的情况:
- 保证只写入1个Hive分区;
- 目标文件数少于你用于处理数据的Spark分区数;
- 有充足的缓存资源。
3.2 简单重新分区
一个简单的重新分区,它的唯一参数是目标Spark分区计数,即df.repartition(100)。在这种情况下,使用循环分区器,这意味着唯一的保证是输出数据具有大致相同大小的Spark分区。
这种分区仅适用于以下情况的文件计数问题:
- 保证只需要写入1个Hive分区;
- 正在写入的文件数大于你的Spark分区数或者由于某些其他原因你无法使用合并。
3.3 按列重新分区
按列重新分区接收目标Spark分区计数,以及要重新分区的列序列,例如,df.repartition(100,$"date")。这对于强制Spark将具有相同键的记录分发到同一个分区很有用。一般来说,这对许多Spark操作(如JOIN)很有用,但是理论上,它也可以解决我们的问题。
按列重新分区使用HashPartitioner,它将具有相同值的记录分配给同一个分区,实际上,它将执行以下操作:
但是,这种方法只有在每个分区键都可以安全的写入到一个文件时才有效。这是因为无论有多少值具有特定的Hash值,它们最终都会在同一个分区中。按列重新分区仅在你写入一个或者多个小的Hive分区时才有效。在任何其他情况下,它都没有用,因为每个Hive分区总是会得到一个文件,这仅适用于最小的数据集。
3.4 按具有随机因子的列重新分区
我们可以通过添加约束的随机因子来按列修改重新分区,代码如下:
df
.withColumn("rand", rand() % filesPerPartitionKey)
.repartition(100, $"key", $"rand")
理论上,只要满足以下条件,这种方法应该会产生排序良好的记录和大小相当均匀的文件:
- Hive分区的大小大致相同;
- 知道每个Hive分区的目标文件数并且可以在运行时对其进行编码。
但是,即使我们满足上述这些条件,还有另外一个问题:散列冲突。假设,现在正在处理一年的数据,日期作为分区的唯一键。如果每个分区需要5个文件,可以执行如下操作:
df.withColumn("rand", rand() % 5).repartition(5*365, $"date", $"rand")
在后台,Scala将构造一个包含日期和随机因素的键,例如(<date>,<0-4>)。然后,如果我们查看HashPartitioner代码,可以发现它将执行以下操作:
class HashPartitioner(partitions: Int) extends Partitioner {
def getPartition(key: Any): Int = key match {
case null => 0
case _ => Utils.nonNegativeMod(key.hashCode, numPartitions)
}
}
实际上,所做的就是获取关键元组的散列,然后使用目标数量的Spark分区获取它的mod。我们可以分析一下在这种情况下我们的记录将如何实现分布,分析代码如下:
import java.time.LocalDate def hashCodeTuple(one: String, two: Int, mod: Int): Int = {
val rawMod = (one, two).hashCode % mod
rawMod + (if (rawMod < 0) mod else 0)
}
def hashCodeSeq(one: String, two: Int, mod: Int): Int = {
val rawMod = Seq(one, two).hashCode % mod
rawMod + (if (rawMod < 0) mod else 0)
} def iteration(numberDS: Int, filesPerPartition: Int): (Double, Double, Double) = {
val hashedRandKeys = (0 to numberDS - 1).map(x => LocalDate.of(2019, 1, 1).plusDays(x)).flatMap(
x => (0 to filesPerPartition - 1).map(y => hashCodeTuple(x.toString, y, filesPerPartition*numberDS))
) hashedRandKeys.size // Number of unique keys, with the random factor val groupedHashedKeys = hashedRandKeys.groupBy(identity).view.mapValues(_.size).toSeq groupedHashedKeys.size // number of actual sPartitions used val sortedKeyCollisions = groupedHashedKeys.filter(_._2 != 1).sortBy(_._2).reverse val sortedSevereKeyCollisions = groupedHashedKeys.filter(_._2 > 2).sortBy(_._2).reverse sortedKeyCollisions.size // number of sPartitions with a hashing collision // (collisions, occurences)
val collisionCounts = sortedKeyCollisions.map(_._2).groupBy(identity).view.mapValues(_.size).toSeq.sortBy(_._2).reverse (
groupedHashedKeys.size.toDouble / hashedRandKeys.size.toDouble,
sortedKeyCollisions.size.toDouble / groupedHashedKeys.size.toDouble,
sortedSevereKeyCollisions.size.toDouble / groupedHashedKeys.size.toDouble
)
} val results = Seq(
iteration(365, 1),
iteration(365, 5),
iteration(365, 10),
iteration(365, 100),
iteration(365 * 2, 100),
iteration(365 * 5, 100),
iteration(365 * 10, 100)
) val avgEfficiency = results.map(_._1).sum / results.length
val avgCollisionRate = results.map(_._2).sum / results.length
val avgSevereCollisionRate = results.map(_._3).sum / results.length (avgEfficiency, avgCollisionRate, avgSevereCollisionRate) // 63.2%, 42%, 12.6%
上面的脚本计算了3个数量:
- 效率:非空的Spark分区与输出文件数量的比率;
- 碰撞率:(date,rand)的Hash值发送冲突的Spark分区的百分比;
- 严重冲突率:同上,但是此键上的冲突次数为3或者更多。
冲突很重要,因为它们意味着我们的Spark分区包含多个唯一的分区键,而我们预计每个Spark分区只有1个。分析的结果可知,我们使用了63%的执行器,并且可能会出现严重的偏差,我们将近一半的执行者正在处理比预期多2到3倍或者在某些情况下高达8倍的数据。
现在,有一个解决方法,即分区缩放。在之前示例中,输出的Spark分区数量等于预期的总文件数。如果将N个对象随机分配给N个插槽,可以预期会有多个插槽包含多个对象,并且有几个空插槽。因此,需要解决此问题,必须要降低对象与插槽的比率。
我们通过缩放输出分区计数来实现这一点,通过将我们的输出Spar分区计数乘以一个大因子,类似于:
df
.withColumn(“rand”, rand() % 5)
.repartition(5*365*SCALING_FACTOR, $”date”, $”rand”)
分析代码如下:
import java.time.LocalDate def hashCodeTuple(one: String, two: Int, mod: Int): Int = {
val rawMod = (one, two).hashCode % mod
rawMod + (if (rawMod < 0) mod else 0)
} def hashCodeSeq(one: String, two: Int, mod: Int): Int = {
val rawMod = Seq(one, two).hashCode % mod
rawMod + (if (rawMod < 0) mod else 0)
} def iteration(numberDS: Int, filesPerPartition: Int, partitionFactor: Int = 1): (Double, Double, Double, Double) = {
val partitionCount = filesPerPartition*numberDS * partitionFactor
val hashedRandKeys = (0 to numberDS - 1).map(x => LocalDate.of(2019, 1, 1).plusDays(x)).flatMap(
x => (0 to filesPerPartition - 1).map(y => hashCodeTuple(x.toString, y, partitionCount))
) hashedRandKeys.size // Number of unique keys, with the random factor val groupedHashedKeys = hashedRandKeys.groupBy(identity).view.mapValues(_.size).toSeq groupedHashedKeys.size // number of unique hashes - and thus, sPartitions with > 0 records val sortedKeyCollisions = groupedHashedKeys.filter(_._2 != 1).sortBy(_._2).reverse val sortedSevereKeyCollisions = groupedHashedKeys.filter(_._2 > 2).sortBy(_._2).reverse sortedKeyCollisions.size // number of sPartitions with a hashing collision // (collisions, occurences)
val collisionCounts = sortedKeyCollisions.map(_._2).groupBy(identity).view.mapValues(_.size).toSeq.sortBy(_._2).reverse (
groupedHashedKeys.size.toDouble / partitionCount,
groupedHashedKeys.size.toDouble / hashedRandKeys.size.toDouble,
sortedKeyCollisions.size.toDouble / groupedHashedKeys.size.toDouble,
sortedSevereKeyCollisions.size.toDouble / groupedHashedKeys.size.toDouble
)
} // With a scale factor of 1
val results = Seq(
iteration(365, 1),
iteration(365, 5),
iteration(365, 10),
iteration(365, 100),
iteration(365 * 2, 100),
iteration(365 * 5, 100),
iteration(365 * 10, 100)
) val avgEfficiency = results.map(_._2).sum / results.length // What is the ratio of executors / output files
val avgCollisionRate = results.map(_._3).sum / results.length // What is the average collision rate
val avgSevereCollisionRate = results.map(_._4).sum / results.length // What is the average collision rate where 3 or more hashes collide (avgEfficiency, avgCollisionRate, avgSevereCollisionRate) // 63.2% Efficiency, 42% collision rate, 12.6% severe collision rate iteration(365, 5, 2) // 37.7% partitions in-use, 77.4% Efficiency, 24.4% collision rate, 4.2% severe collision rate
iteration(365, 5, 5)
iteration(365, 5, 10)
iteration(365, 5, 100)
随着我们的比例因子接近无穷大,碰撞很快接近于0,效率接近100%。但是,这会产生另外一个问题,即大量的输出Spark分区将为空。同时这些空的Spark分区也会带来一些资源开销,增加驱动程序的内存要求,并使我们更容易受到由于错误或者意外复杂性而导致分区键空间意外大的问题。
这里的一个常见方法是在使用这种方法时不显示设置分区技术(默认并行度和缩放),如果不提供分区计数,则依赖Spark默认的spark.default.parallelism值。虽然,通常并行度自然高于总输出文件数(因此,隐式提供大于1 的缩放因子)。如果满足以下条件,这种方式依然是一种有效的方法:
- Hive分区的文件数大致相等;
- 可以确定平均分区文件数应该是多少;
- 大致知道唯一分区键的总数。
在示例中,我们假设其中的许多事情都很容易知道,主要是输出Hive分区的总数和每个Hive分区所需要的文件数。无论如何,这种方法都是可行的,并且可能适用于需要用例。
3.5 按范围重新分区
按范围重新分区是一个特列,它不使用RoundRobin和Hash Partitioner,而是使用一种特殊的方法,叫做Range Partitioner。
范围分区器根据某些给定键的顺序在Spark分区之间进行拆分行,但是,它不只是全局排序,它做出的保证是:
- 具有相同散列的所有记录将在同一个分区中结束;
- 所有Spark分区都将有一个最小值和最大值与之关联;
- 最小值和最大值将通过使用采样来检测关键频率和范围来确定,分区边界将根据这些估计值进行初始设置;
- 分区的大小不能保证完全相等,它们的相等性基于样本的准确性,因此,预测的每个Spark分区的最小值和最大值,分区将根据需要增长或缩小以保证前2个条件。
总而言之,范围分区将导致Spark创建与请求的Spark分区数量相等的Bucket数量,然后它将这些Bucket映射到指定分区键的范围。例如,如果你的分区键是日期,则范围可能是(最小值2021-01-01,最大值2022-01-01)。然后,对于每条记录,将记录的分区键与存储Bucket的最小值和最大值进行比较,并相应的进行分配。
4.结束语
这篇博客就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以加群进行讨论或发送邮件给我,我会尽我所能为您解答,与君共勉!
另外,博主出书了《Kafka并不难学》和《Hadoop大数据挖掘从入门到进阶实战》,喜欢的朋友或同学, 可以在公告栏那里点击购买链接购买博主的书进行学习,在此感谢大家的支持。关注下面公众号,根据提示,可免费获取书籍的教学视频。
Hive和Spark分区策略的更多相关文章
- Spark GraphX图算法应用【分区策略、PageRank、ConnectedComponents,TriangleCount】
一.分区策略 GraphX采用顶点分割的方式进行分布式图分区.GraphX不会沿着边划分图形,而是沿着顶点划分图形,这可以减少通信和存储的开销.从逻辑上讲,这对应于为机器分配边并允许顶点跨越多台机器. ...
- Hive架构及Hive On Spark
Hive的所有数据都存在HDFS中. (1)Table:每个表都对应在HDFS中的目录下,数据是经过序列化后存储在该目录中.同时Hive也支持表中的数据存储在其他类型的文件系统中,如NFS或本地文件系 ...
- Hive、Spark SQL、Impala比较
Hive.Spark SQL.Impala比较 Hive.Spark SQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案,但又各有特点.前面已经讨论了Hi ...
- Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置 环境搭建 记录
Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置 环境搭建 记录 Hadoop 2.6 的安装与配置(伪分布式) 下载并解压缩 配置 .bash_profile : ...
- Hive on Spark安装配置详解(都是坑啊)
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介 本文主要记录如何安装配置Hive on Sp ...
- Hive On Spark概述
Hive现有支持的执行引擎有mr和tez,默认的执行引擎是mr,Hive On Spark的目的是添加一个spark的执行引擎,让hive能跑在spark之上: 在执行hive ql脚本之前指定执行引 ...
- Hive On Spark环境搭建
Spark源码编译与环境搭建 Note that you must have a version of Spark which does not include the Hive jars; Spar ...
- Apache Spark源码走读之12 -- Hive on Spark运行环境搭建
欢迎转载,转载请注明出处,徽沪一郎. 楔子 Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于H ...
- Hive on Spark运行环境搭建
Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析.由于这一特性而收 ...
随机推荐
- 03.21 ICPC训练联盟周赛:UCF Local Programming Contest 2018正式赛
B Breaking Branches 题意:两个人比赛折枝,谁剩下最后1,无法折出整数即为输 思路:树枝长n,若是奇数,则Bob胜出,若是偶数,则Alice胜出,且需要输出1: 1 #include ...
- Python数模笔记-NetworkX(2)最短路径
1.最短路径问题的常用算法 最短路径问题是图论研究中的经典算法问题,用于计算图中一个顶点到另一个顶点的最短路径. 1.1 最短路径长度与最短加权路径长度 在日常生活中,最短路径长度与最短路径距离好像并 ...
- C++将数值转换为string
std::to_string string to_string (int val); string to_string (long val); string to_string (long long ...
- [基本运算符、流程控制之if判断、与用户交互、深浅拷贝]
[基本运算符.流程控制之if判断.与用户交互] 基本运算符 1.算数运算符 python支持的算术运算符与数学上计算的符号使用是一致的 salary = 3.3 res = salary * 12 p ...
- 从零搭建springboot服务03-redis消息订阅
愿历尽千帆,归来仍是少年 1.所需依赖 <!-- Redis依赖 --> <dependency> <groupId>org.springframework.boo ...
- 基于pyqt5和openpyxl和Pyinstaller的青年大学习检查未学习人数的脚本
前几天接到团支书的一个需求,因为学校给的名单是青年大学习已学习的名单,然而要知道未学习的名单只能从所有团员中再排查一次,过程相当麻烦.团支书跟我抱怨后,刚好我也学过一些操作办公软件的基础.打包pyth ...
- 【zombie】如何查看并杀死僵尸进程?
[zombie]如何查看并杀死僵尸进程? 赏金Micheal关注 2019.03.31 19:40:15字数 1,016阅读 4,373 僵尸进程定义 In UNIX System terminolo ...
- Ubuntu 获取升级信息失败。可能网络有问题
升级Ubuntu系统时遇到的这个问题, 原因是默认的源不是国内的,而且还可能导致下载慢等问题. 1.备份源 cd /etc/apt/ sudo cp sources.list sources.list ...
- Linux进阶之磁盘管理及LVM逻辑卷
本节内容 磁盘管理 LVM 一.磁盘管理 1.硬盘接口 种类及其应用: IDE接口硬盘多用于家用产品,部分应用于服务器 SATA SCSI接口硬盘主要应用于服务器 SAS只在高端服务器上,价格昂贵 2 ...
- 利用TortoiseGit向Github上传文件
利用TortoiseGit向Github上传文件 第一步:建一个新文件夹,作为本地仓库 第二步:右键选择设置为版本库 若弹出,确认即可 重新打开改文件,会发现多了一个绿色的小勾 在文件夹中会自动生成一 ...