针对小文件的spark wholeTextFiles()

场景：推送过来的数据文件数量很多，并且每个只有10-30M的大小

spark读取hdfs一般都是用textfile()，但是对于这种情况，如果使用textFile默认产生的分区数将与文件数目一致，产生大量的任务。

对应这种小文件，spark提供了一个特殊的api， wholeTextFiles()， wholeTextFiles主要用于处理大量的小文件，源码如下：

  /**

   * Read a directory of text files from HDFS, a local file system (available on all nodes), or any

   * Hadoop-supported file system URI. Each file is read as a single record and returned in a

   * key-value pair, where the key is the path of each file, the value is the content of each file.

   *

   * <p> For example, if you have the following files:

   * {{{

   *   hdfs://a-hdfs-path/part-00000

   *   hdfs://a-hdfs-path/part-00001

   *   ...

   *   hdfs://a-hdfs-path/part-nnnnn

   * }}}

   *

   * Do `val rdd = sparkContext.wholeTextFile("hdfs://a-hdfs-path")`,

   *

   * <p> then `rdd` contains

   * {{{

   *   (a-hdfs-path/part-00000, its content)

   *   (a-hdfs-path/part-00001, its content)

   *   ...

   *   (a-hdfs-path/part-nnnnn, its content)

   * }}}

   *

   * @note Small files are preferred, large file is also allowable, but may cause bad performance.

   * @note On some filesystems, `.../path/*` can be a more efficient way to read all files

   *       in a directory rather than `.../path/` or `.../path`

   * @note Partitioning is determined by data locality. This may result in too few partitions

   *       by default.

   *

   * @param path Directory to the input data files, the path can be comma separated paths as the

   *             list of inputs.

   * @param minPartitions A suggestion value of the minimal splitting number for input data.

   * @return RDD representing tuples of file path and the corresponding file content

   */

  def wholeTextFiles(

      path: String,

      minPartitions: Int = defaultMinPartitions): RDD[(String, String)] = withScope {

    assertNotStopped()

    val job = NewHadoopJob.getInstance(hadoopConfiguration)

    // Use setInputPaths so that wholeTextFiles aligns with hadoopFile/textFile in taking

    // comma separated files as input. (see SPARK-7155)

    NewFileInputFormat.setInputPaths(job, path)

    val updateConf = job.getConfiguration

    new WholeTextFileRDD(

      this,

      classOf[WholeTextFileInputFormat],

      classOf[Text],

      classOf[Text],

      updateConf,

      minPartitions).map(record => (record._1.toString, record._2.toString)).setName(path)

  }

wholeTextFiles读取文件，输入参数为路径，并且可以设置为多个路径，多个路径之间以逗号分隔。wholeTextFiles读取数据会生成一个Tuple2，Tuple2的第一个元素是该文件的完整路径名，第二个元素表示该文件的文本内容（context）。比如两行数据：
　　jack,1011,shanghai

　　kevin,2022,beijing

返回的文本内容是一行字符串，源数据的每行数据以换行符\n分隔，也即：jack,1011,shanghai\nkevin,2022,beijing

分区数可以自定义，如果不显示指定，则默认分区数定义如下：

def defaultMinPartitions: Int = math.min(defaultParallelism, 2)

也就是在不指定分区的情况下，大部分情况都是以2个分区来处理数据。

样例代码：

处理逻辑可以理解为每个小文件对应一个城市的某个区下的所有道路相关的数据（当然了实际数据并不是，哪个城市有几万个几十万个区）。文件名为区的名字，文件内容为道路的名称以及相关数据，在每行道路数据上加上区的名字。

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.sql.SparkSession;

import org.apache.spark.util.SizeEstimator;

import scala.Tuple2;

public class TestWholeTextFiles {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf();

        SparkSession spark = SparkSession

                .builder()

                .appName("TestWholeTextFiles")

                .master("local")

                .config(conf)

                .enableHiveSupport()

                .getOrCreate();

        JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext());

        JavaPairRDD<String, String> javaPairRDD =

                sc.wholeTextFiles("hdfs://master01.xx.xx.cn:8020/kong/capacityLusunData_bak");

        System.out.println("javaPairRDD分区数:"+javaPairRDD.getNumPartitions());//

        JavaRDD<String> map = javaPairRDD.map((Function<Tuple2<String, String>, String>) v1 -> {

            int index = v1._1.lastIndexOf("/");

            String road_id = v1._1.substring(index+1).split("\\.")[0];

            return v1._2.replace("\n", "\\|"+road_id + "\n");

        });

        System.out.println("mapRDD分区数:"+map.getNumPartitions());//

        map.saveAsTextFile("hdfs://master01.xx.xx.cn:8020/kong/data/testwholetextfiles/out");

    }

}

针对小文件的spark wholeTextFiles()的更多相关文章

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题
目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算:另一部分数据则经由Flume存储至HDFS ...
Hadoop对小文件的解决方式
小文件指的是那些size比HDFS的block size(默认64M)小的多的文件.不论什么一个文件,文件夹和block,在HDFS中都会被表示为一个object存储在namenode的内存中, 每一 ...
Hadoop小文件存储方案
原文地址:https://www.cnblogs.com/ballwql/p/8944025.html HDFS总体架构在介绍文件存储方案之前,我觉得有必要先介绍下关于HDFS存储架构方面的一些知识 ...
如何利用Hadoop存储小文件
**************************************************************************************************** ...
spark sql/hive小文件问题
针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/conflue ...
Spark SQL 小文件问题处理
在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼 ...
Spark:spark df插入hive表后小文件数量多，如何合并？
在做spark开发过程中,时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题. 一般情况下通过hive的参数设置: val conf = new SparkConf().setAp ...
数据算法 --hadoop/spark数据处理技巧 --（17.小文件问题 18.MapReuce的大容量缓存）
十七.小文件问题十八.MR的大容量缓存在MR中使用和读取大容量缓存,(也就是说,可能包括数十亿键值对,而无法放在一个商用服务器的内存中).本次提出的算法通用,可以在任何MR范式中使用.(eg:MR ...
Spark优化之小文件是否需要合并?
我们知道,大部分Spark计算都是在内存中完成的,所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存.Spark的性能,想 ...

随机推荐

02-11Android学习进度报告十一
今天我学习了BaseAdapter优化的知识,主要是View方面的优化. 首先是复用复用ConvertView 代码示例: @Override public View getView(int posi ...
第3章 Java基本的程序设计结构
3.运算符浅谈java中源码常见的几个关键字(native,strictfp,transient,volatile) 需要注意 , 整数被 0 除将会产生一个异常, 而浮点数被0 除将会得到无穷大或 ...
一、json与jsonp的使用
1.json与jsonp的引入在ajax中 JSON用来解决数据交换问题,而JSONP来实现跨域. 备注:跨域也可以通过服务器端代理来解决; 理解:JSON是一种数据交换格式,而J ...
day03-Mybatis中一对一、一对多、多对多查询
一对一查询一对一的表结构: my_account表: my_user表: 一对一是互相的,A可以找到B,B也可以找到A,方法是一样的,这里就只写一个方向的通过my_count表找到my_user表 ...
工具 - VS Code
杂项 1. 主题 brackets light pro, One Monokai theme 2. directory tree indent guidelines, directory vertic ...
js学习：函数
概述函数的声明 JavaScript 有三种声明函数的方法 function 命令 function命令声明的代码区块,就是一个函数.function命令后面是函数名,函数名后面是一对圆括号,里面是 ...
Java8新特性——Optional
前言在开发中,我们常常需要对一个引用进行判空以防止空指针异常的出现.Java8引入了Optional类,为的就是优雅地处理判空等问题.现在也有很多类库在使用Optional封装返回值,比如Sprin ...
teraterm中log中加入时间戳
步骤: 1.Setup->Additional settings->log->Timestamp(Local Time) 2.记录log.File->log(Teraterm. ...
BurpSuite pro v2.0.11版
下载地址: 链接:https://pan.baidu.com/s/1CgXgK_lV2OWjRT364hvfog 提取码:gvxy BurpSuite介绍借用一下吾爱破解文章中的描述信息:https ...
Python学习笔记002
字符编码:把二进制字符翻译成字符 ASCII码表 256 一个字节,8个比特支持中文: GB2312 GBK1.0 GB18030 BIG5(台湾) unicode UTF-8 开头定义 ...

针对小文件的spark wholeTextFiles()

针对小文件的spark wholeTextFiles()的更多相关文章

随机推荐

热门专题