spark sc.textFile() 指定换行符

直接上代码

package com.jason.spark23

import org.apache.spark.sql.SparkSession

import org.apache.spark.SparkContext

import org.apache.spark.rdd.RDD

import org.apache.hadoop.conf.Configuration

import org.apache.hadoop.io.{LongWritable, Text}

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat

object WriteTest {

  implicit class ContextExtensions(val sc: SparkContext) extends AnyVal {

    def textFile(

                  path: String,

                  delimiter: String,

                  maxRecordLength: String = ""

                ): RDD[String] = {

      val conf = new Configuration(sc.hadoopConfiguration)

      // This configuration sets the record delimiter:

      conf.set("textinputformat.record.delimiter", delimiter)

      // and this one limits the size of one record:

      conf.set("mapreduce.input.linerecordreader.line.maxlength", maxRecordLength)

      sc.newAPIHadoopFile(

        path,

        classOf[TextInputFormat], classOf[LongWritable], classOf[Text],

        conf

      )

        .map { case (_, text) => text.toString }

    }

  }

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder()

      .appName("readtest")

      .master("local")

      .getOrCreate()

    import spark.implicits._

    /*val pathjson = "C:\\notos\\code\\sparktest\\src\\main\\resources\\employees.json"

    println("====json df") //jsondf 会自动给schema设置类型

    val jsonDf = spark.read.json(pathjson)

    jsonDf.show()

    //jsonDf.write.format("text").save("C:\\notos\\code\\sparktest\\src\\main\\resources\\text")

    jsonDf.rdd.saveAsTextFile("")*/

    val pathtxt = "C:\\notos\\code\\sparktest\\src\\main\\resources\\people2.txt"

    val dd = spark.read.option("textinputformat.record.delimiter","||").format("text").load(pathtxt)

    dd.show()

    dd.rdd.collect.foreach(println)

    val sc = spark.sparkContext

    val people2 = sc.textFile(pathtxt,"||")

    people2.collect().foreach(println)

    spark.stop()

  }

}

这里使用了scala 中的隐式转换，当调用sc.textFile(path,delimiter)时 sc会被自动包装成ContextExtensions ，并调用其textFile 方法

spark sc.textFile() 指定换行符的更多相关文章

python tips:文件读取——换行符的问题
问题:在windows系统中,换行的符号是'\r\n'.python在读文件的时候为了系统兼容,会默认把'\r','n','\r\n'都视作换行.但是在windows文件中,可能在同一行中同时存在'\ ...
sc.textFile("file:///home/spark/data.txt") Input path does not exist解决方法——submit 加参数 --master local 即可解决
use this val data = sc.textFile("/home/spark/data.txt") this should work and set master as ...
SQL：指定名称查不到数据的衍伸~空格换行符回车符的批量处理
异常处理汇总-数据库系列 http://www.cnblogs.com/dunitian/p/4522990.html 先看看啥情况复制查询到的数据,粘贴一下看看啥情况那就批量处理一下~ 就这样 ...
使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）
最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右 ...
Linux文件和windows文件在换行符的区别
Linux或Unix文件,和windows文件,在来回处理时,如果不注意换行符的区别,可能导致程序错误!!!深刻的教训.... 在早期的打印机时代,开始新的一行要占用两个字符的时间.如果到了一行的结 ...
sc.WholeTextFiles与sc.textFile区别
val data1 = sc.wholeTextFiles("/opt/test")val data = sc.textFile("/opt/test/") ...
textarea 中的换行符问题
下面是我对这个问题的解决过程,最后算是完全搞懂了,真是阴沟里险些翻船 1.必须知道textarea中的换行符是 \n (个人检测发现按回车键是\n,好像在linux下是\r\n) 2.用nl2br之 ...
CCLabelTTF 如何支持换行符和换行
参考自http://www.cocos2d-x.org/wiki/How_does_CCLabelTTF_support_line_breaks_and_wrapping 环境: cocos2d-x ...
Java吸收换行符
今天做题遇到的-- 由于读入的字符串可能包含空格,所以采用nextLine. int n = sc.nextInt(); for(int i=0; i<n; i+ ...

随机推荐

SpringBoot——探究HelloWorld【三】
前言前面我们写了helloworld的一个,这里我们对他进行分析探究那么下面就开始我们的探究之旅吧,首先从POM文件来,在POM文件中我们导入了项目所需要的依赖 POM文件父项目 <pa ...
Oracle之常用sql
SQL函数本文PDF下载本文示例数据库下载一旦成功地从表中检索出数据,就需要进一步操纵这些数据,以获得有用或有意义的结果.这些要求包括:执行计算与数学运算.转换数据.解析数值.组合值和聚合一个范 ...
c+多态的本质：编译器维护了类型信息同时插入了解释执行机制
Calling a virtual function is slower than calling a non-virtual function for a couple of reasons: Fi ...
js编程思想：模型进化论--JS 的 new 到底是干什么的？
想象我们在制作一个策略类战争游戏,玩家可以操作一堆士兵攻击敌方. 我们着重来研究一下这个游戏里面的「制造士兵」环节. 一个士兵的在计算机里就是一堆属性,如下图: 一.荒蛮时代:对象是数据的集合我们只 ...
How do I fix "selector not recognized" runtime exceptions when trying to use category methods from a static library?
https://developer.apple.com/library/content/qa/qa1490/_index.html A: If you're seeing a "select ...
vote
package 投票管理; import java.io.*; import java.awt.*; import java.util.*; import java.applet.*; import ...
全部文章> Maven
Maven 原 Maven中<resources>标签详解 &nbsp;&nbsp;&nbsp;&nbsp;& ...
bzoj3745: [Coci2015]Norma 分治，单调队列
链接 bzoj 思路首先\(\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}\sum\limits_{k=i}^{j}max(a_k)\)可以用单调队列求解.参见 ...
CCF 201812-3 CIDR合并
CCF 201812-3 CIDR合并 //100分 93ms #include<stdio.h>//CCF上stdio.h比cstdio快!!! #include<string.h ...
【luoguP2989】[USACO10MAR]对速度的需要Need For Speed
题目描述最大化平均值二分一个\(x\) \(check\): \(\frac{F+\sum_{i=1}^{n} X_{i} \times F_{i}}{M+\sum_{i=1}^{n} X_{i} ...

spark sc.textFile() 指定换行符

spark sc.textFile() 指定换行符的更多相关文章

随机推荐

热门专题