spark中数据的读取与保存

1.文本文件

(1)读取文本文件

JavaRDD<String> input =sc.textFile(dir)

(2)保存文本文件

result.saveAsTextFile(dir);

2.Json

（1）gson

①Gson中需要创建JavaBean实体类来说明json的格式。

以下是javaBean的示例程序，Person，其中有两个字段，分别代表姓名和年龄。

public class Person {
    private String name;
    private int age;

    public Person(String name, int age) {
        this.name = name;
        this.age = age;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }
}

② 通过Person实例创建Json String

final Gson gson=new Gson();
Person jack =new Person("jack",21);
String json=gson.toJson(jack);
System.out.println(json);

输出：

{"name":"jack","age":21}

③ 通过Json String 重建javaBean实例

try {
    Person someone=gson.fromJson(json,Person.class);

    System.out.println("name if someone is"+someone.getName());
    System.out.println("age of someone is"+someone.getAge());

} catch (JsonSyntaxException e) {
    e.printStackTrace();
}

输出：

name if someone is jack

age of someone is 21

（2）fastJson

fastJson中也要借助javaBean完成json String的创建和解析，我们依然采用上文Person类作为javaBean的定义。

① 通过Person实例创建json String

Person jack =new Person("jack",21);
String json = JSON.toJSONString(jack);
System.out.println(json);

② 解析json String

Person someone=JSON.parseObject(json,Person.class);

*注意，fastJson发序列化json String javaBean定义中必须加上默认构造函数，就像Person类的定义中需要对默认构造函数的定义，否则会报错：

public Person(){

}

3.逗号分隔值与制表符分隔值

(1)创建csv文件

//创建CSVWriter,文件路径为c://test.csv,分隔符为制表符
CSVWriter writer =new CSVWriter(new FileWriter("C://test.csv"),'\t');
//需要写入csv文件的一行的三个String
String [] line={"aaa","bbb","ccc"};
//写入这一行
writer.writeNext(line);
writer.close();

输出：

"aaa" "bbb" "ccc"

如果要连续输出几行的数据，可以这么做：

//创建CSVWriter,文件路径为c://test.csv,分隔符为制表符
CSVWriter writer =new CSVWriter(new FileWriter("C://test.csv"),'\t');
List<String[]> lines=new ArrayList<String[]>();
lines.add(new String []{"hhh","ggg","hhh"});
lines.add(new String[]{"xxx","yyy","zzz"});
writer.writeAll(lines);
writer.close();

输出：

"hhh" "ggg" "hhh"

"xxx" "yyy" "zzz"

(2)读取csv文件

现在我们用OpenCsv来读取我们刚才创建的csv文件，实现如下：

//读取csv文件，以行为单位，保存在lines中
JavaRDD<String> lines = sc.textFile("C://test.csv");
//定义如何将一行中的元素读取出来，以String[]的形式返回
class ParseLine  implements  Function<String,String[]>{

    public String[] call(String s) throws Exception {
        //新建CSVReader对象，分隔符定为'\t'制表符
        CSVReader reader =new CSVReader(new StringReader(s),'\t');
        //以数组的形式返回每一行中的元素
        return reader.readNext();
    }
}
//利用ParseLine，转化处理lines
JavaRDD<String[]> results=lines.map(
       new ParseLine()
);
//遍历输出results中的内容
for(String  s []: results.collect() ){
    System.out.println("this is the elements of one line!");
    for(String str:s)
        System.out.println(str);
}

4.SequenceFile

(1)简介

SequenceFile是由没有相对关系结构的键值对组成的常用hadoop格式。SequenceFile文件有同步标记，Spark可以用它来定位到文件的某个点，然后再与记录的边界对齐。这可以让Spark使用多个节点高效地并行读取SequenceFile文件。SequenceFile也是Hadoop MapReduce作业中常用的输入输出格式。

(2)以SequenceFile的格式保存PairRDD

//新建PairRDD<String,Integer>
JavaPairRDD<String,Integer> data =sc
        .parallelizePairs(Arrays.asList(new Tuple2<String, Integer>("zhouyang", 1),
                new Tuple2<String, Integer>("jack", 2),
                new Tuple2<String, Integer>("bob", 3)));
//将PairRDD<String,Integer> 转换为hadoop io中对应的格式 PairRDD<Text,IntWritable> 
JavaPairRDD<Text,IntWritable>  result =data.mapToPair(
        new PairFunction<Tuple2<String, Integer>, Text, IntWritable>() {
            public Tuple2<Text, IntWritable> call(Tuple2<String, Integer> record) throws Exception {
                return new Tuple2(new Text(record._1()),new IntWritable(record._2()));
            }
        }
);
//将result以SequenceFile保存在指定目录下
result.saveAsHadoopFile("C://hadoop.file",Text.class,IntWritable.class, SequenceFileOutputFormat.class);

(3)读取SequenceFile中的PairRDD，在(2)中创建的hadoop.file文件

JavaPairRDD<Text,IntWritable> input=sc.sequenceFile("c://hadoop.file",Text.class,IntWritable.class);
JavaPairRDD<String,Integer> results =input.mapToPair(
        new PairFunction<Tuple2<Text, IntWritable>, String, Integer>() {
            public Tuple2<String, Integer> call(Tuple2<Text, IntWritable> record) throws Exception {
                return new Tuple2<String,Integer>(record._1().toString(),record._2().get());
            }
        }
);
for(Tuple2<String,Integer> tuple: results.collect())
    System.out.println(tuple._1()+"->" +tuple._2());

(4)对象文件

对象文件允许存储只包含值的RDD。和普通的SequenceFile不同，对于同样的对象，对象文件的输出和Hadoop输出不一样。

① 将PairRDD保存为对象文件

JavaPairRDD<String,Integer> data =sc
        .parallelizePairs(Arrays.asList(new Tuple2<String, Integer>("zhouyang", 1),
                new Tuple2<String, Integer>("jack", 2),
                new Tuple2<String, Integer>("bob", 3)));
data.saveAsObjectFile("c://object.file");

② 读取对象文件的PairRDD,因为对象文件只存储包含值的RDD,所以读出时，应为JavaRDD<Tuple2<String,Integer>>格式

JavaRDD<Tuple2<String,Integer>> input=sc.objectFile("c://object.file");
for(Tuple2<String,Integer> tuple:input.collect()){
    System.out.println(tuple._1()+" -> "+tuple._2());
}

5. protocol buffer

来自为知笔记(Wiz)

spark中数据的读取与保存的更多相关文章

Numpy中数据的常用的保存与读取方法
小书匠深度学习文章目录: 1.保存为二进制文件(.npy/.npz) numpy.save numpy.savez numpy.savez_compressed 2.保存到文本文件 numpy. ...
Python Numpy中数据的常用的保存与读取方法
在经常性读取大量的数值文件时(比如深度学习训练数据),可以考虑现将数据存储为Numpy格式,然后直接使用Numpy去读取,速度相比为转化前快很多. 下面就常用的保存数据到二进制文件和保存数据到文本文件 ...
Spark SQL数据加载和保存实战
一:前置知识详解: Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数 ...
IOS webview中cookie的读取与保存－b
Cookie 的读取将它放在 webViewDidFinishLoad 开始后执行 NSArray *nCookies = [[NSHTTPCookieStorage sharedHTTPCooki ...
spark中数据倾斜解决方案
数据倾斜导致的致命后果: 1 数据倾斜直接会导致一种情况:OOM. 2 运行速度慢,特别慢,非常慢,极端的慢,不可接受的慢. 搞定数据倾斜需要: 1.搞定shuffle 2.搞定业务场景 3 搞定 c ...
Numpy中数据的常用的保存与读取
保存到文本文件numpy.savetxt()numpy.loadtxt() import numpy as np x= np.arange(0,10,0.1) np.savetxt('save_x', ...
R语言学习笔记（数据的读取与保存）
library(MASS)#载入package MASSdata(package="MASS") #查看MASS中的数据集data(SP500,package="MASS ...
【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性
本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). ...
Ubuntu10.04中利用V4L2读取摄像头数据并保存成文件【转】
转自:http://blog.chinaunix.net/uid-29339876-id-4042245.html 利用V4L2读取UVC摄像头数据并保存成视频文件,主要参考http://linuxt ...

随机推荐

[code]字母重排
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 3 ...
codeforces div2 677 D
http://codeforces.com/problemset/problem/677/D 题目大意: 给你一个n*m的图,上面有p种钥匙(p<=n*m),每种钥匙至少有一个,期初所有为1的钥 ...
ztree异步加载
Ztree异步加载的意思就是: 当点击展开树节点时,才去请求后台action返回点击节点的子节点数据并加载. 直接贴代码(SpringMvc+Mybatis): 前台页面ztreeList.jsp: ...
使用response实现文件下载注意点
创建web工程,使用response实现文件的下载. 在webRoot下创建download文件,里面包含要下载的文件,现在把源码贴上来,然后再说我遇到的问题 public class DownLoa ...
unity3d 多人寻路堵塞堆叠问题
使用unity提供的NavMeshAgent寻路,当有多个agent一起寻路时总会出现堵塞堆叠的问题. 本人使用了一个非常粗劣简单的方案解决此问题,当然跟魔兽的寻路完全没得比,但保证有比较好的性能,且 ...
win10 下使用虚拟机安装ubuntu及其网络配置
通过虚拟机安装ubuntu 我的机器是64位的win10系统,使用的虚拟机VMware workstation 12 pro 安装的是ubuntu 14.04, 网上教程很多,很详细也有有效 win1 ...
EF 报【序列包含一个以上的元素】解决办法
1.检查模型是否存在重复的字段,eg: public class AggregateRoot { public System.Guid Guid { get; set; } } public part ...
怎样让一个div高度自适应浏览器高度
原文:http://www.jb51.net/web/79171.html 原文:http://zhidao.baidu.com/link?url=oId1sFRhiBnV37-RmRE6WQNHxi ...
[iOS] 响应式编程开发-ReactiveCocoa(一)
什么是响应式编程响应式编程是一种面向数据流和变化传播的编程范式.这意味着可以在编程语言中很方便地表达静态或动态的数据流,而相关的计算模型会自动将变化的值通过数据流进行传播. 例如,在命令式编程环境中 ...
[iOS Animation]-CALayer 性能优化
性能优化代码应该运行的尽量快,而不是更快 - 理查德在第一和第二部分,我们了解了Core Animation提供的关于绘制和动画的一些特性.Core Animation功能和性能都非常强大,但如果 ...

spark中数据的读取与保存

spark中数据的读取与保存的更多相关文章

随机推荐

热门专题