38、数据源Parquet之使用编程方式加载数据

一、概述

Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，最新的版本是1.8.0。

列式存储和行式存储相比有哪些优势呢？

1、可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。

2、压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的，可以使用更高效的压缩编码（例如Run Length Encoding和Delta Encoding）进一步节约存储空间。

3、只读取需要的列，支持向量运算，能够获取更好的扫描性能。 

这里讲解Parquet数据源的第一个知识点，使用编程的方式加载Parquet文件中的数据。

二、代码

1、java实现

package cn.spark.study.sql;

import java.util.List;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SQLContext;

/**

 * Parquet数据源之使用编程方式加载数据

 * @author Administrator

 *

 */

public class ParquetLoadData {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setAppName("ParquetLoadData");

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        // 读取Parquet文件中的数据，创建一个DataFrame

        DataFrame usersDF = sqlContext.read().parquet(

                "hdfs://spark1:9000/spark-study/users.parquet");

        // 将DataFrame注册为临时表，然后使用SQL查询需要的数据

        usersDF.registerTempTable("users");

        DataFrame userNamesDF = sqlContext.sql("select name from users");  

        // 对查询出来的DataFrame进行transformation操作，处理数据，然后打印出来

        List<String> userNames = userNamesDF.javaRDD().map(new Function<Row, String>() {

            private static final long serialVersionUID = 1L;

            @Override

            public String call(Row row) throws Exception {

                return "Name: " + row.getString(0);

            }

        }).collect();

        for(String userName : userNames) {

            System.out.println(userName);

        }

    }

}

##打包、上传

##运行脚本

cat parquet_load_data.sh

/usr/local/spark-1.5.1-bin-hadoop2.4/bin/spark-submit \

--class cn.spark.study.sql.ParquetLoadData \

--num-executors 3 \

--driver-memory 100m \

--executor-memory 100m \

--executor-cores 3 \

--files /usr/local/hive/conf/hive-site.xml \

--driver-class-path /usr/local/hive/lib/mysql-connector-java-5.1.17.jar \

/usr/local/spark-study/java/sql/saprk-study-java-0.0.1-SNAPSHOT-jar-with-dependencies.jar \

2、scala实现

package cn.spark.study.sql

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

object ParquetLoadData {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("ParquetLoadData")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    // 读取Parquet文件中的数据，创建一个DataFrame

    val usersDF = sqlContext.read.parquet("hdfs://spark1:9000/spark-study/users.parquet")

    // 将DataFrame注册为临时表，然后使用SQL查询需要的数据

    usersDF.registerTempTable("users")

    val userNameDF = sqlContext.sql("select * from users")

    // 对查询出来的DataFrame进行transformation操作，处理数据，然后打印出来

    userNameDF.rdd.map( row => "Name: " + row(0)).collect()

      .foreach( userName => println(userName))

  }

}

##Export-->打jar包-->上传

##运行脚本

[root@spark1 sql]# cat parquet_load_data.sh

/usr/local/spark-1.5.1-bin-hadoop2.4/bin/spark-submit \

--class cn.spark.study.sql.ParquetLoadData \

--num-executors 3 \

--driver-memory 100m \

--executor-memory 100m \

--executor-cores 3 \

--files /usr/local/hive/conf/hive-site.xml \

--driver-class-path /usr/local/hive/lib/mysql-connector-java-5.1.17.jar \

/usr/local/spark-study/scala/sql/spark-study-scala.jar \

38、数据源Parquet之使用编程方式加载数据的更多相关文章

重新想象 Windows 8 Store Apps (54) - 绑定: 增量方式加载数据
[源码下载] 重新想象 Windows 8 Store Apps (54) - 绑定: 增量方式加载数据作者:webabcd 介绍重新想象 Windows 8 Store Apps 之绑定通过实 ...
DevExpress GridControl 使用瀑布加载方式加载数据
从事winform开发已经快三年了,这三年中两年使用DevExpress控件进行winform系统开发,对Dev控件有自己的一些思考,下面就常用的表格控件GridControl的分页进行一些讨论. 在 ...
关于ligerUI中ligerTree代码中的一个bug，造成该控件无法通过url的POST方式加载数据
该bug造成ligerTree参数中的method无论你怎么设置都只能用get方式提交由于本人水平有限,只是找到原因,但无法修正 ligerUI v1.1.9 版本中的ligerui.all.js文 ...
Select2插件ajax方式加载数据并刷新页面数据回显
今天在优化项目当中,有个要在下拉框中搜索数据的需求:最后选择使用selec2进行开发: 官网:http://select2.github.io/ 演示: 准备工作: 文件需要引入select2.ful ...
[每日一题] OCP1z0-047 :2013-08-17 EXTERNAL TABLE――加载数据 ............................56
正确答案:C 一.对答案解释: A. TYPE:有两个选可供选择: 1. ORACLE_LOADER:传统方式,与SQLLDR一样,参数从多,应用较多. 2. ...
第2节 hive基本操作：11、hive当中的分桶表以及修改表删除表数据加载数据导出等
分桶表将数据按照指定的字段进行分成多个桶中去,说白了就是将数据按照字段进行划分,可以将数据按照字段划分到多个文件当中去开启hive的桶表功能 set hive.enforce.bucketing= ...
Javascript 的模块化编程及加载模块【转载+整理】
http://www.ruanyifeng.com/blog/2012/10/javascript_module.html 本文内容引入模块化最初写法对象写法立即执行函数写法放大模式宽放 ...
《ArcGIS Runtime SDK for Android开发笔记》——（13）、图层扩展方式加载Google地图
1.前言 http://mt2.google.cn/vt/lyrs=m@225000000&hl=zh-CN&gl=cn&x=420&y=193&z=9& ...
MVC Ajax Helper或jQuery异步方式加载部分视图
Model: namespace MvcApplication1.Models { public class Team { public string Preletter { get; set; } ...

随机推荐

【转载】终于有人把“TCC分布式事务”的实现原理讲明白了
之前网上看到很多写分布式事务的文章,不过大多都是将分布式事务各种技术方案简单介绍一下.很多朋友看了还是不知道分布式事务到底怎么回事,在项目里到底如何使用. 所以这篇文章,就用大白话+手工绘图,并结合一 ...
Unity3D 跨平台原理
Unity3D的跨平台原理核心在于对指令集CIL(通用中间语言)的应用. 机理首先需要知道,Unity中的Mono是基于通用语言架构(Common Language Infrastructure, ...
JAVA线程Disruptor核心链路应用（八）
import java.util.concurrent.atomic.AtomicInteger; /** * Disruptor中的 Event * @author Alienware * */ p ...
MVC-08模型
部分7:添加数据模型. MVC模型 MVC模型包含所有应用程序逻辑(业务逻辑.验证逻辑.数据访问逻辑),除了纯视图和控制器逻辑. 通过MVC,模型可保存并操作应用程序数据. Models文件夹 Mod ...
【Linux内核】CPU和线程
首先明确一个概念,Linux系统中甚至没有真正的线程.不过,可以认为Linux是系统的线程是内核线程,所有调度是基于线程的. 1.线程分类一个进程由于其运行空间的不同, 从而有内核线程和用户进程的区 ...
leetcode-45.跳跃游戏II(hard)
给定一个非负整数数组,你最初位于数组的第一个位置. 数组中的每个元素代表你在该位置可以跳跃的最大长度. 你的目标是使用最少的跳跃次数到达数组的最后一个位置. 示例: 输入: [2,3,1,1,4]输出 ...
spring 自定义schema 加载异常 White spaces are required between publicId and systemId.
spring 项目启动报错报错日志如下: Caused by: org.springframework.beans.factory.xml.XmlBeanDefinitionStoreExcepti ...
HDFS-SecondaryNameNode（SNN）角色介绍
它出现在Hadoop1.x版本中,又称辅助NameNode,在Hadoop2.x以后的版本中此角色消失.如果充当datanode节点的一台机器宕机或者损害,其数据不会丢失,因为备份数据还存在于其他的d ...
《Clean Code》读书笔记——第二周
本周我阅读了<Clean Code>. “神在细节中!”,建筑家范德罗如是说.他当然专注于基于宏伟构架之上的永恒建筑形式,他也同样为自己设计的建筑挑选门把手.同样软件开发也是这样,小处见大 ...
使用ImageMagick在Linux系统上截图
ImageMagick安装指令: sudo apt-get install imagemagick 安装完成后,输入 import screenshot.png 命令就可以开始截图.此时鼠标图标会变成 ...

38、数据源Parquet之使用编程方式加载数据

38、数据源Parquet之使用编程方式加载数据的更多相关文章

随机推荐

热门专题