Spark SQL读parquet文件及保存

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.sql.hive._

/**

  * Created by soyo on 17-10-12.

  */

case class Persons(name:String,age:Int)

case class Record(key: Int, value: String)

object rdd_to_dataframe_parquet {

  val warehouseLocation = "file:${system:user.dir}/spark-warehouse"

          val spark=SparkSession.builder().config("spark.sql.warehouse.dir",warehouseLocation).enableHiveSupport().getOrCreate()

          import spark.implicits._

  def main(args: Array[String]): Unit = {

        val df =spark.sparkContext.textFile("file:///home/soyo/桌面/spark编程测试数据/people.txt")

           .map(_.split(",")).map(x=>Person(x(),x().trim.toInt)).toDF()

             df.write.parquet("file:///home/soyo/桌面/spark编程测试数据/people.parquet")

     val parquetFile=spark.read.parquet("file:///home/soyo/桌面/spark编程测试数据/people.parquet")

        parquetFile.createOrReplaceTempView("people")

      val result=spark.sql("select * from people")

    result.show()
spark.stop()

补充：需要多数据源整合查询时：

val data=result1.union(result2)

data.createOrReplaceTempView("data") 之后执行后续查询

Spark SQL读parquet文件及保存的更多相关文章

Spark SQL数据加载和保存实战
一:前置知识详解: Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数 ...
spark sql读hbase
项目背景 spark sql读hbase据说官网如今在写,但还没稳定,所以我基于hbase-rdd这个项目进行了一个封装,当中会区分是否为2进制,假设是就在配置文件里指定为#b,如long#b,还实用 ...
spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长（计算Partition时间太长）且产出orc单个文件中stripe个数太多问题解决方案
1.背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式.查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop ...
Spark SQL 读到的记录数与 hive 读到的不一致
问题:我用 sqoop 把 Mysql 中的数据导入到 hive,使用了--delete-target-dir --hive-import --hive-overwrite 等参数,执行了两次. my ...
spark sql/hive小文件问题
针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/conflue ...
[Spark SQL_3] Spark SQL 高级操作
0. 说明 DataSet 介绍 && Spark SQL 访问 JSON 文件 && Spark SQL 访问 Parquet 文件 && Spark ...
Spark SQL数据载入和保存实战
一:前置知识具体解释: Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作. Load:能够创建DataFrame. Save:把DataFrame中 ...
spark SQL （四）数据源 Data Source----Parquet 文件的读取与加载
spark SQL Parquet 文件的读取与加载是由许多其他数据处理系统支持的柱状格式.Spark SQL支持阅读和编写自动保留原始数据模式的Parquet文件.在编写Parquet文件时,出于 ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...

随机推荐

Getting start with dbus in systemd (03) - sd-bus.h 使用例子（systemd version>=221）
sd-bus.h 例子注意: sd-dbus 是systemd提供的lib,但是这个lib,只有在systemd>v221版本后才可以使用,centos 219版本太低,所以不能使用. 参考: ...
moongoTemplate使用
添加依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifact ...
TWaver动画之雷达扫描效果
UI和功能是好的产品的两个重要因素,很多产品往往只注重功能上的设计,而忽略了UI.在这个“看脸”的时代,就算产品的功能很强大,如果UI跟不上步伐,你的产品都会在客户心中大打折扣.做安全和监控的项目中经 ...
Luogu P1692 部落卫队
解题思路数据范围不是很大,那应该不是那些普遍的图论的算法.考虑搜索,用暴力解决.从1到N枚举每一个点的位置,搜索这个点事选还是不选.如果在这个点之前选到的点中又和他冲突的点,那就不选,要么就选. 附 ...
Manacher算法（马拉车算法）浅谈
什么是Manacher算法? 转载自百度百科 Manachar算法主要是处理字符串中关于回文串的问题的,它可以在 O(n) 的时间处理出以字符串中每一个字符为中心的回文串半径,由于将原字符串处理成两倍 ...
MySQL Docker方式安装
以5.7版本为例 1 配置mysql配置文件编辑/etc/my.cnf,添加以下内容: [mysqld] skip-host-cache skip-name-resolve datadir=/var/ ...
React组件设计技巧
React组件设计组件分类展示组件和容器组件展示组件容器组件关注事物的展示关注事物如何工作可能包含展示和容器组件,并且一般会有DOM标签和css样式可能包含展示和容器组件,并且不会有D ...
[bzoj4567][Scoi2016][背单词] (贪心+trie树)
Description Lweb 面对如山的英语单词,陷入了深深的沉思,“我怎么样才能快点学完,然后去玩三国杀呢?”.这时候睿智的凤老师从远处飘来,他送给了 Lweb 一本计划册和一大缸泡椒,他的计 ...
StringBuilder的构造方法
/* * String和StringBuilder的区别: * String的内容是固定的 * StringBuilder的内容是可变的 * 构造方法: * StringBuilder() * 成员方 ...
Mozilla新特性只支持https网站
Mozilla的官方博客2015.4.30正式宣布了淘汰HTTP的方案. 其中包括:设定一个日期,所有的新特性将只提供给HTTPS网站:HTTP网站将逐步被禁止访问浏览器功能,尤其是那些与用户安全和隐 ...

Spark SQL读parquet文件及保存

Spark SQL读parquet文件及保存的更多相关文章

随机推荐

热门专题