Spark读取结构化数据

　　读取结构化数据

　　Spark可以从本地CSV，HDFS以及Hive读取结构化数据，直接解析为DataFrame，进行后续分析。

　　读取本地CSV

　　需要指定一些选项，比如留header，比如指定delimiter值，用，或者\t或者其他。

　　import org.apache.spark.sql.{DataFrame, SparkSession}object ReadCSV { val spark: SparkSession = SparkSession

　　.builder()

　　.appName(Spark Rocks)

　　.master(local[*])

　　.getOrCreate() val path: String = /path/to/file/data.csv

　　val df: DataFrame = spark.read

　　.option(header,true)

　　.option(inferSchema,true)

　　.option(delimiter,,)

　　.csv(path)

　　.toDF() def main(args: Array[String]): Unit = {

　　df.show()

　　df.printSchema()

　　}

　　读取Hive数据

　　SparkSession可以直接调用sql方法，传入sql查询语句即可。返回的DataFrame可以做简单的变化，比如转换

　　数据类型，对重命名之类。

　　import org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.sql.types.IntegerTypeobject ReadHive { val spark: SparkSession = SparkSession

　　.builder()

　　.appName(Spark Rocks)

　　.master(local[*])

　　.enableHiveSupport() // 需要开启Hive支持

　　.getOrCreate() import spark.implicits._ //隐式转换

　　val sql: String = SELECT col1, col2 FROM db.myTable LIMIT 1000

　　val df: DataFrame = spark.sql(sql)

　　.withColumn(col1, $col1.cast(IntegerType))

　　.withColumnRenamed(col2,new_col2) def main(args: Array[String]): Unit = {

　　df.show()

　　df.printSchema()

　　}

　　读取HDFS数据

　　HDFS上没有数据无法获取表头，需要单独指定。可以参考databricks的网页。一般HDFS默认在9000端口访问。

　　import org.apache.spark.sql.{DataFrame, SparkSession}object ReadHDFS { val spark: SparkSession = SparkSession

　　.builder()

　　.appName(Spark Rocks)

　　.master(local[*])

　　.getOrCreate() val location: String = hdfs://localhost:9000/user/zhangsan/test

　　val df: DataFrame = spark

　　.read

　　.format(com.databricks.spark.csv)

　　.option(inferSchema,true)

　　.option(delimiter,\001)

　　.load(location)

　　.toDF(col1,col2) def main(args: Array[String]): Unit = {

　　df.show()

　　df.printSchema()

　　}

Spark读取结构化数据的更多相关文章

Spark SQL - 对大规模的结构化数据进行批处理和流式处理
Spark SQL - 对大规模的结构化数据进行批处理和流式处理大体翻译自:https://jaceklaskowski.gitbooks.io/mastering-apache-spark/con ...
Spark如何与深度学习框架协作，处理非结构化数据
随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术对非结构化数据(如图片.音频.文本)进行大数据处理的业务场景越来越多.本文会介绍Spark如何与深度学习框架进行协同工作,在大数 ...
seo之google rich-snippets丰富网页摘要结构化数据（微数据）实例代码
seo之google rich-snippets丰富网页摘要结构化数据(微数据)实例代码网页摘要是搜索引擎搜索结果下的几行字,用户能通过网页摘要迅速了解到网页的大概内容,传统的摘要是纯文字摘要,而结 ...
Salesforce开源TransmogrifAI：用于结构化数据的端到端AutoML库
AutoML 即通过自动化的机器学习实现人工智能模型的快速构建,它可以简化机器学习流程,方便更多人利用人工智能技术.近日,软件行业巨头 Salesforce 开源了其 AutoML 库 Transmo ...
Bigtable：一个分布式的结构化数据存储系统
Bigtable:一个分布式的结构化数据存储系统摘要 Bigtable是一个管理结构化数据的分布式存储系统,它被设计用来处理海量数据:分布在数千台通用服务器上的PB级的数据.Google的很多项目将 ...
H5中使用Web Storage来存储结构化数据
在上一篇对Web Storage的介绍中,可以看到,使用Storage保存key—value对时,key.value只能是字符串,这对于简单的数据来说已经够了,但是如果需要保存更复杂的数据,比如保存类 ...
Bigtable:结构化数据的分布式存储系统
Bigtable最初是谷歌设计用来存储大规模结构化数据的分布式系统,其可以在数以千计的商用服务器上存储高达PB级别的数据量.开源社区根据Bigtable的设计思路开发了HBase.其优势在于提供了高效 ...
MySQL 5.7：非结构化数据存储的新选择
本文转载自:http://www.innomysql.net/article/23959.html (只作转载, 不代表本站和博主同意文中观点或证实文中信息) 工作10余年,没有一个版本能像MySQL ...
WordPress插件--WP BaiDu Submit结构化数据插件又快又全的向百度提交网页
一.WP BaiDu Submit 简介 WP BaiDu Submit帮助具有百度站长平台链接提交权限的用户自动提交最新文章,以保证新链接可以及时被百度收录. 安装WP BaiDu Submit后, ...

随机推荐

边的双联通+缩点+LCA（HDU3686）
Traffic Real Time Query System Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K ...
最小树形图（hdu4966多校联赛9）
GGS-DDU Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others) Total ...
从零打造在线网盘系统之Hibernate查询与更新技术
欢迎浏览Java工程师SSH教程从零打造在线网盘系统系列教程,本系列教程将会使用SSH(Struts2+Spring+Hibernate)打造一个在线网盘系统,本系列教程是从零开始,所以会详细以及着重 ...
tensorflow和python操作中的笔记
前一段时间做了一些项目,把一些笔记放在了txt中,现分享出来,自己也能够时长预习. 1) 读取文件时,将固定的文件地址,采用数组或者字符串的形式,提前表示出来,后期使用时候采用拼接操作 2) # 得到 ...
如何在chrome上开启WebGL功能和判断目前浏览器是否支持
1.开启方式: 第一种:打开cmd,切换到Chorme的安装目录,敲入chrome.exe --enable -webgl,回车就会打开一个chrome浏览器窗口: 第二种:找到Chrome浏 ...
（2.10）Mysql之SQL基础——约束及主键重复处理
(2.10)Mysql之SQL基础——约束及主键重复处理关键词:mysql约束,批量插入数据主键冲突 [1]查看索引: show index from table_name; [2]查看有约束的列: ...
[py]python中__new__作用
元类metaclass 使劲搞,但是没搞清楚__new__的作用了解Python元类 Python进阶:一步步理解Python中的元类metaclass Python中的__new__和__init ...
linux问题点滴，给普通用户添加sudo权限
最近又把linux捡起来了,虚拟机中安个元老级centos5.3继续搞.使用sudo临时获取超管权限命令时,提示”xxx is not in the sudoers file. This incide ...
(android实战)破解apk
简单的总结几个关键步骤: 一.工具准备:apktool , dex2jar , jd-gui 二.使用dex2jar + jd-gui 得到apk的java源码 1.用解压工具从 apk包中取出 cl ...
expdp&impdp备份恢复常用命令
备份前准备创建备份用户 create user backup identified by backup#2018 ; 授予导入导出角色 grant connect,resource to backu ...

Spark读取结构化数据

Spark读取结构化数据的更多相关文章

随机推荐

热门专题