Spark之SparkSql

-- Spark SQL 以编程方式指定模式

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

val employee = sc.textFile("/root/wangbin/employee.txt")

1201,satish,25

1202,krishna,28

1203,amith,39

1204,javed,23

1205,prudvi,23

val schemaString = "id,name,age"

import org.apache.spark.sql.Row;

import org.apache.spark.sql.types.{StructType, StructField, StringType};

val schema = StructType(schemaString.split(",").map(fieldName => StructField(fieldName, StringType, true)))

val rowRDD = employee.map(_.split(",")).map(e => Row(e(0), e(1), e(2)))

-- 通过使用roRDDdata和模式（SCHEMA）变量创建DataFrame。

val employeeDF = sqlContext.createDataFrame(rowRDD, schema)

-- 使用以下命令将数据帧存储到名为employee的表中。

employeeDF.registerTempTable("employee2")

-- 使用以下语句从employee表中选择所有记录。

val allrecords = sqlContext.sql("SELECT * FROM employee2")

-- 查看所有记录数据帧的结果数据

allrecords.show()

+----+-------+---+

|  id|   name|age|

+----+-------+---+

|1201| satish| 25|

|1202|krishna| 28|

|1203|  amith| 39|

|1204|  javed| 23|

|1205| prudvi| 23|

+----+-------+---+

Spark之SparkSql的更多相关文章

Hive On Spark和SparkSQL
SparkSQL和Hive On Spark都是在Spark上实现SQL的解决方案.Spark早先有Shark项目用来实现SQL层,不过后来推翻重做了,就变成了SparkSQL.这是Spark官方Da ...
基于Spark和SparkSQL的NetFlow流量的初步分析——scala语言
基于Spark和SparkSQL的NetFlow流量的初步分析--scala语言标签: NetFlow Spark SparkSQL 本文主要是介绍如何使用Spark做一些简单的NetFlow数据的 ...
Spark系列-SparkSQL实战
Spark系列-初体验(数据准备篇) Spark系列-核心概念 Spark系列-SparkSQL 之前系统的计算大部分都是基于Kettle + Hive的方式,但是因为最近数据暴涨,很多Job的执行时 ...
hive on spark VS SparkSQL VS hive on tez
http://blog.csdn.net/wtq1993/article/details/52435563 http://blog.csdn.net/yeruby/article/details/51 ...
Spark(四): Spark-sql 读hbase
SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与h ...
Spark记录-SparkSql官方文档中文翻译（部分转载）
1 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算.Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查 ...
Spark记录-SparkSQL相关学习
$spark-sql --help 查看帮助命令 $设置任务个数,在这里修改为20个 spark-sql>SET spark.sql.shuffle.partitions=20; $选择数据 ...
Spark之 SparkSql整合hive
整合: 1,需要将hive-site.xml文件拷贝到Spark的conf目录下,这样就可以通过这个配置文件找到Hive的元数据以及数据存放位置. 2,如果Hive的元数据存放在Mysql中,我们还需 ...
Spark之 SparkSql、DataFrame、DataSet介绍
SparkSql SparkSql是专门为spark设计的一个大数据仓库工具,就好比hive是专门为hadoop设计的一个大数据仓库工具一样. 特性: .易整合可以将sql查询与spark应用程序进 ...
Spark记录-SparkSQL远程操作MySQL和ORACLE
1.项目引入mysql和oracle驱动 2.将mysql和oracle驱动上传到hdfs 3.远程调试源代码如下: import org.apache.spark.sql.SQLContext im ...

随机推荐

yii2框架学习一 yii安装与常见问题
1 安装安装有两种 cpmposer 喝归档文件安装这里采用的归档文件安装归档文件安装分为两种基础末班和高级模板,这里采用高级模板在官网或者yii-china 下载归档文件解 ...
wxWidgets初学者导引（2）——下载、安装wxWidgets
wxWidgets初学者导引全目录 PDF版及附件下载 1 前言2 下载.安装wxWidgets3 wxWidgets应用程序初体验4 wxWidgets学习资料及利用方法指导5 用wxSmith ...
专访黄勇：Java在未来的很长一段时间仍是主流（把老板当情人，把同事当小孩，把客户当病人）
url:http://www.csdn.net/article/2015-09-06/2825621 2015-09-06 13:18 摘要:本文采访了现任阿里巴巴公司系统架构师黄勇,从事近十年的Ja ...
入骨三分的“我们是谁”IT行业版
这组漫画用简单的台词.粗犷的线条,把很多人心中对甲方(客户)的不满彻底地发泄了一通,并且出现了很多变种版本,引发了传播热潮. http://news.sina.com.cn/c/nd/2017-08- ...
（转）移动端自定义返回上一页的方法：history
在实际的应用中,我们常常需要实现在移动app和浏览器中点击返回.后退.上一页等按钮实现自己的关闭页面.调整到指定页面或执行一些其它操作的需求. 那在代码中怎样监听当点击微信.支付宝.百度糯米.百度钱包 ...
Logback 专题
logback-spring.xml <?xml version="1.0" encoding="UTF-8"?> <configuratio ...
最简单的IdentityServer实现——IdentityServer
1.新建项目新建ASP .Net Core项目IdentityServer.EasyDemo.IdentityServer,选择.net core 2.0 1 2 引用IdentitySer ...
C# 自定义泛型类，并添加约束
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threa ...
Httpclient Fluent API简单封装
import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.List ...
API HOOK介绍【转】
什么是“跨进程 API Hook”? 众所周知Windows应用程序的各种系统功能是通过调用API函数来实现.API Hook就是给系统的API附加上一段小程序,它能监视甚至控制应用程序对API函数的 ...

Spark之SparkSql

Spark之SparkSql的更多相关文章

随机推荐

热门专题