Scala构建元数据
反射方式构建元数据:
通过反射来获取RDD中的Schema信息。这种方式适合于列名(元数据)已知的情况下
步骤:
1.SparkConf配置环境
2.SparkContext初始化上下文
3.SQLContext初始化SparkSQL上下文
4.创建一个普通的RDD(sc.textFile)
5.使用map方法切割行数据,切割取出数据放入case类中
studented(lines(0).toInt, lines(1), lines(2).toInt)
6.反射方式中普通RDD创建DataFrame需要导入隐式转换
//注意:需要导入一个隐式转换
import sQLContext.implicits._
val df: DataFrame = rdd2.toDF()
7.注册临时表
方式一: df.createTempView("student1")
方式二: df.registerTempTable("student") //过时了
8.写SQL语句,自由的浪起来
val sql = sQLContext.sql("select * from student")
9.保存结果到本地或者HDFS
//保存查询结果到本地
sql.write.json("c:\\demo\\gaoyong.json")
//保存查询结果到HDFS
sql.write.json("hdfs://awen01:9000/json")
编程接口方式构建元数据:
通过编程接口的方式将Schema信息应用于RDD,这种方式可以处理那种在运行时才能知道列的方式。
一般不知道元数据的情况下使用.
步骤:
1.SparkConf配置环境
2.SparkContext初始化上下文
3.SQLContext初始化SparkSQL上下文
4.创建一个普通的RDD(sc.textFile)
5.使用map切割行数据,将需要的字段放入到Row类中
val lines: RDD[Row] = rdd.map(t => {
val str = t.split(",")
Row(str(0).toInt, str(1), str(2).toInt)
})
6.编程结构的方式需要构建表的框架,构建StructType,及其元数据
val structType: StructType = StructType(Array(
StructField("ids",IntegerType,true)
StructField("names",StringType,true)
StructField("ages",IntegerType,true)
))
7.构建DataFrame
val df = sQLContext.createDataFrame(lines,structType)
8.注册临时表
方式一: df.createTempView("student1")
方式二: df.registerTempTable("student") //过时了
9.写SQL语句,自由的浪起来
val sql = sQLContext.sql("select * from student")
10.保存结果到本地或者HDFS
//保存查询结果到本地
sql.write.json("c:\\demo\\gaoyong.json")
//保存查询结果到HDFS
sql.write.json("hdfs://awen01:9000/json")
Scala构建元数据的更多相关文章
- scala构建类似java的pojo
主要看以下代码: package com.test.scalaw.test.demo import scala.beans.BeanProperty /** * scala构建类似java 的pojo ...
- 【Scala-ML】怎样利用Scala构建并行机器学习系统
引言 在学习Scala的过程中,我发现其在构建大规模分布式计算系统上有与生俱来的特质. 其丰富的类型系统能够帮助编程设计提供非常好的信息隐藏和抽象,其monoids和monads概念利用Scala高阶 ...
- 【Scala-ML】使用Scala构建机器学习工作流
引言 在这一小节中.我将介绍基于数据(函数式)的方法来构建数据应用.这里会介绍monadic设计来创建动态工作流,利用依赖注入这种高级函数式特性来构建轻便的计算工作流. 建模过程 在统计学和概率论中, ...
- Scala构建工具SBT
SBT(Simple Build Tool)是Scala的项目构建工具,拥有依赖管理,构建过程管理和打包等功能. SBT官网上给出各平台的安装方法: MAC: 使用homebrew安装 brew in ...
- Scala构建工具sbt的配置
时间是17年12月24日.初学Scala,想使用它的标配构建工具sbt,结果好大一轮折腾,因为公司隔离外网,需要内部代理,所以尤其折腾.下面的配置参考了好多篇不同的文章,已经没法一一留下出处了.而且还 ...
- scala泛函编程是怎样被选中的
现在计算机技术发展现象是:无论硬件技术如何发展都满足不了软件需求:无论处理器变得能跑多快,都无法满足软件对计算能力的需要.按照摩尔定律(Moore's Law)处理器(CPU)每平方面积上包含的半导体 ...
- 利用Google开源Java容器化工具Jib构建镜像
转载:https://blog.csdn.net/u012562943/article/details/80995373 一.前言 容器的出现让Java开发人员比以往任何时候都更接近“编写一次,到处运 ...
- 加速和简化构建Docker(基于Google jib)
赵安家 2019年02月11日阅读 1518 关注 加速和简化构建Docker(基于Google jib) 介绍 其实jib刚发布时就有关注,但是一直没有用于生产,原因有二 基于 spotify/do ...
- Scala学习一——基础
一.使用Scala解释器 如果以命令行的方式运行,输出的结果会把类型带上,且结果名默认为res0递增.且Scala解释器读到一个解释器求值打印然后读取下一个(这个过程为读取-求值-打印-循环[REPL ...
随机推荐
- JavaSE之Java基础(1)
1.为什么重写equals还要重写hashcode 首先equals与hashcode间的关系是这样的: 1.如果两个对象相同(即用equals比较返回true),那么它们的hashCode值一定要相 ...
- CSS列表(新闻列表、导航条)常见写法
以下面这个UL做演示 <ul> <li><a href="#"><span>2014-4-1</span>教育</ ...
- CST,CET,UTC,GMT,DST,Unix时间戳几种常见时间概述与关系
1.UTC: Universal Time Coordinated 协调世界时,又称世界标准时间 多数的两地时间表都以GMT来表示,但也有些两地时间表上看不到GMT字样,出现的反而是UTC这3个英文字 ...
- angular解决压缩问题,和传送数据
1.angular解决压缩的方法 var app = angular.module("mk",[]); app.controller("ctrl",['$sco ...
- vue2 关于ref
1,VUE2子组件索引 <div id="app"> <navbar></navbar> <pagefooter></page ...
- Android 切换主题换肤实现
思路以及实现 1.主题的切换以及实现 首先我们先来明确个概念,现在我所说的切换主题,就切换整个app的颜色风格,当然也有少部分的图片的切换.注意哦 我这边说的是少部分图片哦!如果是大面积的换图片的吧! ...
- Cocos2d-x v3.1项目创建(三)
Cocos2d-x v3.1项目创建(三) Cocos2d-x官方为我们提供了用于创建.编译.运行和部署的一套命令行的工具集,也就是上篇文章中我们所提到的Cocos2d-Console,它位于我们的引 ...
- 解决javascript四舍五入不准确
function roundFixed(num, fixed) { var pos = num.toString().indexOf('.'), decimal_places = num.toStri ...
- 常见O/R框架介绍
1.hibernate(JPA的一个实现,同时也有自己的特色)2.toplink3.jdo4.ibatis 4.JPA a)意愿统一天下
- 转发-react 性能深度探讨
作者:尤雨溪链接:https://www.zhihu.com/question/31809713/answer/53544875来源:知乎 这里面有好几个方面的问题. 1. 原生 DOM 操作 vs. ...