Scala构建元数据

阿文awen 2024-09-04 15:00:34 原文

反射方式构建元数据:　

　　通过反射来获取RDD中的Schema信息。这种方式适合于列名(元数据)已知的情况下

　　　　步骤:

　　　　　　1.SparkConf配置环境

　　　　　　2.SparkContext初始化上下文

　　　　　　3.SQLContext初始化SparkSQL上下文

　　　　　　4.创建一个普通的RDD(sc.textFile)

　　　　　　5.使用map方法切割行数据,切割取出数据放入case类中

　　　　　　　　　studented(lines(0).toInt, lines(1), lines(2).toInt)

　　　　　　6.反射方式中普通RDD创建DataFrame需要导入隐式转换

　　　　　　　　　//注意：需要导入一个隐式转换
　　　　　　　　　import sQLContext.implicits._
　　　　　　　　　val df: DataFrame = rdd2.toDF()

　　　　　　7.注册临时表

　　　　　　　　　方式一:　df.createTempView("student1")
　　　　　　　　　方式二:　df.registerTempTable("student") //过时了

　　　　　　8.写SQL语句,自由的浪起来

　　　　　　　　　val sql = sQLContext.sql("select * from student")

　　　　　　9.保存结果到本地或者HDFS

　　　　　　　　//保存查询结果到本地
　　　　　　　　sql.write.json("c:\\demo\\gaoyong.json")
　　　　　　　　//保存查询结果到HDFS
　　　　　　　　sql.write.json("hdfs://awen01:9000/json")

编程接口方式构建元数据:

　　通过编程接口的方式将Schema信息应用于RDD，这种方式可以处理那种在运行时才能知道列的方式。

一般不知道元数据的情况下使用.

　　　　步骤:

　　　　　　1.SparkConf配置环境

　　　　　　2.SparkContext初始化上下文

　　　　　　3.SQLContext初始化SparkSQL上下文

　　　　　　4.创建一个普通的RDD(sc.textFile)

　　　　　　5.使用map切割行数据,将需要的字段放入到Row类中

　　　　　　　　val lines: RDD[Row] = rdd.map(t => {
　　　　　　　　val str = t.split(",")
　　　　　　　　　　Row(str(0).toInt, str(1), str(2).toInt)
　　　　　　　　})

　　　　　　6.编程结构的方式需要构建表的框架,构建StructType,及其元数据

val structType: StructType = StructType(Array(

      StructField("ids",IntegerType,true)

      StructField("names",StringType,true)

      StructField("ages",IntegerType,true)

))

　　　　　　7.构建DataFrame

　　　　　　　　val df = sQLContext.createDataFrame(lines,structType)

　　　　　　8.注册临时表

　　　　　　　　　方式一:　df.createTempView("student1")
　　　　　　　　　方式二:　df.registerTempTable("student") //过时了

　　　　　　9.写SQL语句,自由的浪起来

　　　　　　　　　val sql = sQLContext.sql("select * from student")

　　　　　　10.保存结果到本地或者HDFS

　　　　　　　　//保存查询结果到本地
　　　　　　　　sql.write.json("c:\\demo\\gaoyong.json")
　　　　　　　　//保存查询结果到HDFS
　　　　　　　　sql.write.json("hdfs://awen01:9000/json")

Scala构建元数据的更多相关文章

scala构建类似java的pojo
主要看以下代码: package com.test.scalaw.test.demo import scala.beans.BeanProperty /** * scala构建类似java 的pojo ...
【Scala-ML】怎样利用Scala构建并行机器学习系统
引言在学习Scala的过程中,我发现其在构建大规模分布式计算系统上有与生俱来的特质. 其丰富的类型系统能够帮助编程设计提供非常好的信息隐藏和抽象,其monoids和monads概念利用Scala高阶 ...
【Scala-ML】使用Scala构建机器学习工作流
引言在这一小节中.我将介绍基于数据(函数式)的方法来构建数据应用.这里会介绍monadic设计来创建动态工作流,利用依赖注入这种高级函数式特性来构建轻便的计算工作流. 建模过程在统计学和概率论中, ...
Scala构建工具SBT
SBT(Simple Build Tool)是Scala的项目构建工具,拥有依赖管理,构建过程管理和打包等功能. SBT官网上给出各平台的安装方法: MAC: 使用homebrew安装 brew in ...
Scala构建工具sbt的配置
时间是17年12月24日.初学Scala,想使用它的标配构建工具sbt,结果好大一轮折腾,因为公司隔离外网,需要内部代理,所以尤其折腾.下面的配置参考了好多篇不同的文章,已经没法一一留下出处了.而且还 ...
scala泛函编程是怎样被选中的
现在计算机技术发展现象是:无论硬件技术如何发展都满足不了软件需求:无论处理器变得能跑多快,都无法满足软件对计算能力的需要.按照摩尔定律(Moore's Law)处理器(CPU)每平方面积上包含的半导体 ...
利用Google开源Java容器化工具Jib构建镜像
转载:https://blog.csdn.net/u012562943/article/details/80995373 一.前言容器的出现让Java开发人员比以往任何时候都更接近“编写一次,到处运 ...
加速和简化构建Docker(基于Google jib)
赵安家 2019年02月11日阅读 1518 关注加速和简化构建Docker(基于Google jib) 介绍其实jib刚发布时就有关注,但是一直没有用于生产,原因有二基于 spotify/do ...
Scala学习一——基础
一.使用Scala解释器如果以命令行的方式运行,输出的结果会把类型带上,且结果名默认为res0递增.且Scala解释器读到一个解释器求值打印然后读取下一个(这个过程为读取-求值-打印-循环[REPL ...

随机推荐

linux常用安装命令（ubuntu）
安装 net-tools 安装命令 sudo apt install net-tools 安装ssh sudo apt-get install openssh-server 查看是否安装成功 sudo ...
Http和Https的区别--笔记
学习链接: 知乎:https://www.zhihu.com/question/19577317 法号桑菜 http://blog.csdn.net/jasonjwl/article/details/ ...
vue学习第三天 ------ 临时笔记
说明:之前两天属于入门,文章可能存在片段信息 vue2.x+webpack快速搭建前端项目框架详解 http://www.jb51.net/article/129463.htmVue cli + We ...
微信小程序电商实战-首页（下）
好了,上一期我们把首页搜索.导航栏和广告轮播给做完了,那么接下来会继续完成我们首页的剩余部分,先看我们要实现的效果吧! 本期实现效果图.gif 本期我们要实现首页的实时热销榜.福利专场和左下方个人 ...
Android5.0以后，materialDesign风格的加阴影和裁剪效果
5.0以后,materialDesign风格,出现了立体这种概念,高光,阴影,也就是Z轴,凸显层次:同时,裁剪view也变得方便简单了很多. 1,先说说阴影的实现. 方案1:在xml中设置 xml中设 ...
Struts_ActionWildcard_通配符配置
使用通配符,将配置量降到最低不过,一定要遵守“约定由于配置”的原则 struts2.xml <?xml version="1.0" encoding="UTF-8 ...
类型信息（RTTI和反射）——RTTI
运行时类型信息可以让你在程序运行时发现和使用类型信息. 在Java中运行时识别对象和类的信息有两种方式:传统的RTTI,以及反射.下面就先来说下RTTI. 1.RTTI: RTTI:在运行时,识别一个 ...
java 中的Number类 Character类 String类 StringBuffer类 StringBuilder类
1. Number类 Java语言为每一个内置数据类型提供了对应的包装类.所有的包装类(Integer.Long.Byte.Double.Float.Short)都是抽象类Number的子类.这种由编 ...
InnoDB锁演示
create table t1( c1 int(10) unsigned not null default '0', c2 int(10) unsigned not null default '0', ...
Vsftpd服务传输文件（转）
本章节先通过介绍文件传输协议来帮助读者理解FTP协议的用处,安装vsftpd服务程序并逐条分析服务文件的配置参数. 完整演示vsftpd服务匿名访问模式.本地用户模式及虚拟用户模式的配置方法,介绍PA ...