反射方式构建元数据: 

  通过反射来获取RDD中的Schema信息。这种方式适合于列名(元数据)已知的情况下

    步骤:

      1.SparkConf配置环境

      2.SparkContext初始化上下文

      3.SQLContext初始化SparkSQL上下文

      4.创建一个普通的RDD(sc.textFile)

      5.使用map方法切割行数据,切割取出数据放入case类中

         studented(lines(0).toInt, lines(1), lines(2).toInt)

      6.反射方式中普通RDD创建DataFrame需要导入隐式转换

         //注意:需要导入一个隐式转换
         import sQLContext.implicits._
         val df: DataFrame = rdd2.toDF()

      7.注册临时表

         方式一: df.createTempView("student1")
         方式二: df.registerTempTable("student")  //过时了

      8.写SQL语句,自由的浪起来

         val sql = sQLContext.sql("select * from student")

      9.保存结果到本地或者HDFS

        //保存查询结果到本地
        sql.write.json("c:\\demo\\gaoyong.json")
        //保存查询结果到HDFS
        sql.write.json("hdfs://awen01:9000/json")

编程接口方式构建元数据:

  通过编程接口的方式将Schema信息应用于RDD,这种方式可以处理那种在运行时才能知道列的方式。

一般不知道元数据的情况下使用.

    步骤:

      1.SparkConf配置环境

      2.SparkContext初始化上下文

      3.SQLContext初始化SparkSQL上下文

      4.创建一个普通的RDD(sc.textFile)

      5.使用map切割行数据,将需要的字段放入到Row类中

        val lines: RDD[Row] = rdd.map(t => {
        val str = t.split(",")
          Row(str(0).toInt, str(1), str(2).toInt)
        })

      6.编程结构的方式需要构建表的框架,构建StructType,及其元数据

val structType: StructType = StructType(Array(
StructField("ids",IntegerType,true)
StructField("names",StringType,true)
StructField("ages",IntegerType,true)
))

      7.构建DataFrame

        val df = sQLContext.createDataFrame(lines,structType)

      8.注册临时表

         方式一: df.createTempView("student1")
         方式二: df.registerTempTable("student")  //过时了

      9.写SQL语句,自由的浪起来

         val sql = sQLContext.sql("select * from student")

      10.保存结果到本地或者HDFS

        //保存查询结果到本地
        sql.write.json("c:\\demo\\gaoyong.json")
        //保存查询结果到HDFS
        sql.write.json("hdfs://awen01:9000/json")

Scala构建元数据的更多相关文章

  1. scala构建类似java的pojo

    主要看以下代码: package com.test.scalaw.test.demo import scala.beans.BeanProperty /** * scala构建类似java 的pojo ...

  2. 【Scala-ML】怎样利用Scala构建并行机器学习系统

    引言 在学习Scala的过程中,我发现其在构建大规模分布式计算系统上有与生俱来的特质. 其丰富的类型系统能够帮助编程设计提供非常好的信息隐藏和抽象,其monoids和monads概念利用Scala高阶 ...

  3. 【Scala-ML】使用Scala构建机器学习工作流

    引言 在这一小节中.我将介绍基于数据(函数式)的方法来构建数据应用.这里会介绍monadic设计来创建动态工作流,利用依赖注入这种高级函数式特性来构建轻便的计算工作流. 建模过程 在统计学和概率论中, ...

  4. Scala构建工具SBT

    SBT(Simple Build Tool)是Scala的项目构建工具,拥有依赖管理,构建过程管理和打包等功能. SBT官网上给出各平台的安装方法: MAC: 使用homebrew安装 brew in ...

  5. Scala构建工具sbt的配置

    时间是17年12月24日.初学Scala,想使用它的标配构建工具sbt,结果好大一轮折腾,因为公司隔离外网,需要内部代理,所以尤其折腾.下面的配置参考了好多篇不同的文章,已经没法一一留下出处了.而且还 ...

  6. scala泛函编程是怎样被选中的

    现在计算机技术发展现象是:无论硬件技术如何发展都满足不了软件需求:无论处理器变得能跑多快,都无法满足软件对计算能力的需要.按照摩尔定律(Moore's Law)处理器(CPU)每平方面积上包含的半导体 ...

  7. 利用Google开源Java容器化工具Jib构建镜像

    转载:https://blog.csdn.net/u012562943/article/details/80995373 一.前言 容器的出现让Java开发人员比以往任何时候都更接近“编写一次,到处运 ...

  8. 加速和简化构建Docker(基于Google jib)

    赵安家 2019年02月11日阅读 1518 关注 加速和简化构建Docker(基于Google jib) 介绍 其实jib刚发布时就有关注,但是一直没有用于生产,原因有二 基于 spotify/do ...

  9. Scala学习一——基础

    一.使用Scala解释器 如果以命令行的方式运行,输出的结果会把类型带上,且结果名默认为res0递增.且Scala解释器读到一个解释器求值打印然后读取下一个(这个过程为读取-求值-打印-循环[REPL ...

随机推荐

  1. MVC切片编程

    在商城网站中,用户中心的每个页面都要几乎都要涉及对用户是否登录的判断,为了减少代码重写,可采用切片编程 using System; using System.Collections.Generic; ...

  2. Actor的一生

    Actor应该怎么去形容它呢?它是一段代码扮演的角色.它拥有自己的状态机,能根据外界的消息进行适当的反应.他有记忆能力,可以记住来自外界的多个消息并依次进行反应.Actor就像一个小的生命体,有自己的 ...

  3. 关于“.WriteLine()是否需要这么多重载”的笔记

    在Stack Overflow上看到一个较热门的问题,作笔记于此. Console.WriteLine()有以下如此多的重载: public static void WriteLine(string ...

  4. 多个ModelForm组合成一个表单

    打个比方: 我将用户的基本信息 如用户名密码存在继承了Django auth认证组件中的 AbstractUser 类的模型中,并和第二个存了Details模型中,此模型继承UserInfo模型 继承 ...

  5. TP5.0搭建restful API 应用

    1.配置环境变量,如果没配置会显示如下错误. 配置方法 1)右键此电脑-> 属性-> 高级系统设置->环境变量->Path 2)在Path后加上php目录的名称 如:E:\PH ...

  6. 解决Pandoc wasn't found.pdflatex not found on PATH

    解决nbconvert failed: Pandoc wasn't found.解决nbconvert failed: pdflatex not found on PATH 问题1描述 500 : I ...

  7. 01、Spark安装与配置

    01.Spark安装与配置 1.hadoop回顾 Hadoop是分布式计算引擎,含有四大模块,common.hdfs.mapreduce和yarn. 2.并发和并行 并发通常指针对单个节点的应对多个请 ...

  8. 在Markdown中插入不会显示的注释文本

    方法1 <!-- your comment goes here --> 方法2 [//]: <> (This is also a comment.) 原文地址: https:/ ...

  9. iRecognizer号码扫描开发实录

    iRecognizer——这是一款可以帮助你快速扫描获得印刷体数字的软件 现已上架 腾讯应用宝,酷安 提供的功能:扫一扫(相册或当场扫描),获得电话号码,之后就可以拨打或者发送短信,自动复制到剪贴板, ...

  10. 如何查找BAPI SD_SALESDOCUMENT_CHANGE里的字段对应的数据库存储表

    BAPI函数SD_SALESDOCUMENT_CHANGE可以让我们很方便地通过ABAP代码来修改Sales Order. 其输入参数ORDER_HEADER_IN的类型是BAPISDHD1, 里面包 ...