spark StructType的应用，用在处理mongoDB keyvalue

近期在处理mongoDB 数据的时候，遇到了非常奇怪的格式,账号密码的日志都追加在一条记录里面，要取一个密码的时长和所有密码的平均时长就非常繁琐。

用了各种迭代计算，非常困难，而且printschema出来结构也是不规范的。

和同事一起研究后用了StructType 效率非常高。

代码如下：

import java.sql.{DriverManager, ResultSet}

import mongoDb_foundation_data20180913.url

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.sql.types._

import org.apache.spark.sql.SparkSession

object devicests_20180916 {

 // spark-submit --driver-class-path /usr/local/jdk/lib/mysql-connector-java-5.1.46.jar  --class  "devicests_20180916"  /testdata/u3.jar

  val url = "jdbc:mysql://192.168.1.10:3306/saas?user=saas&password=saas2018"

  //val url = "jdbc:mysql://134.175.180.116:3306/saas?user=saas&password=saas2018"

  val conn = DriverManager.getConnection(url)

  def main(args: Array[String]): Unit = {

    val conn = DriverManager.getConnection(url)

    val conf = new SparkConf().setAppName("appName").setMaster("local")

    val sc = new SparkContext(conf)

    val spark = SparkSession.builder().appName("Spark SQL basic example").config("spark.debug.maxToStringFields", "200").getOrCreate()

    spark.sql("use saas")

    import spark.implicits._

    import org.apache.spark.sql.types._

    import org.apache.spark.sql.SparkSession

    val statement = conn.createStatement(ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_UPDATABLE)

  //  val logData=spark.read.textFile("file:////mysqldata/aasdata/2018-08-17/devices_2018-08-17")

//    val log = spark.read.json(logData)

val prop = new java.util.Properties

//

//    log.createOrReplaceTempView("devicests_states")

//

//

//   // df.write.mode("append").jdbc(url, "saas.devicests_states", prop)

//import org.apache.calcite.adapter

    val schema = new StructType()

      .add("__v", StringType)

      .add("_id", new StructType()

        .add("$oid", StringType))

      .add("device_type", StringType)

      .add("hardware_info", new StructType()

        .add("cid", StringType)

        .add("mac", StringType)

        .add("sn", StringType)

        .add("versions", new StructType()

          .add("app_version", StringType)

          .add("hardware_version", StringType)

          .add("zigbee_version", StringType)))

      .add("model_id", StringType)

      .add("name", StringType)

      .add("nickname", StringType)

      .add("parent", StringType)

      .add("services", ArrayType(StringType))

      .add("states", new StructType()

        .add("onoff_line", StringType)

        .add("passwords",

          // spark 默认将 passwords 视为 struct，不便于使用 explode 和 map_values

          // 需要手动定义为 Map[String, Struct]

          MapType(StringType, new StructType()

            .add("description", StringType)

            .add("id", StringType)

            .add("is_default", StringType)

            .add("name", StringType)

            .add("permission", new StructType()

              .add("begin", StringType)

              .add("end", StringType)

              .add("status", StringType))

            .add("status", IntegerType)

            .add("time", StringType)))

        .add("power", StringType))

      .add("status", IntegerType)

      .add("time", StringType)

      .add("uuid", StringType)

    spark.read.schema(schema)

      .json(s"file:///mysqldata/aasdata/2018-09-12/devices_2018-09-12")

      .createOrReplaceTempView("devices")

    val res = spark.sql(

      """

        |SELECT uuid,

        |    COUNT(passwords.permission) AS count,

        |    AVG(passwords.permission.end - passwords.permission.begin) AS avg

        |FROM

        |    (

        |      SELECT uuid,explode(map_values(states.passwords)) AS passwords

        |      FROM devices

        |    )

        |WHERE

        |    passwords.permission.begin IS NOT NULL

        |    AND passwords.permission.end IS NOT NULL group by uuid""".stripMargin)//.collect.head

    res.write.mode("overwrite").jdbc(url, "saas.res_count_avg", prop)

////

////    val count = Long(res(0))

////    val avg = Double(res(1))

  }

}

spark StructType的应用，用在处理mongoDB keyvalue的更多相关文章

Spark常用算子-KeyValue数据类型的算子
package com.test; import java.util.ArrayList; import java.util.List; import java.util.Map; import or ...
上万字详解Spark Core（建议收藏）
先来一个问题,也是面试中常问的: Spark为什么会流行? 原因1:优秀的数据模型和丰富计算抽象 Spark 产生之前,已经有MapReduce这类非常成熟的计算系统存在了,并提供了高层次的API(m ...
MongoSpark 28799错误
Exception : . The full response is { , "codeName" : "Location28799" } at com.mon ...
mongo-spark 安装排故 ./sbt check
[error] at com.mongodb.connection.CommandProtocol.execute(CommandProtocol.java:) [error] at com.mong ...
大数据才是未来，Oracle、SQL Server成昨日黄花？
1. 引子**** 有人在某个专注SQL的公众号留言如下: 这个留言触碰到一个非常敏感的问题:搞关系型数据库还有前途吗?现在都2020年了,区块链正火热,AI人才已经"过剩",大数 ...
Storm 流式计算框架
1. 简介是一个分布式, 高容错的实时计算框架 Storm进程常驻内存, 永久运行 Storm数据不经过磁盘, 在内存中流转, 通过网络直接发送给下游流式处理(streaming) 与批处理( ...
python爬虫知识点总结(一)库的安装
环境要求: 1.编程语言版本python3: 2.系统:win10; 3.浏览器:Chrome68.0.3440.75:(如果不是最新版有可能影响到程序执行) 4.chromedriver2.41 注 ...
Update(Stage4)：spark_rdd算子：第2节 RDD_action算子_分区_缓存：算子和分区
一.reduce和reduceByKey: 二.:RDD 的算子总结 RDD 的算子大部分都会生成一些专用的 RDD map, flatMap, filter 等算子会生成 MapPartitions ...
spark读取mongodb数据写入hive表中
一环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_i ...

随机推荐

怎么样从多列的DataTable里取需要的几列
方法一: 也是广为人知的一种: YourDataTable.Columns.Remove("列名"); 但是这种情况只适合于去掉很少列的情况. 如果有很多列我却只要一两列呢,那就得 ...
Java泛型之Type体系
Type是java类型信息体系中的顶级接口,其中Class就是Type的一个直接实现类.此外,Type还有有四个直接子接口:ParameterizedType,TypeVariable,Wildcar ...
【map离散&容斥】Ghosts @Codeforces Round #478 (Div. 2) D
传送门题意:给你一条直线的斜率a和截距b,和某一时刻n个在直线上的点的横坐标,以及沿坐标轴方向的速度.问你这些点在(-∞,+∞)的时间内的碰撞次数. solution 设两个点在t时刻相碰,有: x ...
GMA Round 1 极坐标的忧伤
传送门极坐标的忧伤为什么你们不喜欢为我求导……——极坐标极坐标的心意,想必已经传达到了,那么请为极坐标方程$r=t$(也写作$ρ=θ$)求导吧. 为了考验你的忠诚,你需要回答$r=t$在(0,$ ...
Spring Mvc配置多视图 - tiles, velocity, freeMarker, jsp
 <bean id="velocityViewResolver" class="org.springframework ...
深度残差网络（DRN）ResNet网络原理
一说起“深度学习”,自然就联想到它非常显著的特点“深.深.深”(重要的事说三遍),通过很深层次的网络实现准确率非常高的图像识别.语音识别等能力.因此,我们自然很容易就想到:深的网络一般会比浅的网络效果 ...
vue项目启动时将localhost替换成指定ip地址
1.node启动vue项目时地址一般都是http://localhost:8080 2.config->index.js 中的host:‘localhost’换成host:‘你的本机ip’就可以 ...
jvm理论-字节码指令案例
案例1 public class Demo { public int calc(){ int a=100; int b=200; int c=300; return(a+b)*c; } public ...
[Python设计模式] 第17章程序中的翻译官——适配器模式
github地址:https://github.com/cheesezh/python_design_patterns 适配器模式适配器模式,将一个类的接口转换成客户希望的另外一个接口.Adapte ...
Docker搭建镜像仓库和配置缓冲地点
Docker搭建镜像仓库和配置缓冲地点参考网址:https://docs.docker.com/engine/reference/commandline/dockerd/#options 一.配置D ...

spark StructType的应用，用在处理mongoDB keyvalue

spark StructType的应用，用在处理mongoDB keyvalue的更多相关文章

随机推荐

热门专题