Spark- 数据清洗

输入输出转化工具类

package com.rz.mobile_tag.log

import org.apache.spark.sql.Row

import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType}

/**

  * 访问日志转换（输入==>输出）工具类

  */

object AccessConvertUtil {

  // 定义的输出字段

  val structType = StructType(

    Array(

      StructField("url", StringType),

      StructField("cmsType", StringType),

      StructField("cmsId", LongType),

      StructField("traffic", LongType),

      StructField("ip", StringType),

      StructField("city", StringType),

      StructField("time", StringType),

      StructField("day", StringType)

    )

  )

  /**

    * 根据输入的每一行信息转换成输出的样式

    * @param log 输入的每一行记录信息

    */

  def parseLog(log:String)={

    try{

      val splits = log.split("\t",-)

      val url = splits()

      val traffic = splits().toLong

      val ip = splits()

      val domain = "http://www.rz.com/"

      val cms = url.substring(url.indexOf(domain)+domain.length)

      val cmsTypeId = cms.split("/")

      var cmsType = ""

      var cmsId = 0l

      if (cmsTypeId.length>){

        cmsType  = cmsTypeId()

        cmsId = cmsTypeId().toLong

      }

      val city=""

      val time = splits()

      val day = time.substring(, ).replaceAll("-","")

      // 这个Row里面的字段要和Struct中的字段对应上

      Row(url, cmsType, cmsId, traffic, ip, city, time, day)

    }catch {

      case e:Exception =>{

        Row()

      }

    }

  }

}

读取数据，清洗输出目标数据

package com.rz.mobile_tag.log

import org.apache.spark.sql.{SaveMode, SparkSession}

/**

  * 使用Spark完成我们的数据清洗操作

  */

object SparkStatCleanJob {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName(s"${this.getClass.getSimpleName}")

      .master("local[2]")

      .getOrCreate()

    val accessRDD = spark.sparkContext.textFile(args())

    // debug查看数据

    // accessRDD.take(10).foreach(println)

    val accessDF = spark.createDataFrame(accessRDD.map(log =>AccessConvertUtil.parseLog(log)),AccessConvertUtil.structType)

    // accessDF.printSchema()

    // accessDF.show(false)

    accessDF.coalesce().write.format("parquet").mode(SaveMode.Overwrite).partitionBy("day").save(args())

    spark.stop()

  }

}

Spark- 数据清洗的更多相关文章

ETL实践--Spark做数据清洗
ETL实践--Spark做数据清洗上篇博客,说的是用hive代替kettle的表关联.是为了提高效率. 本文要说的spark就不光是为了效率的问题. 1.用spark的原因 (如果是一个sql能搞定 ...
2-Spark高级数据分析-第二章用Scala和Spark进行数据分析
数据清洗时数据科学项目的第一步,往往也是最重要的一步. 本章主要做数据统计(总数.最大值.最小值.平均值.标准偏差)和判断记录匹配程度. Spark编程模型编写Spark程序通常包括一系列相关步骤: ...
[spark案例学习] WEB日志分析
数据准备数据下载:美国宇航局肯尼迪航天中心WEB日志我们先来看看数据:首先将日志加载到RDD,并显示出前20行(默认). import sys import os log_file_path =' ...
Spark Streaming揭秘 Day29 深入理解Spark2.x中的Structured Streaming
Spark Streaming揭秘 Day29 深入理解Spark2.x中的Structured Streaming 在Spark2.x中,Spark Streaming获得了比较全面的升级,称为St ...
zhihu spark集群,书籍,论文
spark集群中的节点可以只处理自身独立数据库里的数据,然后汇总吗? 修改我将spark搭建在两台机器上,其中一台既是master又是slave,另一台是slave,两台机器上均装有独立的mongo ...
使用 Spark MLlib 做 K-means 聚类分析[转]
原文地址:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice4/ 引言提起机器学习 (Machine Lear ...
[Big Data]从Hadoop到Spark的架构实践
摘要:本文则主要介绍TalkingData在大数据平台建设过程中,逐渐引入Spark,并且以Hadoop YARN和Spark为基础来构建移动大数据平台的过程. 当下,Spark已经在国内得到了广泛的 ...
Spark ML下实现的多分类adaboost+naivebayes算法在文本分类上的应用
1. Naive Bayes算法朴素贝叶斯算法算是生成模型中一个最经典的分类算法之一了,常用的有Bernoulli和Multinomial两种.在文本分类上经常会用到这两种方法.在词袋模型中,对于一 ...
[转载] 从Hadoop到Spark的架构实践
转载自http://www.csdn.net/article/2015-06-08/2824889 http://www.zhihu.com/question/26568496 当下,Spark已经在 ...
以慕课网日志分析为例-进入大数据Spark SQL的世界
下载地址.请联系群主第1章初探大数据本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目 ...

随机推荐

Python学习笔记（一）三步走安装pip
pip是用来方便地管理Python的第三方包的,由于此前玩Python仅仅是浅尝辄止,用的是python(x,y),但是这里并不代表你想用什么包都能从里面找到的,所以我把python(x,y)卸了,然 ...
spring download
http://maven.springframework.org/release/org/springframework/spring/
Trie树学习
这几天在看Hadoop的排序,用到了有TotalSortPartition,其中用到了一种叫做trie树的数据结构,每次看到这种自己之前没有听过的数据结构就想去看一下原理,然后再网上看几篇博客,有时间 ...
ftp put get 的使用方法
首先:ftp user@ip 登录到远程主机成功后,输入ls,如下: ftp> ls 可以得到远程主机的本地目录. 一:get命令(从远程主机下载文件到本机): ftp> get (re ...
公告板shader
Shader "Custom/LightPoint" { Properties { _MainTex ("Main Tex", 2D) = "whit ...
CentOS 7.x samba 服务器安装
以下以root用户执行 1.安装: # yum install samba samba-client -y 2.设置开机启动: # systemctl enable smb.service ln ...
jQuery Easy UI Draggable(拖动)组件
上文已经提到过了 jQuery EasyUI插件引用一般我们经常使用的有两种方式(排除easyload载入方式),所以本篇要总结的Draggable组件相同有两种方式载入: (1).使用class载入 ...
C语言中的指针运算
int a[5]={1,2,3 ,4,5} *p=a; *p++ 等价于*(p++) 等价于a[i++](i++ i首先会被使用任何进行自+) *++p等价于*(++p) 等价于 a[++i] (++ ...
IntelliJ IDEA集成JProfiler，入门教程
说明: JProfiler是用于分析J2EE软件性能瓶颈并能准确定位到Java类或者方法有效解决性能问题的主流工具,它通常需要与性能测试工具如:LoadRunner配合使用,因为往往只有当系统处于压力 ...
九度OJ 1181：遍历链表（链表、排序）
时间限制:1 秒内存限制:32 兆特殊判题:否提交:2733 解决:1181 题目描述: 建立一个升序链表并遍历输出. 输入: 输入的每个案例中第一行包括1个整数:n(1<=n<=1 ...

Spark- 数据清洗

Spark- 数据清洗的更多相关文章

随机推荐

热门专题