Spark实战练习02--处理分隔符

一、场景

devicestatus.txt 文件包含了来自于不同运营商的移动设备的数据，不同的数据格式，包括设备ID、当前状态、位置等等。注意，该文件中的记录具有不同的字段分隔符：一些使用逗号，一些使用管道（|）等等。

二、任务

• 加载数据集
• 确定使用哪个分隔符（提示：位置19中的字符是第一次使用分隔符）
• 过滤掉不正确解析的记录（提示：每个记录应该有14个值）
• 提取date（第一个字段）、model（第二个字段）、devive ID（第三字段）、纬度和经度（分别为13和14字段）
• 第二个字段包含设备制造商和模型名称（如Ronin S2）。将此字段分割为分隔制模型 (for example, manufacturer Ronin, model S2.)

三、代码

//1.加载数据，生成RDD

val data=sc.textFile("file:/home/training/training_materials/data/devicestatus.txt")

//2.过滤掉脏数据

val data_filter=data.filter(line => line.length > 20)

//3.不同分隔符统一

val mydata2=data_filter.map(line => line.split(line.charAt(19)))

//4.过滤掉不正确解析的记录

val mydata3=mydata2.filter(line => line.length == 14)

//5.构建格式化数据

val myresult=mydata3.map(line => (line(0),line(1).split(" ")(1),line(2),line(12),line(13)))

Spark实战练习02--处理分隔符的更多相关文章

Spark实战1
1. RDD-(Resilient Distributed Dataset)弹性分布式数据集 Spark以RDD为核心概念开发的,它的运行也是以RDD为中心.有两种RDD:第一种是并行Col ...
Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark实战高手之路】
Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈大数据的概念与应用,正随着智能手机.平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题.图计算正在被广泛地应用于社交 ...
Spark实战--搭建我们的Spark分布式架构
Spark的分布式架构如我们所知,spark之所以强大,除了强大的数据处理功能,另一个优势就在于良好的分布式架构.举一个例子在Spark实战--寻找5亿次访问中,访问次数最多的人中,我用四个spar ...
Spark实战电影点评系统(一)
一.通过RDD实战电影点评系统日常的数据来源有很多渠道,如网络爬虫.网页埋点.系统日志等.下面的案例中使用的是用户观看电影和点评电影的行为数据,数据来源于网络上的公开数据,共有3个数据文件:uers ...
Spark入门实战系列--6.SparkSQL（下）--Spark实战应用
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .运行环境说明 1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软件:VMwa ...
云计算分布式大数据神器Spark实战高手之旅
从2012年1月份研究Spark到如今已经两年多的时间了. 在这两年多的时间里比較彻底的研究了Spark的源码并已经在2014年4月24日编写完毕了世界上第一本Spark书籍. 鉴于CSDN在大陆IT ...
Spark实战之读写HBase
1 配置 1.1 开发环境: HBase:hbase-1.0.0-cdh5.4.5.tar.gz Hadoop:hadoop-2.6.0-cdh5.4.5.tar.gz ZooKeeper:zooke ...
Spark实战
实战数据导入Hive中全量: 拉链增量:用户.商品表数据量大时用拉链表动作表增量城市信息全量需求一: 获取点击.下单和支付数量排名前的品类 ①使用累加器: click_category_i ...
Spark实战系列目录
1 Spark rdd -- action函数详解与实战 2 Spark rdd -- transformations函数详解与实战(上) 3 Spark rdd -- transformations ...

随机推荐

表达式过滤器 uppercase
<!DOCTYPE html><html><head><meta http-equiv="Content-Type" content=&q ...
CSS选择器种类及使用方法
css选择器有通配符选择器书写格式:*+{声名块} 并集选择器/组合选择器书写格式;元素或类或id+""+元素或类或id+","+元素或类或id{声明块} ...
Restframework介绍
1.REST介绍 REST与技术无关,它代表的是一种软件架构风格,全称Representational State Transfer,中文翻译为“表征状态转移” REST从资源的角度类审视整个网络,它 ...
wsgiref手写一个web服务端
''' 通过wsgiref写一个web服务端先讲讲wsgiref吧,基于网络通信其根本就是基于socket,所以wsgiref同样也是通过对socket进行封装,避免写过多的代码,将一系列的操作封装成 ...
Linux上往mysql中导入SQL文件
1.首先连上你的服务器 2.进入你安装好的数据库 mysql -uroot -p****, 3.执行命令 source /xxx/xxx.sql 后面是文件的路径 4.如果你要是在本地有数据库管理 ...
SAP HCM 前台字段显示与隐藏
https://blog.csdn.net/qq_29475437/article/details/82107452 1.在hcm屏幕上确定程序名称与屏幕编号 2.SM30 输入 T588M,如 ...
nigx配置location规则
以下是收集的,对于不是很熟的朋友,配置转发很有帮助 1.location匹配命令和优先级: 优先级: Directives with the = prefix that match the query ...
date 参数（option）-d
记录这篇博客的原因是:鸟哥的linux教程中,关于date命令的部分缺少-d这个参数的介绍,并且12章中的shell编写部分有用到-d参数 date 参数(option)-d与--date=" ...
什么是token及怎样生成token
什么是token Token是服务端生成的一串字符串,以作客户端进行请求的一个令牌,当第一次登录后,服务器生成一个Token便将此Token返回给客户端,以后客户端只需带上这个Token前来请求数据即 ...
zookeeper相关知识与集群搭建
Zookeeper Zookeeper相关概念 Zookeeper概述 Zookeeper是一个分布式协调服务的开源框架,主要用来解决分布式集群中应用系统的一致性问题. Zookeeper本质上是一个 ...