【spark】示例：求Top值

我们有这样的两个文件

第一个数字为行号，后边为三列数据。我们来求第二列数据的Top(N)

(1)我们先读取数据，创建Rdd

(2)过滤数据，取第二列数据。

我们用filter()来过滤数据

line.trim().length是除去行末尾的空格然后计算长度，长度大于0，并且分能用逗号切分为4个子数据的数据为有效数据。

然后我们来切分取出第二列数据，即arr(2),arr(0)为行号

line.map(_.split(",")(2))

(3)数据类型转换并修改成键值对的形式

我们通过.map(x=>(x.toInt,""))把原来数据(string)修改成为(int,String)类型的键值对

为什么要这么做呢？因为我们要采用orderByKey()方法进行排序。

(4)排序取出键值对中的键

我们先调用orderByKey(false)方法对rdd中的每个键值对按照键值进行排序，false参数：是否正序

然后我们通过 x=>x._1 取排序后的键值对的键,最后通过take(N)方法即可实现取TOP(N)的功能

(5)将结果存入文件

　　通过saveAsTextFile（“file://”）方法将结果存入文件

完整代码

import org.apache.spark.{SparkConf, SparkContext}

object TopN {

    //建立SparkContext

    val sparkConf = new SparkConf().setAppName("TopN")

    val sc = new SparkContext(sparkConf)

    //设置日志等级，只显示报错

    sc.setLogLevel("ERROR")

    //读取数据,分区

    val lines = sc.textFile("hdfs://localhost:9000/user/local/spark/data",2)

    var num = 0//排名初始化

    var result = lines.filter(line => (line.trim.length > 0 && line.split(",").length > 4))//过滤数据

                      .map(_.split(",")(2)) //拆分文件取第二列数

                      .map(x =>(x.toInt,"")) //修改数据类型并转化为键值对的形式

                      .sortByKey(false)//排序

                      .map(x => x._1)//取键

                      .take(5)//取前五条数据

                      .foreach( x =>{ //显示数据

                            num = num + 1 //排名

                            println(num+"\t"+x) //显示

    })

}

注意，我们在使用sortByKey方法前，数据是分了区的

我们使用了sortByKey方法将分区了的数据进行排序可能会出错，具体原因不是很清楚。

所以有时候我们需要在sortByKey()方法前加一个.partitionBy(new HashPartitioner(1))从新分成一个区来保证正确率。

【spark】示例：求Top值的更多相关文章

Sql示例说明如何分组后求中间值--【叶子】
原文:Sql示例说明如何分组后求中间值--[叶子] 这里所谓的分组后求中间值是个什么概念呢? 我举个例子来说明一下: 假设我们现在有下面这样一个表: type name price -- ...
Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
Spark中的键值对操作
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
[NOI2005]维修数列 Splay tree 区间反转,修改,求和,求最值
题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=1500 Description Input 输入文件的第1行包含两个数N和M,N表示初始时数 ...
Spark学习之键值对操作总结
键值对 RDD 是 Spark 中许多操作所需要的常见数据类型.键值对 RDD 通常用来进行聚合计算.我们一般要先通过一些初始 ETL(抽取.转化.装载)操作来将数据转化为键值对形式.键值对 RDD ...
Spark学习笔记——键值对操作
键值对 RDD是 Spark 中许多操作所需要的常见数据类型键值对 RDD 通常用来进行聚合计算.我们一般要先通过一些初始 ETL(抽取.转化.装载)操作来将数据转化为键值对形式. Spark 为包 ...
使用Scala编写Spark程序求基站下移动用户停留时长TopN
使用Scala编写Spark程序求基站下移动用户停留时长TopN 1. 需求:根据手机基站日志计算停留时长的TopN 我们的手机之所以能够实现移动通信,是因为在全国各地有许许多多的基站,只要手机一开机 ...
堆实战(动态数据流求top k大元素,动态数据流求中位数)
动态数据集合中求top k大元素第1大,第2大 ...第k大 k是这群体里最小的所以要建立个小顶堆只需要维护一个大小为k的小顶堆即可当来的元素(newCome)> 堆顶元素(small ...
NC15052 求最值
NC15052 求最值题目题目描述给你一个长为 $n$ 的序列 $a$ 定义 $f(i,j)=(i-j)^2+g(i,j)^2$ $g$ 是这样的一个函数求最小的 \(f(i, ...

随机推荐

（2.2）学习笔记之mysql基础操作（登录及账户权限设置）
本系列学习笔记主要讲如下几个方面: 本文笔记[三:mysql登录][四:账户权限设置][五:mysql数据库安全配置] 三.mysql登录常用登录方式如下: 四.账户权限设置 (4.1)查看用户表, ...
docker安装升级linux内核(2.6.32->3.10.81)
.内核升级环境准备 #查看已经安装的和未安装的软件包组,来判断我们是否安装了相应的开发环境和开发库: yum grouplist #一般是安装这两个软件包组,这样做会确定你拥有编译时所需的一切工具 y ...
001-es6变量声明、解构赋值、解构赋值主要用途
一.基本语法 1.1.声明变量的六种方法参看地址:http://es6.ruanyifeng.com/#docs/let let:局部变量,块级作用域,声明前使用报错 var:全局变量,声明前使用 ...
008-CentOS添加环境变量
在Linux CentOS系统上安装完php和MySQL后,为了使用方便,需要将php和mysql命令加到系统命令中,如果在没有添加到环境变量之前,执行“php -v”命令查看当前php版本信息时时, ...
mysql进阶（一）
本节目录 1.视图 2.存储过程 3.函数 4.事务 5.触发器 6.流程控制语句 1.视图视图是一个虚拟表(非真实存在),其本质是[根据SQL语句获取动态的数据集,并为其命名],用户使用时只需使用 ...
phpcms使用session的方法
phpcms使用session //session开始必须有下面的代码,否则无效 private function _session_start() { $session_storage = 'se ...
jQuery Mobile 手动显示ajax加载器
在jquery mobile开发中,经常需要调用ajax方法,异步获取数据,如果异步获取数据方法由于网速等等的原因,会有一个反应时间,如果能在点击按钮后数据处理期间,给一个正在加载的提示,客户体验会更 ...
linux中相关服务不能访问的排错技巧
Linux相关服务不能访问的排错步骤,以HTTP服务为例: 一.服务端排查思路: 1.检查SELinux是否关闭(针对CentOS6系统) (1)临时关闭 setenforce 0 (2 ...
Linux系统启动管理系统安全
Linux GRUB加密方法加密grub防止黑客通过单用户系统破解root密码 ,进入系统窃取数据.给grub加密,不让别人通过grub进入单用户. 生成密码 [root@localhost ~] ...
NAT配置与管理
为解决IPv4地址日益枯竭,出现NAT(Network Address Translation,网络地址转换)技术.NAT可以将来自一个网络的IP数据报报头中的IP地址(可以是源IP地址或目的IP地址 ...

【spark】示例：求Top值

【spark】示例：求Top值的更多相关文章

随机推荐

热门专题