01Spark的TopN问题

和hadoop的目的一样，给你数据，然后取TopN。数据如下：

取出数据在排名前十的数据。

代码如下：

package com.test.book;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.Collections;

import java.util.Iterator;

import java.util.List;

import java.util.Map;

import java.util.Set;

import java.util.SortedMap;

import java.util.TreeMap;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.PairFunction;

import scala.Tuple2;

public class SparkTon {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf().setAppName("SparkTon").setMaster("local");

        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<String> lines = sc.textFile("/Users/mac/Desktop/TopN2.txt");

        // 将数据读进来，拆分为Tuple(String,Integer)这种形式

        JavaPairRDD<String, Integer> pairRDD = lines.mapToPair(new PairFunction<String, String, Integer>() {

            @Override

            public Tuple2<String, Integer> call(String t) throws Exception {

                // TODO Auto-generated method stub

                return new Tuple2<String, Integer>(t.split(",")[0], Integer.valueOf(t.split(",")[1]));

            }

        });

        // 按照整个分区来处理。

        JavaRDD<SortedMap<Integer, String>> pairspart = pairRDD

                .mapPartitions(new FlatMapFunction<Iterator<Tuple2<String, Integer>>, SortedMap<Integer, String>>() {

                    private static final long serialVersionUID = 1L;

                    SortedMap<Integer, String> top10 = new TreeMap<Integer, String>();

                    @Override

                    public Iterable<SortedMap<Integer, String>> call(Iterator<Tuple2<String, Integer>> t)

                            throws Exception {

                        while (t.hasNext()) {

                            Tuple2<String, Integer> tuple2 = t.next();

                            top10.put(tuple2._2, tuple2._1);

                            if (top10.size() > 10) {

                                top10.remove(top10.firstKey());

                            }

                        }

                        return Collections.singleton(top10);

                    }

                });

        // 把各个分区处理好的数据拿过来。

        List<SortedMap<Integer, String>> allTop10 = pairspart.collect();

        // 在Reduce端用TreeMap对之前的分区数据排序。

        SortedMap<Integer, String> finalmap = new TreeMap<Integer, String>();

        // 遍历每个分区的SortedMap结构

        for (SortedMap<Integer, String> localTop10 : allTop10) {

            for (Map.Entry<Integer, String> entry : localTop10.entrySet()) {

                finalmap.put(entry.getKey(), entry.getValue());

                if (finalmap.size() > 10) {

                    finalmap.remove(finalmap.firstKey());

                }

            }

        }

        // 打印出来。

        Set values = finalmap.keySet();

        Iterator<Integer> iterator = values.iterator();

        while (iterator.hasNext()) {

            System.out.println(finalmap.get(iterator.next()));

        }

    }

}

结果：

01Spark的TopN问题的更多相关文章

storm入门（二）：关于storm中某一段时间内topN的计算入门
刚刚接触storm 对于滑动窗口的topN复杂模型有一些不理解,通过阅读其他的博客发现有两篇关于topN的非滑动窗口的介绍.然后转载过来. 下面是第一种: Storm的另一种常见模式是对流式数据进行所 ...
【mysql】一维数据TopN的趋势图
创建数据表语句数据表数据对上述数据进行TopN排名 select severity,sum(count) as sum from widgt_23 where insertTstamp>=' ...
【转载】使用LFM（Latent factor model）隐语义模型进行Top-N推荐
最近在拜读项亮博士的<推荐系统实践>,系统的学习一下推荐系统的相关知识.今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结. 隐语义模型LFM和LSI,LDA,Topic ...
QL查询案例：取得分组 TOP-N
[转]SQL查询案例:取得分组 TOP-N CREATE TABLE TopnTest ( name VARCHAR(10), --姓名 procDate DATETIME, ...
使用LFM（Latent factor model）隐语义模型进行Top-N推荐
最近在拜读项亮博士的<推荐系统实践>,系统的学习一下推荐系统的相关知识.今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结. 隐语义模型LFM和LSI,LDA,Topic ...
大数据算法设计模式(1) - topN spark实现
topN算法,spark实现 package com.kangaroo.studio.algorithms.topn; import org.apache.spark.api.java.JavaPai ...
topN 算法以及逆算法（随笔）
topN 算法以及逆算法(随笔) 注解:所谓的 topN 算法指的是在海量的数据中进行排序从而活动前 N 的数据. 这就是所谓的 topN 算法.当然你可以说我就 sort 一下排序完了直 ...
pyspark进行词频统计并返回topN
Part I:词频统计并返回topN 统计的文本数据: what do you do how do you do how do you do how are you from operator imp ...
TOP-N类查询
Top-N查询 --Practices_29:Write a query to display the top three earners in the EMPLOYEES table. Displa ...

随机推荐

GPIO知识点整理
//GPIO的作业,抄两次,注意:本文件是知识点的整理不是可以直接运行的程序. //STM32必须包含的头文件 #include "stm32f10x.h" //GPIO相关头文件 ...
js实现一个一个打印字体的功能
var str = "ddll台湾八百壮士抗议苹果正式发邀请函西安铁警查倒票案自制航模逼停高铁林志玲遭老总熊抱拖拽游艇事故通报大马外交官被暗杀鹿晗又和邮筒合影奥迪男辱骂环卫工 " ...
Flask特殊装饰器
@app.errorhandler():重定义错误返回信息 @app.errorhandler(404) #监听多少写多少 def error404(message): return f"你 ...
02-CSS&JS
今日目标使用CSS完成网站首页的优化使用CSS完成网站注册页面的优化使用JS完成简单的数据校验使用JS完成图片轮播效果教学目标: - 了解CSS的概念 - 了解CSS的引入方式 - 了解CS ...
Java 服务端监控方案（四. Java 篇）
http://jerrypeng.me/2014/08/08/server-side-java-monitoring-java/ 这个漫长的系列文章今天要迎来最后一篇了,也是真正与 Java 有关的部 ...
杭电acm2059-龟兔赛跑 java
一看题就知道是动态规划,不过这要看下如何设置变化数组了先分析这道题:兔子到达终点的时间时固定的,因此只需要考虑乌龟了,乌龟骑电车和骑自行车的时间,然后计算,因为中间有N个充电站,可以看做N个点(到起 ...
GMA Round 1 极坐标的愤怒
传送门极坐标的愤怒我也想被积分啊!可是为什么你们从来不知道我的心意!——极坐标愤怒会夺走理智,哪怕是被迫的也好,请为极坐标方程$r=t$(也写作$ρ=θ$)积分吧. 为了考验你的忠诚,你需要回答 ...
ARM 技术文档
1. 相关链接 ARM官网: http://infocenter.arm.com/ 比较有用的几个目录: ARM Technical Support Knowledge Articles 一些关于A ...
用DirectX实现多视图渲染
什么是多视图一般的3D程序都只有一个视图,对应整个窗口的客户区.多视图就是在一个窗口中放置多个视图,以便从不同的角度观察模型或者场景.很多图形软件都有这个功能,比如大家熟知的3DMax就有四个视图, ...
.net core使用数据库
.net core使用数据库 .net core 通过可以通过ef core或其它ORM框架进行数据访问.此处使用EF和Dapper作为示例. 使用EF Core访问数据库与 .NET Framew ...

01Spark的TopN问题

01Spark的TopN问题的更多相关文章

随机推荐

热门专题