sample采样倾斜key并单独进行join代码

        /**

         * sample采样倾斜key单独进行join

         */

        JavaPairRDD<Long, String> sampledRDD = userid2PartAggrInfoRDD.sample(false, 0.1, 9);

        JavaPairRDD<Long, Long> mappedSampledRDD = sampledRDD.mapToPair(

                new PairFunction<Tuple2<Long,String>, Long, Long>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Tuple2<Long, Long> call(Tuple2<Long, String> tuple)

                            throws Exception {

                        return new Tuple2<Long, Long>(tuple._1, 1L);

                    }

                });

        JavaPairRDD<Long, Long> computedSampledRDD = mappedSampledRDD.reduceByKey(

                new Function2<Long, Long, Long>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Long call(Long v1, Long v2) throws Exception {

                        return v1 + v2;

                    }

                });

        JavaPairRDD<Long, Long> reversedSampledRDD = computedSampledRDD.mapToPair(

                new PairFunction<Tuple2<Long,Long>, Long, Long>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Tuple2<Long, Long> call(Tuple2<Long, Long> tuple)

                            throws Exception {

                        return new Tuple2<Long, Long>(tuple._2, tuple._1);

                    }

                });

        final Long skewedUserid = reversedSampledRDD.sortByKey(false).take(1).get(0)._2;  

        JavaPairRDD<Long, String> skewedRDD = userid2PartAggrInfoRDD.filter(

                new Function<Tuple2<Long,String>, Boolean>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Boolean call(Tuple2<Long, String> tuple) throws Exception {

                        return tuple._1.equals(skewedUserid);

                    }

                });

        JavaPairRDD<Long, String> commonRDD = userid2PartAggrInfoRDD.filter(

                new Function<Tuple2<Long,String>, Boolean>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Boolean call(Tuple2<Long, String> tuple) throws Exception {

                        return !tuple._1.equals(skewedUserid);

                    }

                });

        JavaPairRDD<String, Row> skewedUserid2infoRDD = userid2InfoRDD.filter(

                new Function<Tuple2<Long,Row>, Boolean>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Boolean call(Tuple2<Long, Row> tuple) throws Exception {

                        return tuple._1.equals(skewedUserid);

                    }

                }).flatMapToPair(new PairFlatMapFunction<Tuple2<Long,Row>, String, Row>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Iterable<Tuple2<String, Row>> call(

                            Tuple2<Long, Row> tuple) throws Exception {

                        Random random = new Random();

                        List<Tuple2<String, Row>> list = new ArrayList<Tuple2<String, Row>>();

                        for(int i = 0; i <; i++) {

                            int prefix = random.nextInt(100);

                            list.add(new Tuple2<String, Row>(prefix + "_" + tuple._1, tuple._2));

                        }

                        return list;

                    }

                });

        JavaPairRDD<Long, Tuple2<String, Row>> joinedRDD1 = skewedRDD.mapToPair(

                new PairFunction<Tuple2<Long,String>, String, String>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Tuple2<String, String> call(Tuple2<Long, String> tuple)

                            throws Exception {

                        Random random = new Random();

                        int prefix = random.nextInt(100);

                        return new Tuple2<String, String>(prefix + "_" + tuple._1, tuple._2);

                    }

                }).join(skewedUserid2infoRDD).mapToPair(

                        new PairFunction<Tuple2<String,Tuple2<String,Row>>, Long, Tuple2<String, Row>>() {

                            private static final long serialVersionUID = 1L;

                            @Override

                            public Tuple2<Long, Tuple2<String, Row>> call(

                                    Tuple2<String, Tuple2<String, Row>> tuple)

                                    throws Exception {

                                long userid = Long.valueOf(tuple._1.split("_")[1]);

                                return new Tuple2<Long, Tuple2<String, Row>>(userid, tuple._2);

                            }

                        });

        JavaPairRDD<Long, Tuple2<String, Row>> joinedRDD2 = commonRDD.join(userid2InfoRDD);

        JavaPairRDD<Long, Tuple2<String, Row>> joinedRDD = joinedRDD1.union(joinedRDD2);

        JavaPairRDD<String, String> sessionid2FullAggrInfoRDD = joinedRDD.mapToPair(

                new PairFunction<Tuple2<Long,Tuple2<String,Row>>, String, String>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Tuple2<String, String> call(

                            Tuple2<Long, Tuple2<String, Row>> tuple)

                            throws Exception {

                        String partAggrInfo = tuple._2._1;

                        Row userInfoRow = tuple._2._2;

                        String sessionid = StringUtils.getFieldFromConcatString(

                                partAggrInfo, "\\|", Constants.FIELD_SESSION_ID);

                        int age = userInfoRow.getInt(3);

                        String professional = userInfoRow.getString(4);

                        String city = userInfoRow.getString(5);

                        String sex = userInfoRow.getString(6);

                        String fullAggrInfo = partAggrInfo + "|"

                                + Constants.FIELD_AGE + "=" + age + "|"

                                + Constants.FIELD_PROFESSIONAL + "=" + professional + "|"

                                + Constants.FIELD_CITY + "=" + city + "|"

                                + Constants.FIELD_SEX + "=" + sex;

                        return new Tuple2<String, String>(sessionid, fullAggrInfo);

                    }

                });

sample采样倾斜key并单独进行join代码的更多相关文章

MongoDB With Spark遇到的2个错误，不能初始化和sample重复的key
1.$sample stage could not find a non-duplicate document while using a random cursor 这个问题比较难解决,因为我用mo ...
图片文档倾斜矫正算法附完整c代码
2年前在学习图像算法的时候看到一个文档倾斜矫正的算法. 也就是说能将一些文档图像进行旋转矫正, 当然这个算法一般用于一些文档扫描软件做后处理或者用于ocr 文字识别做前处理. 相关的关键词: 抗倾斜 ...
使用随机数以及扩容表进行join代码
/** * 使用随机数和扩容表进行join */ JavaPairRDD<String, Row> expandedRDD = userid2InfoRDD.flatMapToPair( ...
split().reverse().join()代码解析
split() 方法用于把一个字符串分割成字符串数组. reverse() 方法用于颠倒数组中元素的顺序. join() 方法用于把数组中的所有元素放入一个字符串.
git 设置 key 到服务器，同步代码不需要输入用户名和密码
1 ssh-keygen -t rsa 2 vim ~/.ssh/id_rsa.pub 3. 添加到git 服务器,这样同步代码就不需要输入密码
Spark实践 -- 性能优化基础
性能调优相关的原理讲解.经验总结: 掌握一整套Spark企业级性能调优解决方案:而不只是简单的一些性能调优技巧. 针对写好的spark作业,实施一整套数据倾斜解决方案:实际经验中积累的数据倾斜现象的表 ...
最完整的数据倾斜解决方案(spark)
一.了解数据倾斜数据倾斜的原理: 在执行shuffle操作的时候,按照key,来进行values的数据的输出,拉取和聚合.同一个key的values,一定是分配到一个Reduce task进行处理. ...
spark性能调优06-数据倾斜处理
1.数据倾斜 1.1 数据倾斜的现象现象一:大部分的task都能快速执行完,剩下几个task执行非常慢现象二:大部分的task都能快速执行完,但总是执行到某个task时就会报OOM,JVM out ...
Spark性能调优之解决数据倾斜
Spark性能调优之解决数据倾斜数据倾斜七种解决方案 shuffle的过程最容易引起数据倾斜 1.使用Hive ETL预处理数据 • 方案适用场景:如果导致数据倾斜的是Hive表.如果该Hiv ...

随机推荐

Netty入门3之----Decoder和Encoder
Netty强大的地方,是他能方便的实现自定义协议的网络传输.在上一篇文章中,通过使用Netty封装好的工具类,实现了简单的http服务器.在接下来的文章中,我们看看怎么使用他来搭建自定义协议的服务 ...
Angular4 微信的坑
1.不要重置对象的引用!(重置只应该在组件或服务的初始化时) why:会使页面产生闪烁 2.不要给图片绑定一个空的值或空的图片引用(如果值从服务器异步过来,那应该在初始化时给它一个默认值) why:会 ...
最短路径-Dijkstra算法与Floyd算法
一.最短路径 ①在非网图中,最短路径是指两顶点之间经历的边数最少的路径. AE:1 ADE:2 ADCE:3 ABCE:3 ②在网图中,最短路径是指两顶点之间经历的边上权值之和最短的路径 ...
ZT 类与类之间的四种关系
csdn上一个好贴子:http://bbs.csdn.net/topics/390646332 类与类之间的四种关系1.依赖(Dependency) 类A在类B中作为一个成员函数的参数或者是返回值 ...
关于函数指针与c++多态
原文 https://www.cnblogs.com/zhchngzng/p/4013031.html 虚函数是实现多态的重要元素,请看: class A { public: void a0(){c ...
css3实现两个点之间有一条线，循环运动
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...
UVa 1608 - Non-boring sequences
链接: https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem& ...
CTSC2018 && APIO2018 && SDOI2018R2游记
Day -? 占个坑先.希望CTSC,APIO别打铁,R2别滚粗QAQ CTSC Day 0 早起坐车睡觉颓废报道颓废反正游记就是咕懒得写了 Day 1 早上四点被xp的闹钟吵醒(???还两次) 幸 ...
PHP------数组的遍历
echo current($attr); //取当前元素的value值 echo key($attr); //取当前元素的key next($attr); //将数组里面的指针指向下一个(向下移)pr ...
window.jQuery || document.write("<script src='__PUBLIC__/assets/js/jquery.js'>"+"<"+"/script>")
今天无意中看到这样一段代码 <script type="text/javascript"> window.jQuery || document.write(" ...

sample采样倾斜key并单独进行join代码

sample采样倾斜key并单独进行join代码的更多相关文章

随机推荐

热门专题