Hadoop案例（三）找博客共同好友

找博客共同好友案例

1）数据准备

以下是博客的好友列表数据，冒号前是一个用户，冒号后是该用户的所有好友（数据中的好友关系是单向的）

A:B,C,D,F,E,O

B:A,C,E,K

C:F,A,D,I

D:A,E,F,L

E:B,C,D,M,L

F:A,B,C,D,E,O,M

G:A,C,D,E,F

H:A,C,D,E,O

I:A,O

J:B,O

K:A,C,D

L:D,E,F

M:E,F,G

O:A,H,I,J

多对多的关系

数据库：学生       课程        成绩表

学生表和课程表的自然连接

A

A   

A : B

A : C

B : C

A    I,K,C,B,G,F,H,O,D,

B    A,F,J,E,

C    A,B

D    A,B

A-B  C,D

friends.txt

求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？

2）需求分析

先求出A、B、C、….等是谁的好友

第一次输出结果

A    I,K,C,B,G,F,H,O,D,

B    A,F,J,E,

C    A,E,B,H,F,G,K,

D    G,C,K,A,L,F,E,H,

E    G,M,L,H,A,F,B,D,

F    L,M,D,C,G,A,

G    M,

H    O,

I    O,C,

J    O,

K    B,

L    D,E,

M    E,F,

O    A,H,I,J,F,

第二次输出结果

A-B    E C

A-C    D F

A-D    E F

A-E    D B C

A-F    O B C D E

A-G    F E C D

A-H    E C D O

A-I    O

A-J    O B

A-K    D C

A-L    F E D

A-M    E F

B-C    A

B-D    A E

B-E    C

B-F    E A C

B-G    C E A

B-H    A E C

B-I    A

B-K    C A

B-L    E

B-M    E

B-O    A

C-D    A F

C-E    D

C-F    D A

C-G    D F A

C-H    D A

C-I    A

C-K    A D

C-L    D F

C-M    F

C-O    I A

D-E    L

D-F    A E

D-G    E A F

D-H    A E

D-I    A

D-K    A

D-L    E F

D-M    F E

D-O    A

E-F    D M C B

E-G    C D

E-H    C D

E-J    B

E-K    C D

E-L    D

F-G    D C A E

F-H    A D O E C

F-I    O A

F-J    B O

F-K    D C A

F-L    E D

F-M    E

F-O    A

G-H    D C E A

G-I    A

G-K    D A C

G-L    D F E

G-M    E F

G-O    A

H-I    O A

H-J    O

H-K    A C D

H-L    D E

H-M    E

H-O    A

I-J    O

I-K    A

I-O    A

K-L    D

K-O    A

L-M    E F

3）代码实现

（1）第一次Mapper

package com.xyg.mapreduce.friends;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class OneShareFriendsMapper extends Mapper<LongWritable, Text, Text, Text>{

    @Override

    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)

            throws IOException, InterruptedException {

        // 1 获取一行 A:B,C,D,F,E,O

        String line = value.toString();

        // 2 切割

        String[] fileds = line.split(":");

        // 3 获取person和好友

        String person = fileds[];

        String[] friends = fileds[].split(",");

        // 4写出去

        for(String friend: friends){

            // 输出 <好友，人>

            context.write(new Text(friend), new Text(person));

        }

    }

}

（2）第一次Reducer

package com.xyg.mapreduce.friends;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class OneShareFriendsReducer extends Reducer<Text, Text, Text, Text>{

    @Override

    protected void reduce(Text key, Iterable<Text> values, Context context)

            throws IOException, InterruptedException {

        StringBuffer sb = new StringBuffer();

        //1 拼接

        for(Text person: values){

            sb.append(person).append(",");

        }

        //2 写出

        context.write(key, new Text(sb.toString()));

    }

}

（3）第一次Driver

package com.xyg.mapreduce.friends;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class OneShareFriendsDriver {

    public static void main(String[] args) throws Exception {

        // 1 获取job对象

        Configuration configuration = new Configuration();

        Job job = Job.getInstance(configuration);

        // 2 指定jar包运行的路径

        job.setJarByClass(OneShareFriendsDriver.class);

        // 3 指定map/reduce使用的类

        job.setMapperClass(OneShareFriendsMapper.class);

        job.setReducerClass(OneShareFriendsReducer.class);

        // 4 指定map输出的数据类型

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        // 5 指定最终输出的数据类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        // 6 指定job的输入原始所在目录

        FileInputFormat.setInputPaths(job, new Path(args[]));

        FileOutputFormat.setOutputPath(job, new Path(args[]));

        // 7 提交

        boolean result = job.waitForCompletion(true);

        System.exit(result?:);

    }

}

（4）第二次Mapper

package com.xyg.mapreduce.friends;

import java.io.IOException;

import java.util.Arrays;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class TwoShareFriendsMapper extends Mapper<LongWritable, Text, Text, Text>{

    @Override

    protected void map(LongWritable key, Text value, Context context)

            throws IOException, InterruptedException {

        // A I,K,C,B,G,F,H,O,D,

        // 友 人，人，人

        String line = value.toString();

        String[] friend_persons = line.split("\t");

        String friend = friend_persons[];

        String[] persons = friend_persons[].split(",");

        Arrays.sort(persons);

        for (int i = ; i < persons.length - ; i++) {

            for (int j = i + ; j < persons.length; j++) {

                // 发出 <人-人，好友> ，这样，相同的“人-人”对的所有好友就会到同1个reduce中去

                context.write(new Text(persons[i] + "-" + persons[j]), new Text(friend));

            }

        }

    }

}

（5）第二次Reducer

package com.xyg.mapreduce.friends;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class TwoShareFriendsReducer extends Reducer<Text, Text, Text, Text>{

    @Override

    protected void reduce(Text key, Iterable<Text> values, Context context)

            throws IOException, InterruptedException {

        StringBuffer sb = new StringBuffer();

        for (Text friend : values) {

            sb.append(friend).append(" ");

        }

        context.write(key, new Text(sb.toString()));

    }

}

（6）第二次Driver

package com.xyg.mapreduce.friends;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class TwoShareFriendsDriver {

    public static void main(String[] args) throws Exception {

        // 1 获取job对象

        Configuration configuration = new Configuration();

        Job job = Job.getInstance(configuration);

        // 2 指定jar包运行的路径

        job.setJarByClass(TwoShareFriendsDriver.class);

        // 3 指定map/reduce使用的类

        job.setMapperClass(TwoShareFriendsMapper.class);

        job.setReducerClass(TwoShareFriendsReducer.class);

        // 4 指定map输出的数据类型

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        // 5 指定最终输出的数据类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        // 6 指定job的输入原始所在目录

        FileInputFormat.setInputPaths(job, new Path(args[]));

        FileOutputFormat.setOutputPath(job, new Path(args[]));

        // 7 提交

        boolean result = job.waitForCompletion(true);

        System.exit(result?:);

    }

}

Hadoop案例（三）找博客共同好友的更多相关文章

[2017BUAA软工]第三次博客作业：案例分析
第三次博客作业:案例分析 1. 调研和评测 1.1 BUG及设计缺陷描述主要测试博客园在手机端上的使用情况. [BUG 01] 不能后退到上一界面(IOS) 重现步骤:打开博客首页中任意博文,点击博 ...
[BUAA OO]第三次博客作业
OO第三次博客作业 1. 规格化设计的发展我认为,规格化设计主要源自于软件设计的两次危机.第一次是由于大量存在的goto语句,让当时被广泛应用的面向过程式的编程语言臃肿不堪,在逻辑性上与工程规模上鱼 ...
OO第三次博客作业——规格
OO第三次博客作业——规格一.调研结果: 规格的历史: 引自博文链接:http://blog.sina.com.cn/s/blog_473d5bba010001x9.html 传统科学的特点是发现世 ...
OOP第三章博客
OO第三单元博客 • (1)梳理JML语言的理论基础.应用工具链情况: 理论基础: 网络资料上面介绍JML有两种主要的用法: 开展规格化设计.这样交给代码实现人员的将不是可能带有内在模糊性.二义性的自 ...
java三篇博客转载详解-vector,stack,queue,deque
博客一:转载自http://shmilyaw-hotmail-com.iteye.com/blog/1825171 java stack的详细实现分析简介我们最常用的数据结构之一大概就是stack ...
【作业3.0】HansBug的第三次博客规格总结
转眼间第三次作业了,似乎需要说点啥,那就说点. 规格&工业说到这个,不得不提一下软件开发的发展史. 历史的进程早在上世纪50年代,就已经有早期的编程语言出现,也开始有一些程序编写者出现(多 ...
第三周博客总结 <西北师范大学| 周安伟>
一,本周助教小结工作稳步推进,时间分配合理,点评效率有所提高,主要进行了评分工作,工作情况都汇总到了Excel中. 二,助教本人博客 https://home.cnblogs.com/u ...
北航OO(2020)第三单元博客作业
一.JML理论基础及相关工具链 1.JML理论基础该部分梳理本单元作业中涉及到的JML知识. 1.1注释结构 JML采用javadoc注释的方式来表示规格,且每行以@开头.通过使用//@annota ...
第三周博客作业<西北师范大学|李晓婷>
1.助教博客链接:https://www.cnblogs.com/lxt-/MyComments.html 2.学生作业打分要求: https://www.cnblogs.com/nwnu-dai ...

随机推荐

C之Volatile关键字的介绍与使用20170724
volatile 的意思是“易失的,易改变的”. 一.volatile的引入这个限定词的含义是向编译器指明变量的内容可能会由于其他程序的修改而变化.通常在程序中申明了一个变量时,编译器会尽量把它存放 ...
如何将下载的web工程导入到eclipse中使用
如果你是喜欢编程的,在你的开发工具中一定有许多项目,就像小编一样(PS:小编只想默默地装一X): 我们选中其中的一个项目,然后[Ctrl + C]复制,再[Ctrl + V]粘贴到桌面: 那么 ...
对于redis框架的理解（四）
上一篇讲述了eventloop的结构和创建,添加文件事件删除文件事件,派发等等. 而eventloop主要就是调用不同网络模型完成事件监听和派发的. 这一篇主要讲述epoll网络模型,redis是如何 ...
swift4.0中http连接(据于xcode9.3 URLSession)
NSURLSession是NSURLConnection的替代者,在2013年苹果全球开发者大会上(WWDC2013)随iOS7一起发布的,是对NSURLConnection进行了重构优化后的新的网络 ...
Tensorboard教程：显示计算图中节点信息
Tensorboard显示计算图节点信息觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文献强烈推荐Tensorflow实战Google深度学习框架实验平台: Tensorflow1 ...
ictclas bug修复
大体上参考链接:http://blog.csdn.net/luojinping/article/details/8788743 最后注意下SegTag.java文件 public SegTag(int ...
2017北京国庆刷题Day7 afternoon
期望得分:100+30+100=230 实际得分:60+30+100=190 排序去重固定右端点,左端点单调不减考场上用了二分,没去重,60 #include<cstdio> #inc ...
PAT 1009. Triple Inversions (35) 数状数组
Given a list of N integers A1, A2, A3,...AN, there's a famous problem to count the number of inversi ...
教你Snapseed软件八个常用调图工具
教你Snapseed软件八个常用调图工具教你Snapseed(指划修图)软件八个常用调图工具老阿·编写 Snapseed是目前手机摄影修图中功能最强大的一款软件,很多功能很像电脑用的Photosh ...
母版页 VS shtml—ASP.NET细枝末节（3）
这算是html的重用吧? 网页很多地方长得一样,也有不一样的地方. 把网页中一样的地方,提取出来,形成一个文档. 在其他网页中引用,是网站开发的一个传统的思维. 当然不同的技术有不同的表现形式. 例如 ...

Hadoop案例（三）找博客共同好友

找博客共同好友案例

1）数据准备

2）需求分析

3）代码实现

Hadoop案例（三）找博客共同好友的更多相关文章

随机推荐

热门专题