MapReduce实例好友推荐

2024-08-29

【大数据系列】MapReduce示例好友推荐

package org.slp; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; import java.util.StringTokenizer; /** * Created by sanglp on 2017/7/17. */ public clas

MapReduce案例-好友推荐

用过各种社交平台(如QQ.微博.朋友网等等)的小伙伴应该都知道有一个叫 "可能认识" 或者 "好友推荐" 的功能(如下图).它的算法主要是根据你们之间的共同好友数进行推荐,当然也有其他如爱好.特长等等.共同好友的数量越多,表明你们可能认识,系统便会自动推荐.今天我将向大家介绍如何使用MapReduce计算共同好友算法假设有以下好友列表,A的好友有B,C,D,F,E,O; B的好友有A,C,E,K 以此类推那我们要如何算出A-O用户每个用户之间的共同好友呢? A

MapReduce -- 好友推荐

MapReduce实现好友推荐: 张三的好友有王五.小红.赵六; 同样王五.小红.赵六的共同好友是张三; 在王五和小红不认识的前提下,可以通过张三互相认识,给王五推荐的好友为小红, 给小红推荐的好友是王五,就是王五.小红.赵六互为推荐关系. 根据分析就是有相同好友的人物之间为推荐关系,但要排除本来两人就是好友的情况. 计算一个人的好友推荐关系,推荐关系值为1,然后计算所有人的好友推荐关系,最终将推荐关系值相加,计算出最值得推荐的几个好友. 简单的说就是两个非好友的人,存在共同好友的人数越多,说明

吴裕雄--天生自然HADOOP操作实验学习笔记：qq好友推荐算法

实验目的初步认识图计算的知识点复习mapreduce的知识点,复习自定义排序分组的方法学会设计mapreduce程序解决实际问题实验原理 QQ好友推荐算法是所有推荐算法中思路最简单的,我们利用的思想就是好友的好友很有可能是自己的好友,而共同好友越多,说明两个人认识的可能性越大.其实这个想法属于图计算的内容,人际关系社交网络是很典型的图计算的内容,大家可以参考相关资料.我们今天就基于共同好友的想法实现. 1.实现思路我们已有的数据是每个人以及他的好友,我们无法直接从这个数据得到他的好友的

19-hadoop-fof好友推荐

好友推荐的案例, 需要两个job, 第一个进行好友关系度计算, 第二个job将计算的关系进行推荐 1, fof关系类 package com.wenbronk.friend; import org.apache.hadoop.io.Text; /** * 定义fof关系 * @author root * */ public class Fof extends Text{ public Fof() { super(); } /**' * 不论谁在前,返回一致的顺序 * @param a * @pa

MapReduce实例2（自定义compare、partition）& shuffle机制

MapReduce实例2(自定义compare.partition)& shuffle机制实例:统计流量有一份流量数据,结构是:时间戳.手机号.....上行流量.下行流量,需求是统计每个用户(手机号)的总上行.总下行以及总流量数值. Github地址分析由于希望的输出是一个 {手机号上行流量下行流量总流量} 这样的结构,所以需要写个javabean把它们封装成一个类. private String phoneNum; private long upFlow; private lon

MapReduce实例&YARN框架

MapReduce实例&YARN框架一个wordcount程序统计一个相当大的数据文件中,每个单词出现的个数. 一.分析map和reduce的工作 map: 切分单词遍历单词数据输出 reduce: 对从map中得到的数据的valuelist遍历累加,得到一个单词的总次数二.代码 WordCountMapper(继承Mapper) 重写Mapper类的map方法. mapreduce框架每读一行数据就调用一次该方法,map的具体业务逻辑就写在这个方法体中. map和reduce的数据输入

【Hadoop学习之十】MapReduce案例分析二-好友推荐

环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 最应该推荐的好友TopN,如何排名? tom hello hadoop cat world hadoop hello hive cat tom hive mr hive hello hive cat hadoop world hello mr hadoop tom hive world hello tom world hive mr

MapReduce案例二：好友推荐

1.需求推荐好友的好友图1: 2.解决思路 3.代码 3.1MyFoF类代码说明: 该类定义了所加载的配置,以及执行的map,reduce程序所需要加载运行的类 package com.hadoop.mr.fof; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntW

MapReduce实例-基于内容的推荐（一）

环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境数据:下载的amazon产品共同采购网络元数据(需FQ下载)http://snap.stanford.edu/data/amazon-meta.html 方案目标: 从数据中提取出每个用户买过哪些商品,根据买过的商品以及商品之间的相关性来对用户进行推荐商品下载的数据如下所示为单位 Id: 1ASIN: 0827229534 title: Patterns of Preaching: A Sermon Sampler

MapReduce实例浅析

在文章<MapReduce原理与设计思想>中,详细剖析了MapReduce的原理,这篇文章则通过实例重点剖析MapReduce 本文地址:http://www.cnblogs.com/archimedes/p/mapreduce-example-analysis.html,转载请注明源地址. 欢迎关注我的个人博客:www.wuyudong.com, 更多云计算与大数据的精彩文章 1.MapReduce概述 Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运

MapReduce实例

1.WordCount(统计单词) 经典的运用MapReuce编程模型的实例 1.1 Description 给定一系列的单词/数据,输出每个单词/数据的数量 1.2 Sample a is b is not c b is a is not d 1.3 Output a: b: c: d: not: 1.4 Solution /** * Licensed under the Apache License, Version 2.0 (the "License"); * you may n

（转）基于MapReduce的ItemBase推荐算法的共现矩阵实现（一）

转自:http://zengzhaozheng.blog.51cto.com/8219051/1557054 一.概述这2个月为公司数据挖掘系统做一些根据用户标签情况对用户的相似度进行评估,其中涉及一些推荐算法知识,在这段时间研究了一遍<推荐算法实践>和<Mahout in action>,在这里主要是根据这两本书的一些思想和自己的一些理解对分布式基于ItemBase的推荐算法进行实现.其中分两部分,第一部分是根据共现矩阵的方式来简单的推算出用户的推荐项,第二部分则是通过传统的相

MapReduce实例-倒排索引

环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境数据:任意数量.格式的文本文件(我用的四个.java代码文件) 方案目标: 根据提供的文本文件,提取出每个单词在哪个文件中出现了几次,组成倒排索引,格式如下 Ant FaultyWordCount.java : 1 , WordCount.java : 1 思路: 因为这个程序需要用到三个变量:单词.文件名.出现的频率,因此需要自定义Writable类,以单词为key,将文件名和出现的频率打包. 1.先将每行文本的单

MapReduce实例-NASA博客数据频度简单分析

环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境,gnuplot, 数据:http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html 方案目标: 提供的blog数据是简单的文件请求访问数据 205.189.154.54 - - [01/Jul/1995:00:00:29 -0400] "GET /shuttle/countdown/count.gif HTTP/1.0" 200 40310 每一行如上所示的规则.目标

MapReduce实例——求平均值，所得结果无法写出到文件的错误原因及解决方案

1.错误原因 mapreduce按行读取文本,map需要在原有基础上增加一个控制语句,使得读到空行时不执行write操作,否则reduce不接受,也无法输出到新路径. 2.解决方案原错误代码 public void map(Object key,Text value,Context context) throws IOException, InterruptedException { String line=value.toString(); System.out.println(line);

MapReduce实例(数据去重)

数据去重: 原理(理解):Mapreduce程序首先应该确认<k3,v3>,根据<k3,v3>确定<k2,v2>,原始数据中出现次数超过一次的数据在输出文件中只出现一次.Reduce的输出是不重复的数据,也就是每一行数据作为key,即k3.而v3为空或不需要设值.根据<k3,v3>得到k2为每一行的数据,v2为空.根据MapReduce框架设值可知,k1为每行的起始位置,v1为每行的内容.因此,v1需要赋值给k2,使得原来的v1作为新的k2,从而两个或更多文

大数据学习——mapreduce共同好友

数据 commonfriends.txt A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,I,J pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns=&

MapReduce实例——查询缺失扑克牌

问题: 解决: 首先分为两个过程,Map过程将<=10的牌去掉,然后只针对于>10的牌进行分类,Reduce过程,将Map传过来的键值对进行统计,然后计算出少于3张牌的的花色 1.代码 1) Map代码 String line = value.toString(); String[] strs = line.split("-"); if(strs.length == 2){ int number = Integer.valueOf(strs[1]); if(number &

[转] hadoop MapReduce实例解析-非常不错，讲解清晰

来源:http://blog.csdn.net/liuxiaochen123/article/details/8786715?utm_source=tuicool 2013-04-11 10:15 4941人阅读评论(2) 收藏举报目录(?)[-] 1MapReduce理论简介 11 MapReduce编程模型 12 MapReduce处理过程 2运行WordCount程序 21 准备工作 22 运行例子 23 查看结果 3WordCount源码分析 31 特别数据类型介绍 32 旧的

MapReduce实例好友推荐

热门专题