mapreduce 实现pagerank

输入格式：
     A　　1　　B,C,D
　　　B　　1　　C,D
map:
　　  B　　A　　1/3
　  　C　　A　　1/3
　  　D　　A　　1/3
　  　A　　|B,C,D
　  　C　　B　　1/2
　  　D　　B　　1/2
　  　B　　|C,D
reduce:
　　　B　　(1-0.85)+0.85*1/3　　C,D

　　　C　　(1-0.85)+0.85*5/6

     D　　(1-0.85)+0.85*5/6
     A    (1-0.85)+0.85*0　　B,C,D

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class PageRankIter {

  private static final double damping = 0.85;

  public static class PRIterMapper extends

      Mapper<LongWritable, Text, Text, Text> {

    public void map(LongWritable key, Text value, Context context)

        throws IOException, InterruptedException {

      String line = value.toString();

      String[] tuple = line.split("\t");

      String pageKey = tuple[0];

      double pr = Double.parseDouble(tuple[1]);

      if (tuple.length > 2) {

        String[] linkPages = tuple[2].split(",");

        for (String linkPage : linkPages) {

          String prValue =

              pageKey + "\t" + String.valueOf(pr / linkPages.length);

          context.write(new Text(linkPage), new Text(prValue));

        }

        context.write(new Text(pageKey), new Text("|" + tuple[2]));

      }

    }

  }

  public static class PRIterReducer extends Reducer<Text, Text, Text, Text> {

    public void reduce(Text key, Iterable<Text> values, Context context)

        throws IOException, InterruptedException {

      String links = "";

      double pagerank = 0;

      for (Text value : values) {

        String tmp = value.toString();

        if (tmp.startsWith("|")) {

          links = "\t" + tmp.substring(tmp.indexOf("|") + 1);// index从0开始

          continue;

        }

        String[] tuple = tmp.split("\t");

        if (tuple.length > 1)

          pagerank += Double.parseDouble(tuple[1]);

      }

      pagerank = (double) (1 - damping) + damping * pagerank; // PageRank的计算迭代公式

      context.write(new Text(key), new Text(String.valueOf(pagerank) + links));

    }

  }

  public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();

    Job job2 = new Job(conf, "PageRankIter");

    job2.setJarByClass(PageRankIter.class);

    job2.setOutputKeyClass(Text.class);

    job2.setOutputValueClass(Text.class);

    job2.setMapperClass(PRIterMapper.class);

    job2.setReducerClass(PRIterReducer.class);

    FileInputFormat.addInputPath(job2, new Path(args[0]));

    FileOutputFormat.setOutputPath(job2, new Path(args[1]));

    job2.waitForCompletion(true);

  }

}

输入为上述的输出
输入格式为：
    A　　pr
    B　　pr
    ...

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.FloatWritable;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class PageRankViewer {

  public static class PageRankViewerMapper extends

      Mapper<LongWritable, Text, FloatWritable, Text> {

    private Text outPage = new Text();

    private FloatWritable outPr = new FloatWritable();

    public void map(LongWritable key, Text value, Context context)

        throws IOException, InterruptedException {

      String[] line = value.toString().split("\t");

      String page = line[0];

      float pr = Float.parseFloat(line[1]);

      outPage.set(page);

      outPr.set(pr);

      context.write(outPr, outPage);

    }

  }

  /**重载key的比较函数，使其经过shuffle和sort后反序（从大到小）输出**/

  public static class DescFloatComparator extends FloatWritable.Comparator {

    // @Override

    public float compare(WritableComparator a,

        WritableComparable<FloatWritable> b) {

      return -super.compare(a, b);

    }

    public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {

      return -super.compare(b1, s1, l1, b2, s2, l2);

    }

  }

  public static void main(String[] args) throws Exception {

      Configuration conf = new Configuration();

      Job job3 = new Job(conf, "PageRankViewer");

      job3.setJarByClass(PageRankViewer.class);

      job3.setOutputKeyClass(FloatWritable.class);

      job3.setSortComparatorClass(DescFloatComparator.class);

      job3.setOutputValueClass(Text.class);

      job3.setMapperClass(PageRankViewerMapper.class);

      FileInputFormat.addInputPath(job3, new Path(args[0]));

      FileOutputFormat.setOutputPath(job3, new Path(args[1]));

      job3.waitForCompletion(true);

  }

}

mapreduce 实现pagerank的更多相关文章

Hadoop实战训练————MapReduce实现PageRank算法
经过一段时间的学习,对于Hadoop有了一些了解,于是决定用MapReduce实现PageRank算法,以下简称PR 先简单介绍一下PR算法(摘自百度百科:https://baike.baidu.co ...
MapReduce实现PageRank算法（邻接矩阵法）
前言之前写过稀疏图的实现方法,这次写用矩阵存储数据的算法实现,只要会矩阵相乘的话,实现这个就很简单了.如果有不懂的可以先看一下下面两篇随笔. MapReduce实现PageRank算法(稀疏图法) ...
MapReduce实现PageRank算法（稀疏图法）
前言本文用Python编写代码,并通过hadoop streaming框架运行. 算法思想下图是一个网络: 考虑转移矩阵是一个很多的稀疏矩阵,我们可以用稀疏矩阵的形式表示,我们把web图中的每一个 ...
PageRank算法简介及Map-Reduce实现
PageRank对网页排名的算法,曾是Google发家致富的法宝.以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理. 一.什么是pagerank Pag ...
Mapreduce -- PageRank
PageRank 简单理解为网页排名,但是网页是根据什么排名的,接下来就简单介绍一下. 举例: 假设网页 A 的内容中有网页 B,C 和 D 的链接,并且 A 的 PageRank的值为0.25. 那 ...
升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)
Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系 ...
PageRank算法--从原理到实现
本文将介绍PageRank算法的相关内容,具体如下: 1.算法来源 2.算法原理 3.算法证明 4.PR值计算方法 4.1 幂迭代法 4.2 特征值法 4.3 代数法 5.算法实现 5.1 基于迭代法 ...
数据挖掘之权重计算（PageRank）
刘勇 Email:lyssym@sina.com 简介鉴于在Web抓取服务和文本挖掘之句子向量中对权重值的计算需要,本文基于MapReduce计算模型实现了PageRank算法.为验证本文算法 ...
PageRank 算法简介
有两篇文章一篇讲解(下面copy)< PageRank算法简介及Map-Reduce实现>来源:http://www.cnblogs.com/fengfenggirl/p/pagerank ...

随机推荐

正则转nfa：bug出现。
本人写的一个正则到nfa的bug 刚写完前面的那篇,自己用脑子过了一下,发现了一个bug.具体情况如下. 这个bug的产生条件是多次调用假名的时候,每次调用都会修改假名的nfa图.直接这么说不好理解, ...
POJ 2421 Constructing Roads (最小生成树)
Constructing Roads Time Limit:2000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u ...
CF Set of Strings
Set of Strings time limit per test 1 second memory limit per test 256 megabytes input standard input ...
Kafka删除逻辑
Kafka的删除逻辑请参见:http://www.cnblogs.com/gaopeng527/p/4950956.html
DWZ (JUI) 教程 DWZ中dialog层的刷新
在DWZ开发过程中经常会遇到的一种情况就是:在navTab页面中通过a标签打开一个dialog,在dialog层进行操作后,需要对该dialog层进行必要的刷新操作. 1.首先讲一下思路: 在非dia ...
shell常用代码积累
1.使用getopts从命令行接收参数例: while getopts h:u:p: OPTION do case $OPTION in h) echo "主机地址:$OPTARG&quo ...
MVC常用 ActionResult
1.EmptyResult 2.ContentResult 3.FileResult 4.JavaScriptResult 5.JsonResult 6.HttpStatusCodeResult 7. ...
001.android初级篇之ToolBar
官方的最新support library v7中提供了新的组件ToolBar,用来替代之前的ActionBar,实现更为弹性的设计在 material design 也对之做了名称的定义:App ba ...
asp.net判断访问者是否来自移动端
主要就是通过客户端传递的User-agent来判断访问网站的客户端是PC还是手机. .NET中就是Request.ServerVariables["HTTP_USER_AGENT" ...
苹果在Xcode6中弃用segue的push和model
苹果在Xcode6中弃用了segue的push和model.被show和present取代. 下面是新版本中每种类型的使用总结和例子.建议自己使用前先在测试项目中自己试一试 Show 根据当前屏幕中的 ...

mapreduce 实现pagerank

mapreduce 实现pagerank的更多相关文章

随机推荐

热门专题