PageRank在Hadoop和spark下的实现以及对比

关于PageRank的地位，不必多说。

主要思想：对于每个网页，用户都有可能点击网页上的某个链接，例如

A:B,C,D
B:A,D
C:A
D:B,C

由这个我们可以得到网页的转移矩阵

A B C D

A 0 1/2 1 0

B 1/3 0 0 0

C 1/3 1/2 0 0

D 1/3 0 0 1/2

Aij表示网页j到网页i的转移概率。假设起始状态每个用户对ABCD四个网站的点击概率相同都是0.25，那么各个网站第一次被访问的概率为（0.25，0.25，0.25，0.25），第二次访问考虑到在页面跳转，利用转移矩阵对于网站A的概率为（0，1/2,1,0）*(0.25,0.25,0.25,0.25)T,一次类推，经过若干次迭代会收敛到某个值。但是考虑到有些链接是单链即没有别的链接只想他，他也不指向别的链接，以及有些链接是自己指向自己，那么上述的方式将无法收敛。所以后面加了一个阻尼系数一般取0.85，至于为什么是这样，挺复杂的证明。

最后的公式为alaph=factor*matrix*(alaph)T+(1-facotr)/n*

详细的介绍可以参考：http://blog.jobbole.com/71431/

接下来便是对比Hadoop和spark了。这里只是单纯的讨论两个环境下编程的效率，不讨论性能。

Hadoop：

输入的文件：

A 0.25:B,C,D
B 0.25:A,D
C 0.25:A
D 0.25:B,C

这里得先说一句，之所以加了0.25是因为初始的概率为1/n，而n为网站数，这里统计网站数又得需要一个MapReduce来实现，所以作罢，权当n是手工输入的。

由于每次迭代后的结果只能放在文件中，所以这里花了很多时间在规范如何输出，以及map和reduce之间如何传值的问题。

在map中，我们要做的是从输入文件中获取alaph和每个网站的转移概率。例如

A 0.25:B,C,D

B的转移概率为1/3而且是从A转向B的，所以输出的是<"B","link:A 0.333">link表示这是个转移概率，A表示是从A出发的

alaph的表示：<"B","alaph: A 0.25">这里的A表示这个alaph值对应这A。

由于我们这里迭代后的输入文件都是从输出文件中获取，所以我们需要将输出文件搞的和一开始输入文件一样，所以在map阶段需要输出<"A","content:B,C,D">方便reduce输出和输入文件一样格式的输出。

在reduce阶段，此时对于键值B而言，会收到如下

<"B","link:A 0.333">

<"B","link:D 0.5">

<"B","alaph: A 0.25">

<"B","alaph: D 0.25">

<"B","content:A,D">

我们根据不同的单词，将value整合。这的alaph=0.333*0.25+0.5*0.25,接着再加上阻尼系数等，得到最后的alaph值。然后利用content对应的value，最后输出<"B：0.375","A,D">

这样迭代若干次。

附上代码：

 package org.apache.hadoop.PageRank;

 import java.util.ArrayList;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class PageRank {

     public static void run(){

     }

     public static void main(String[] args) throws Exception {

         double factor=0;

         if(args.length>1){

             factor=Double.parseDouble(args[0]);

         }else{

             factor=0.85;

         }

         String input="hdfs://10.107.8.110:9000/PageRank_input";

         String output="hdfs://10.107.8.110:9000/PageRank/output";

         ArrayList<String> pathList=new ArrayList<String>();

         for(int i=0;i<20;i++){

             Configuration conf = new Configuration();

             conf.set("num","4");

             conf.set("factor",String.valueOf(factor));

             Job job = Job.getInstance(conf, "PageRank");

             job.setJarByClass(org.apache.hadoop.PageRank.PageRank.class);

             job.setMapperClass(MyMapper.class);

             job.setReducerClass(MyReducer.class);

             job.setOutputKeyClass(Text.class);

             job.setOutputValueClass(Text.class);

             FileInputFormat.setInputPaths(job, new Path(input));

             FileOutputFormat.setOutputPath(job, new Path(output));

             input=output;

             pathList.add(output);

             output=output+1;

             System.out.println("the "+i+"th iterator is finished");

             job.waitForCompletion(true);

         }

         for(int i=0;i<pathList.size()-1;i++){

             Configuration conf=new Configuration();

             Path path=new Path(pathList.get(i));

             FileSystem fs=path.getFileSystem(conf);

             fs.delete(path,true);

         }

     }

 }

 package org.apache.hadoop.PageRank;

 import java.io.IOException;

 import java.util.HashMap;

 import java.util.Map;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 public class MyMapper extends Mapper<LongWritable, Text, Text, Text> {

     public void map(LongWritable ikey, Text ivalue, Context context)

             throws IOException, InterruptedException {

         String[] line=ivalue.toString().split(":");

         String content=line[1];

         int num=content.split(",").length;

         String word=line[0].split("    ")[0];

         String alaph=line[0].split("    ")[1];

         context.write(new Text(word),new Text("content:"+content));

         for(String w:content.split(",")){

             context.write(new Text(w),new Text("link:"+word+" "+String.valueOf(1.0/num)));

             context.write(new Text(w),new Text("alaph:"+word+" "+alaph));

         }

     }

 }

 package org.apache.hadoop.PageRank;

 import java.io.IOException;

 import java.util.HashMap;

 import java.util.Map;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Reducer;

 public class MyReducer extends Reducer<Text, Text, Text, Text> {

     public void reduce(Text _key, Iterable<Text> values, Context context)

             throws IOException, InterruptedException {

         // process values

         Configuration conf=context.getConfiguration();

         double factor=Double.parseDouble(conf.get("factor"));

         int num=Integer.parseInt(conf.get("num"));

         Map<String,Double> alaph=new HashMap<String,Double>();

         Map<String,Double> link=new HashMap<String,Double>();

         String content="";

         for (Text val : values) {

             String[] line=val.toString().split(":");

             if(line[0].compareTo("content")==0){

                 content=line[1];

             }else {

                 String[] s=line[1].split(" ");

                 double d=Double.parseDouble(s[1]);

                 if(line[0].compareTo("alaph")==0){

                     alaph.put(s[0],d);

                 }else if(line[0].compareTo("link")==0){

                     link.put(s[0],d);

                 }

             }

         }

         double sum=0;

         for(Map.Entry<String,Double> entry:alaph.entrySet()){

             sum+=link.get(entry.getKey())*entry.getValue();

         }

         System.out.println("    ");

         System.out.println("sum is "+sum);

         System.out.println("    ");

         double result=factor*sum+(1-factor)/num;

         context.write(_key,new Text(String.valueOf(result)+":"+content));

     }

 }

我们可以看出，其实在MapReduce中我们将大把的精力花在了map的输出上，而之所以这样是因为我们不能直接利用他的结果，并且为了能迭代，我们又只能格式化输出，如果数据很多的，那么在map阶段将有很多的资源需要传递。总而言之，Hadoop让我们将大部分精力花在不该花的地方。

接下来看spark 。我这里用的是python，在pyspark下运行。输入文件：

A:B,C,D
B:A,D
C:A
D:B,C

先看代码

def f(x):

    links=x[1][0]

    rank=x[1][1]

    n=len(links.split(","))

    result=[]

    for s in links.split(","):

        result.append((s,rank*1.0/n))

    return result

file="hdfs://10.107.8.110:9000/spark_test/pagerank.txt"

data=sc.textFile(file)

link=data.map(lambda x:(x.split(":")[0],x.split(":")[1]))

n=data.count()

rank=link.mapValues(lambda x:1.0/n)

for i in range(10):

    rank=link.join(rank).flatMap(f).reduceByKey(lambda x,y:x+y).mapValues(lambda x:0.15/n+0.85*x)

直接分析，data=sc.textFile(file)从hdfs中获取text文件。

通过data.collect()可以发现内容为

我们需要将其转换为键值对，那么这里就需要map函数

link=data.map(lambda x:(x.split(":")[0],x.split(":")[1]))用于将文件转换为键值对

此时lambda x的x值为字符串，所以通过:将其分割

接着通过n=data.count()我们可以直接获得网站数，而不必手动输入

rank=link.mapValues(lambda x:1.0/n)用于初始化各个网站的访问概率

接着通过link.join(rank)，让link和rank根据key而join进来

link.join(rank).flatMap(f)用于提取键值，由于输入的是(page,(links,rank)),所以这里定义了一个函数f用于分割links，让links分割成若干个link，并加上rank输出。

最后只需将其按照key值进行reduce即可

link.join(rank).flatMap(f).reduceByKey(lambda x,y:x+y)，这样就会将相同key的概率相加，得到alaph，接着再加上阻尼系数即可

link.join(rank).flatMap(f).reduceByKey(lambda x,y:x+y).mapValues(lambda x:0.15/n+0.85*x)这样就是一个完整的计算

通过迭代若干次就可以了。

从代码量上说（虽然python比java简明）spark的确是比Hadoop好很多。原因也说了，1每次迭代不必将结果存放在文件中 2提供了更多的范式

PageRank在Hadoop和spark下的实现以及对比的更多相关文章

Ubuntu14.04或16.04下Hadoop及Spark的开发配置
对于Hadoop和Spark的开发,最常用的还是Eclipse以及Intellij IDEA. 其中,Eclipse是免费开源的,基于Eclipse集成更多框架配置的还有MyEclipse.Intel ...
hadoop+tachyon+spark的zybo cluster集群综合配置
1.zybo cluster 架构简述: 1.1 zybo cluster 包含5块zybo 开发板组成一个集群,zybo的boot文件为digilent zybo reference design提 ...
Hadoop与Spark比较
先看这篇文章:http://www.huochai.mobi/p/d/3967708/?share_tid=86bc0ba46c64&fmid=0 直接比较Hadoop和Spark有难度,因为 ...
2分钟读懂Hadoop和Spark的异同
谈到大数据框架,现在最火的就是Hadoop和Spark,但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,倒底现在业界都在使用哪种技术?二者间究竟有哪些异同?它们各自解决了哪些问题? ...
成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师 ...
安装Hadoop及Spark(Ubuntu 16.04)
安装Hadoop及Spark(Ubuntu 16.04) 安装JDK 下载jdk(以jdk-8u91-linux-x64.tar.gz为例) 新建文件夹 sudo mkdir /usr/lib/jvm ...
老李分享：大数据框架Hadoop和Spark的异同 1
老李分享:大数据框架Hadoop和Spark的异同 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨 ...
hadoop+hive+spark搭建（一）
1.准备三台虚拟机 2.hadoop+hive+spark+java软件包传送门:Hadoop官网 Hive官网 Spark官网一.修改主机名,hosts文件主机名修改 hostnam ...
深度:Hadoop对Spark五大维度正面比拼报告！
每年,市场上都会出现种种不同的数据管理规模.类型与速度表现的分布式系统.在这些系统中,Spark和hadoop是获得最大关注的两个.然而该怎么判断哪一款适合你? 如果想批处理流量数据,并将其导入HDF ...

随机推荐

springAOP 的pointcut
<bean id="amqFilter" class="com.xxx.hotel.base.aspectj.AmQConsumerFilter"/> ...
java基础概念经典题目汇集
1.下面是People和Child类的定义和构造方法,每个构造方法都输出编号.在执行new Child("mike")的时候都有哪些构造方法被顺序调用?请选择输出结果 ( ) cl ...
判断Android应用是否安装、运行
本文介绍3个方法,判断手机上是否安装了某应用.该应用是否正在运行.获取手机某个APK文件的安装Intent.启动该Intent就可以直接安装该APK. /** * 判断应用是否已安装 * * @par ...
UVALive 2056 Lazy Math Instructor（递归处理嵌套括号）
因为这个题目说明了优先级的规定,所以可以从左到右直接运算,在处理嵌套括号的时候,可以使用递归的方法,给定每一个括号的左右边界,伪代码如下: int Cal(){ if(括号) sum += Cal( ...
Sea.Js使用入门
1.Sea.Js是什么 seajs相对于RequireJs与LabJS就比较年轻,2010年玉伯发起了这个开源项目,SeaJS遵循CMD规范,与RequireJS类似,同样做为模块加载器.示例 // ...
解决phpmyadmin 点击表结构时卡顿、一直加载、打不开的问题
本文内容是转自其它站点,亲测可用. 第一步,打开 ./version_check.php文件,找到以下代码: $save = true; $file ='http://www.phpmyadmin.n ...
优化のzencart URL &zenid=.....
zencart URL后面带有一串&zenid=.....解决方案发布时间:2013年3月16日次浏览:106 经木木测试,此方法可用. ================= 最近一个客户的 ...
CentOS服务端口开放
#例如开放81端口iptables -I INPUT -i eth0 -p tcp --dport 81 -j ACCEPTiptables -I OUTPUT -o eth0 -p tcp --sp ...
java HTTP请求 DefaultHttpClient is deprecated
最近在使用Apache的httpclient的时候,maven引用了最新版本4.3,发现Idea提示DefaultHttpClient等常用的类已经不推荐使用了,之前在使用4.2.3版本的时候,还没有 ...
zf-关于即将过期提示字符串的修改
Struts2中的 addFieldError(str1,str2); 自带输出 str1= [str2] 这样子是自带输出的但是如果要把=[]替换掉怎么办呢当时想的很复杂,现在知道了,其实很简 ...

PageRank在Hadoop和spark下的实现以及对比

PageRank在Hadoop和spark下的实现以及对比的更多相关文章

随机推荐

热门专题