c#,pagerank算法实现一
PageRank让链接来"投票"
一个页面的“得票数”由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由所有链向它的页面(“链入页面”)的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。
2005年初,Google为网页链接推出一项新属性nofollow,使得网站管理员和网站作者可以做出一些Google不计票的链接,也就是说这些链接不算作"投票"。nofollow的设置可以抵制评论垃圾。
假设一个由4个页面组成的小团体:A,B,C和D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C及D的Pagerank总和。
继续假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。
换句话说,根据链出总数平分一个页面的PR值。
最后,所有这些被换算为一个百分比再乘上一个系数。由于“没有向外链接的页面”传递出去的PageRank会是0,所以,Google通过数学系统给了每个页面一个最小值:
说明:在Sergey Brin和Lawrence Page的1998年原文中给每一个页面设定的最小值是1-d,而不是这里的
(1-d)/N。 所以一个页面的PageRank是由其他页面的PageRank计算得到。Google不断的重复计算每个页面的PageRank。如果给每个页面一个随机PageRank值(非0),那么经过不断的重复计算,这些页面的PR值会趋向于稳定,也就是收敛的状态。这就是搜索引擎使用它的原因。
实验数据a.txt是小的随机生成的图(图中没有终止点)。节点个数n=1000,边数m=8192
该图有一个1000条边构成的有向环(遍历了所有的节点),这确保了该图是连通的。显然,这样的一个有向环确保了该图中没有终止点(即任何一个点都有出边)。如果存在一对节点之间有多条相同的有向边,你的算法应该把它们当做是同一条边。a.txt的每一行表示一条有向边,第一列表示边的源结点,第二列表示边的目的节点。
l 实现过程:
设有向图 G=(V,E)有n个节点(编号为1,2,...N)和M条边,所有的节点都有至少一个出边,且M=[Mji](n*n)是一个m*n的随机邻接矩阵,定义如下:对任意i,j€[1,n]
里,deg(i)是图G中节点i的出边个数。基于PageRank的定义,设1-Β为随机跳转概率,我们将PageRank向量记为r,有如下等式
基于上面的公式,计算PageRank向量的迭代过程如下:
矩阵运算调用了 MathNet.Numerics
public static double[,] Get()
{
double[,] m = new double[, ];
for (int i = ; i < ; i++)
{
for (int j = ; j < ; j++)
{
m[i, j] = ;
}
}
double[] s = new double[];
double[,] M = new double[, ];
for (int i = ; i < ; i++)
{
for (int j = ; j < ; j++)
{
M[i, j] = ;
} }
StreamReader sr = File.OpenText(@"E:\a.txt");
string nextLine;
while ((nextLine = sr.ReadLine()) != null)
{
char[] charTemp = { '\t' };
string[] arr = nextLine.Split(charTemp);
int[] d = Array.ConvertAll(arr, int.Parse);
int a1 = d[] - ;
int a2 = d[] - ;
m[a1, a2] = ;
}
sr.Close();
for (int i = ; i < ; i++)
{
for (int j = ; j < ; j++)
{
s[i] += m[i, j];
}
}
for (int i = ; i < ; i++)
{
for (int j = ; j < ; j++)
{
if (m[i, j] == )
M[j, i] = 1.0 / s[i];
}
}
return M;
}
public static double [] Getmtrix(double[,] M)
{ double num = 0.8;
double[,] result = Get();
var mb = Matrix<double>.Build;
var A= mb.DenseOfArray(result);
var matrixR = mb.Dense(, , 0.001);
var matrixL = mb.Dense(, , 0.0002);
for (int p = ; p < ; p++)
{
matrixR = matrixL + (A * matrixR) * num;
}
double[,]b= matrixR.ToArray();
double[] d = new double[b.Length];
for (int i = ; i < b.Length; i++)
{
for (int j = ; j < ; j++)
{
d[i] = b[i, j];
}
}
return d;
}
public static void show(double[] a)
{
double[] a1 = Getmtrix(Get());
double max = ;
int maxindex = -;
for (int j = ; j < ; j++)
{
max = a1.Max();
maxindex = Array.IndexOf(a1, max);
a1[maxindex] = ;
Console.WriteLine("最大:{0}" + "节点:{1}", j+, maxindex+); } }
public static void show2(double[] a)
{
double[] a1 = Getmtrix(Get());
for (int j = ; j < ; j++)
{
double min = 1.0;
int minindex = -;
min = a1.Min();
minindex = Array.IndexOf(a1, min);
a1[minindex] = ;
Console.WriteLine("最小:{0}" + "节点:{1}", j + , minindex + );
}
Console.ReadKey();
}
static void Main(string[] args)
{
show(Getmtrix(Get()));
show2(Getmtrix(Get())); }
pagerank算法
l 输出
ü PageRank分值最高的5个节点的id
ü PageRank分值最低的5个节点的id
l graph-full.txt
c#,pagerank算法实现一的更多相关文章
- 【原创】机器学习之PageRank算法应用与C#实现(2)球队排名应用与C#代码
在上一篇文章:机器学习之PageRank算法应用与C#实现(1)算法介绍 中,对PageRank算法的原理和过程进行了详细的介绍,并通过一个很简单的例子对过程进行了讲解.从上一篇文章可以很快的了解Pa ...
- 【原创】机器学习之PageRank算法应用与C#实现(1)算法介绍
考虑到知识的复杂性,连续性,将本算法及应用分为3篇文章,请关注,将在本月逐步发表. 1.机器学习之PageRank算法应用与C#实现(1)算法介绍 2.机器学习之PageRank算法应用与C#实现(2 ...
- 张洋:浅析PageRank算法
本文引自http://blog.jobbole.com/23286/ 很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念.前几天趁团队outing的机会,在动车上看 ...
- PageRank算法简介及Map-Reduce实现
PageRank对网页排名的算法,曾是Google发家致富的法宝.以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理. 一.什么是pagerank Pag ...
- PageRank算法
PageRank,网页排名,又称网页级别,传说中是PageRank算法拯救了谷歌,它是根据页面之间的超链接计算的技术,作为网页排名的要素之一.它通过网络浩瀚的超链接关系来确定一个页面的等级.Googl ...
- [转]PageRank算法
原文引自: 原文引自: http://blog.csdn.net/hguisu/article/details/7996185 感谢 1. PageRank算法概述 PageRank,即网页排名,又称 ...
- Hadoop应用开发实战(flume应用开发、搜索引擎算法、Pipes、集群、PageRank算法)
Hadoop是2013年最热门的技术之一,通过北风网robby老师<深入浅出Hadoop实战开发>.<Hadoop应用开发实战>两套课程的学习,普通Java开发人员可以在最快的 ...
- 关于pagerank算法的一点点总结
1. PageRank算法每个顶点收敛的值与每个点的初值是没有关系的,每个点随便赋初值. 2.像q=0.8这样的阻尼系数已经解决了PageRank中处在的孤立点问题.黑洞效应问题. 3.当有那个点进行 ...
- 浅析PageRank算法
很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念.前几天趁团队outing的机会,在动车上看了一些相关的资料(PS:在动车上看看书真是一种享受),趁热打铁,将所看 ...
- PageRank算法第一篇
摘要by crazyhacking: 一 搜索引擎的核心问题就是3个:1.建立资料库,通过爬虫系统实现:2.建立一种数据结构,可以根据关键词找到含有这个词的页面.通过索引系统(倒排索引)实现.3排序系 ...
随机推荐
- NodeJS——大汇总(一)(只需要使用这些东西,就能处理80%以上业务需求,全网最全node解决方案,吐血整理)
一.前言 本文目标 本文是博主总结了之前的自己在做的很多个项目的一些知识点,当然我在这里不会过多的讲解业务的流程,而是建立一个小demon,旨在帮助大家去更加高效 更加便捷的生成自己的node后台接口 ...
- vue中生命周期
1,说器生命周期,总觉得有熟悉,又陌生,直到看到一道面试题,问父子组件的生命周期的执行顺序,我擦,真没太注意啊,不知道. 2,网上搜了一下,说法是有点像洋葱圈的形式,由外到内,在到外,因为就像一个盒子 ...
- [JavaWeb基础] 026.JAVA中使用Axis搭建webservice-环境搭建(一)
在实际的项目开发过程中,我们经常会使用第三方交互,特别是在前后端语言不一致的情况下,相信webservice这个第三方控件大家都清楚.后面会慢慢带大家来学习它的使用方式,下面就先讲讲它的工具搭建. 一 ...
- Mybatis执行器源码手记
今天将Mybatis的执行器部分做一下简单手记. 一.java原生JDBC 众所周知,Mybatis是一个半自动化ORM框架.其实说白了,就是将java的rt.jar的JDBC操作进行了适度的封装.所 ...
- 记一次使用windbg排查内存泄漏的过程
一.背景 近期有一个项目在运行当中出现一些问题,程序顺利启动,但是观察一阵子后发现内存使用总量在很缓慢地升高, 虽然偶尔还会往下降一些,但是总体还是不断上升:内存运行6个小时候从33M上升到80M: ...
- 关于thisState的那些事
1.state的定义 状态(state) 和 属性(props) 类似,都是一个组件所需要的一些数据集合,但是它是私有的,并且由组件本身完全控制,可以认为它是组件的“私有属性(或者是局部属性)”. 2 ...
- Java实现 LeetCode 526 优美的排列(DFS)
526. 优美的排列 假设有从 1 到 N 的 N 个整数,如果从这 N 个数字中成功构造出一个数组,使得数组的第 i 位 (1 <= i <= N) 满足如下两个条件中的一个,我们就称这 ...
- 第二届蓝桥杯C++B组国(决)赛真题
以下代码仅供参考,解答部分来自网友,对于正确性不能保证,如有错误欢迎评论 四方定理. 数论中有著名的四方定理:所有自然数至多只要用四个数的平方和就可以表示. 我们可以通过计算机验证其在有限范围的正确性 ...
- LB服务:硬件如何被软件取代(上)
[摘要] 大业务上云,难免要用到LB.可是,您是否了解LB的来龙去脉?本文浅谈一下LB,从硬件走到软件,他们经历了什么转变. 大业务上云,难免要用到LB.可是,您是否了解LB的来龙去脉?本文浅谈一下L ...
- Android拍照相关知识总结
1.调用系统的照相机程序 Intent intent = newIntent(MediaStore.ACTION_IMAGE_CAPTURE); startActivityForResult(inte ...