Website蝴蝶结构

  网页的其正向链接连结在一起表现为一种蝴蝶结结构。

  

  1、蝴蝶结中部(SCC, Strongly Connected Componnet)

    这种网页彼此相连。

  2、蝴蝶结左部(IN)

    导航页居多,通过这类网页,可以正向链接到SCC。

  3、蝴蝶结右部(OUT)

    权威性网页,因为大多数SCC都链接向了这些站点。

  4、蝴蝶结的须脚(Tendrils)

    无论采用何种方法都只能遍历有限的网页。

  所以,scrawler尽量选择IN部分的网页,另外可以看出,正向链接远大于反向链接的网页,就是权威网页。

Website直径

  从网页A链接到网页B所需要的最少点击次数(即链接次数)称为A到B的最短路径。网络上所有的(u,v)网页对所构造的最短路径的平均值即为Web直径。根据计算,这个直径大概为17左右。

  网页出度,是一个网页所有的正向链接的个数。平均网页出席,即为所有网页出度的平均值,这个值大概为25-26左右。

  上面可以看到网络结构并非一个深度结构,而是一个较宽的结构。所以在构造scrawler时,多采用BFS。另外,可以根据网络直径,来进行有效的DFS,防止一条道走到黑。

网络的特征

  就像人口是在变化中稳定一样,网页数量也是一样。每天有大量的网页产生,每天也有大量的网页消失。大约23%的网页是每天更新,其中40%的.com网页每天更新。网页的半衰期为10天。

Website蝴蝶结构的更多相关文章

  1. 2 - Django基础

    一.Django流程 Django是使用python编写的web框架,遵守MTV设计思想. 实现原理: 1,浏览器发起请求. 2,Django根据URL Conf指向view(Views) 3,vie ...

  2. go 学习笔记之详细说一说封装是怎么回事

    关注公众号[雪之梦技术驿站]查看上篇文章 猜猜看go是不是面向对象语言?能不能面向对象编程? 虽然在上篇文章中,我们通过尝试性学习探索了 Go 语言中关于面向对象的相关概念,更确切的说是关于封装的基本 ...

  3. 认识ASP.NET 5项目结构和项目文件xproj

    ASP.NET 5 在项目结构上做了很大的改变,我们以前熟悉的目录结构与项目文件内容都不太一样了,本篇文章带大家了解 ASP.NET 5 到底跟以前有哪些不一样的地方. 我们先用 Visual Stu ...

  4. B/S结构的流程简单概述

    在介绍appl ication 对象之前,先简单介绍一些Web 服务器的实现原理.         对于大部分浏览器而言,它通常负责完成三件事情: (1)向远程服务器发送请求. (2)读取远程服务器返 ...

  5. 谈谈.net模块依赖关系及程序结构

    技术为解决问题而生. 上面这个命题并非本文重点,我将来有空再谈这个.本文也并非什么了不起的技术创新,只是分享一下我对.net模块依赖关系及程序结构方面的一些看法.先看一个最最简单的hello worl ...

  6. ASP.NET MVC 入门2、项目的目录结构与核心的DLL

    我们新建一个ASP.NET MVC的Web Application后,默认的情况下,项目的目录结构如下: App_Data :这个目录跟我们一般的ASP.NET website是一样的,用于存放数据. ...

  7. [转]ASP.NET MVC 入门2、项目的目录结构与核心的DLL

    我们新建一个ASP.NET MVC的Web Application后,默认的情况下,项目的目录结构如下: App_Data :这个目录跟我们一般的ASP.NET website是一样的,用于存放数据. ...

  8. 浅谈PHP代码设计结构

    浅谈PHP代码设计结构 您的评价:       还行  收藏该经验       coding多年,各种代码日夜相伴,如何跟代码友好的相处,不光成为职业生涯的一种回应,也是编写者功力的直接显露. 如何看 ...

  9. WebApplication和WebSite的区别

    不同点 1. 创建方式不同 一个是FILE->NEW->PROJECT->ASP.NET WEB APPLICATION 另外一个是 FILE->NEW->WEBSITE ...

随机推荐

  1. L192 Virgin Galactic Completes Test of Spaceship to Carry Tourists

    Virgin Galactic says its spacecraft designed to launch tourists into space completed an important te ...

  2. Memcached工作原理及常见问题

    memcached是怎么工作的? Memcached的神奇来自两阶段哈希(two-stage hash).Memcached就像一个巨大的.存储了很多<key,value>对的哈希表.通过 ...

  3. 从U-Boot显示Logo到Android

    /******************************************************************************* * 从U-Boot显示Logo到And ...

  4. 2018c语言第3次作业

    6-1 输出月份英文名 1.设计思路 (1)主要描述题目算法 第一步:先定义一个指针数组. 第二步:根据for循环判断月份并返还月份字数. 2.实验代码 int getindex( char *s ) ...

  5. 几种Python执行时间的计算方法

    究竟是使用 time.clock() 精度高,还是使用 time.time() 精度更高,要视乎所在的平台来决定.总概来讲,在 Unix 系统中,建议使用 time.time(),在 Windows ...

  6. streamsets stream selector 使用

    stream selector 就是一个选择器,可以方便的对于不同record 的数据进行区分,并执行不同的处理 pipeline flow stream selector 配置 local fs 配 ...

  7. linux之 ssh连接服务器,WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!

    [root@zk01 ~]# ssh localhost@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ WARNING: RE ...

  8. 关于OkHttp–支持SPDY协议的高效HTTP库 com.squareup.okhttp

    转载:http://liuzhichao.com/p/1707.html OkHttp–支持SPDY协议的高效HTTP库 柳志超博客 » Program » Andriod » OkHttp–支持SP ...

  9. 对widget使用WM_SetCallback

    当我们对widget使用WM_SetCallback拦截并处理一些消息,可能需要在处理完某些消息后继续调用该Widget原来的callback,典型的例子是WM_DELETE,因为几乎所有widget ...

  10. centos7 安装 elasticsearch

    安装java环境 这里使用yum方式安装,前提是必须有网络 yum install java-1.8.0-openjdk 安装完成,查看java版本 [root@localhost ~]# java ...