Searching the Web论文阅读

Searching the Web (Arvind Arasu etc.)

1. 概述

2000年，23%网页每天更新，.com域内网页40%每天更新。网页生存半衰期是10天。描述方法可用Poisson过程。

28%的网页构成强连通核心，22%处于核心的上游，22%处于核心的下游，其他的部分无法互联。

2. 抓取

优先抓高质量网页。综合三者：按需要（和query匹配度），按热度（链入度），按区域（比如.com优先）

做法：先抓K个网页，后续使用队列缓存待抓取url和质量分。

在stanford内网所有网页上试验，目标是快速获取高质量网页，质量策略PageRank>backlink>breadth>random。

循环抓取同时度量网页新鲜度（age），优先抓取较快更新的网页，过慢或过快更新优先级都不高。更新越快越频繁抓取。

3. 存储

分布式存储，增删改查功能，支持随机读（在线查询）和顺序读（离线索引）。

分布式存储：hash分桶

批量跟新（一月一批量写），部分更新（部分site）

主副本设计：利于读写分离

url规范化，生成id和签名（checksum/crc)

4. 索引

多个索引库：链接库（决定网页质量），文本库（决定查询匹配度），定制库（site包含关系）

倒排索引：标题和加粗的term权重更高

词典：所有term

增量构建

索引格式需谨慎设计

分布式索引：doc划分（单机失败易恢复，负载分摊均匀，较理想），term划分

doc划分方法下：分发器把网页分发给索引器，排序后生成临时索引，然后合并临时索引写硬盘并生成词典

实际经验：对正排表选择适中的buffer，使用并行流水线(loading, processing, flushing)

适时全局计算统计量（比如idf）并写入索引：本地聚合，能适合放入内存时发给统计器

总结：扩展性很重要

5. 排序和链接分析

现代搜索引擎的必要性：

大量的网页，大量低质量、低相关性网页

网页缺少正式编辑和属性描述

网页链接结构对评估网页质量很有利：PageRank和HITS算法

PageRank：随机冲浪模型，缓解非连通情况引入随机访问。收敛性在实际中不是瓶颈（约100次迭代足够@Google）

HITS：Hub节点和Authority节点

其他：聚合社区；通过结构（比如cocitation)发现相似网页；利用相邻网页类别做网页分类

未来：结合用户点击数据；语义分析（LSI：Latent Semantic Indexing）

6. 总结

多媒体信息带来的挑战

Searching the Web论文阅读的更多相关文章

论文阅读：《Bag of Tricks for Efficient Text Classification》
论文阅读:<Bag of Tricks for Efficient Text Classification> 2018-04-25 11:22:29 卓寿杰_SoulJoy 阅读数 954 ...
[论文阅读笔记] LouvainNE Hierarchical Louvain Method for High Quality and Scalable Network Embedding
[论文阅读笔记] LouvainNE: Hierarchical Louvain Method for High Quality and Scalable Network Embedding 本文结构 ...
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion 本文结构解决问题主要贡献算法原理实验结果参考文献 (1 ...
论文阅读（Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition）
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...
BITED数学建模七日谈之三：怎样进行论文阅读
前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...
论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
[刷题]算法竞赛入门经典(第2版) 5-10/UVa1597 - Searching the Web
题意:不难理解,照搬题意的解法. 代码:(Accepted,0.190s) //UVa1597 - Searching the Web //#define _XIENAOBAN_ #include&l ...
Deep Reinforcement Learning for Dialogue Generation 论文阅读
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...

随机推荐

前端基础之 CSS
浏览目录 CSS介绍 CSS语法 CSS的几种引入方式 CSS选择器 CSS属性相关一.CSS介绍 CSS(Cascading Style Sheet,层叠样式表)定义如何显示HTML元素. 当浏览 ...
vue 之模板字符串
传统的JavaScript语言,输出模板通常是这样的写的. $('#result').append( 'There are <b>' + basket.count + '</b> ...
机器学习初探（手写数字识别）matlab读取数据集
手写数字识别是机器学习里面的一个经典问题,今天就这一段时间学习的机器学习,花一个下午茶的时间,试试机器学习. 首先数据库是在MNIST(http://yann.lecun.com/exdb/mnist ...
SDUT 3377 数据结构实验之查找五：平方之哈希表
数据结构实验之查找五:平方之哈希表 Time Limit: 400MS Memory Limit: 65536KB Submit Statistic Problem Description 给定的一组 ...
日常学习随笔-自定义了一个MyArrayListDefin集合（数组扩容+迭代器+JDK1.8新方法+详细说明）
一.自定义了一个ArrayList的模拟集合(源码+详细说明) 前段时间分析了下ArrayList集合的源码,总觉得如果不自己定义一个的话,好像缺了点什么,所以有了如下的代码. 代码可以说是逐行注释了 ...
js/jq基础（日常整理记录）-2-一个简单的js方法实现集合的非引用拷贝
一.一个简单的js方法实现集合拷贝做web项目的时候,少不了和js中的数组,集合等对象接触,那么你肯定会发现,在js中存在一个怪异的现象就是数组和集合的拷贝都是地址复制,并不是简单的数据的拷贝. 举 ...
EF中的MySql返回 DataTable公共类库
public static class SqlHelper { /// <summary> /// EF SQL 语句返回 dataTable /// </summary> / ...
等和的分隔子集(DP)
晓萌希望将1到N的连续整数组成的集合划分成两个子集合,且保证每个集合的数字和是相等.例如,对于N=3,对应的集合{1,2,3}能被划分成{3} 和 {1,2}两个子集合. 这两个子集合中元素分别的和是 ...
async/await 处理异步
async/ await来发送异步请求,从服务端获取数据,代码很简洁,同时async/await 已经被标准化. 先说一下async的用法,它作为一个关键字放到函数前面,用于表示函数是一个异步函数,因 ...
Miners
Miners 有三种食品,两组矿工.矿工们根据最近三次过来的食品车产煤,产出煤的个数就是新过来的食品车,和前面两辆车中,不同的食品车的个数. 现在你有一个长度为n的食品车序列,请合理分配它们给两组矿工 ...

Searching the Web论文阅读

Searching the Web论文阅读的更多相关文章

随机推荐

热门专题