Information Retrieval II

【Information Retrieval II】

　　搜索引擎分类：

　　　　1、目录式搜索引擎。

　　　　2、全文搜索引擎。

　　　　3、元搜索引擎(Meta-Search Engine)。

　　搜索引擎的4个阶段：下载(crawl) -> 分析（segment & pagerank）-> 索引（indexing）-> 查询（retrieval）。

　　crawler，也就是传说中的爬虫，或者蜘蛛。

　　下载、分析、索引被称为“离线部分”(offline part)，也叫做在线系统；查询部分被称为“在线部分“(online part)，也叫做离线系统。在线系统需要毫秒级的访问速度，而离线系统无时间要求，所以大部数的离线工作会设计成需要1-4周。

　　对于网页搜索（即传说中的大搜索），存储分为网页数据（镜像）和网页索引。

【网页抓取策略】

　　网页的重要性：　　

　　1、链接欢迎度：反向链接。

　　2、链接重要度：包括.com或home的URL重要度高，以及具有较少斜框‘/’的重要度高。

　　3、平均链接深度：离种子网页越近的重要度越高。

　　所以，重要性=a*反向链接标量 + b*链接重要度标量。

【Robots协议】

　　robots协议是一个robots.txt名字的文件，放置在站点的根目录上。里面记录了哪些是不让抓取的目录。

【抓取提速策略】

　　1、提高抓取单个网页的速度。(被证明基本不可行)

　　2、尽可能减少不必要的抓取任务。（难度大）

　　3、增加同时工作的爬虫数量。（可行）

　　　　对于小的网站，为了节省成本，通过多个域名会映射到一个IP；而对于大型网站，因为访问量大，使用了负载均衡，即一个域名对应多个IP。所以无论按域名还是按IP来分工crawler的任务，都会有重复。在实际应用中，通过是按照域名来划分crawler任务，国为小在网页即始重复数据也不多，可以接受。

【网页结构化数据】

anchor，全称是anchor text，中文名字叫锚文本。

【齐普夫法则】

　　齐普夫法则为：第k个最经常出现的词，其词频与1/k成正比。即第k常出现的词，他的出现率为一个常量的1/k。

Information Retrieval II的更多相关文章

Information retrieval信息检索
https://en.wikipedia.org/wiki/Information_retrieval 信息检索 (一种信息技术) 信息检索(Information Retrieval)是指信息按一定 ...
Deep Learning for Information Retrieval
最近关注了一些Deep Learning在Information Retrieval领域的应用,得益于Deep Model在对文本的表达上展现的优势(比如RNN和CNN),我相信在IR的领域引入Dee ...
Information Retrieval 倒排索引学习笔记
一,问题描述在Shakespeare文集(有很多文档Document)中,寻找哪个文档包含了单词“Brutus”和"Caesar",且不包含"Calpurnia&quo ...
Information Retrieval
[Information Retrieval] 1.信息检索/获取(Information Retrieval,简称IR) 是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用 ...
Music information retrieval
Music information retrieval - Wikipedia https://en.wikipedia.org/wiki/Music_information_retrieval Mu ...
Information retrieval (IR class1)
1. 什么是IR? IR与数据库的区别? 答:数据库是检索结构化的数据,例如关系数据库:而信息检索是检索非结构化/半结构化的数据,例如:一系列的文本.信息检索是属于NLP(自然语言处理)里面最实用的一 ...
IRGAN：A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models
https://arxiv.org/pdf/1705.10513.pdf 论文阅读笔记: https://www.cnblogs.com/liaohuiqiang/p/9694277.html htt ...
Information retrieval (IR class2)
1. 解析文档一般要分析哪些方面? - 首先分析文档的格式,是docx,html,xml,pdf... - 其次分析文档的语言,是英语,汉语,日语,德语... - 使用的什么字符集,ASCII编码, ...
information retrieval (CMU 11642)
1. Heap's law. predict the number of new vocabulary. 参考:https://www.youtube.com/watch?v=JDp12gU-vEQ ...

随机推荐

linux 命令-case
case 命令作用: case语句使用于需要进行多重分支的应用情况 case 命令使用场景在shell中的case结构与C/C++中的switch结构是相同的. 它允许通过判断来选择代码块中多条路径 ...
openfalcon源码分析之agent
本节内容 agent功能 1.1 agent上报数据 1.2 agent与HBS同步 1.3 agent Http服务 agent源码分析 2.1 初始化config配置 2.2 初始化根目录,本地I ...
20181009-8 选题 Scrum立会报告+燃尽图 07
Scrum立会报告+燃尽图(07)选题此作业要求参见:https://edu.cnblogs.com/campus/nenu/2018fall/homework/2197 一.小组介绍组长:刘莹莹 ...
爱奇艺、腾讯、优酷、搜狐、芒果、乐视、PPTV、音悦台等VIP视频免费观看
观看地址一:http://www.luoruiyuan.cn/pages/id-62_uid-2_btid-35.html 观看地址二:http://movie.luoruiyuan.cn/vip.h ...
js 的各种排序算法 -- 待续
链接 function quickSort(arr,l,r){ if(l < r){ var i = l, j = r, x = arr[i]; while(i<j){ while(i&l ...
spring boot 教程（二）模板依赖
在Spring boot中有一个很重要的概念,叫做约定优于配置--软件开发的简约原则.所以Spring boot会按照约定好的文件位置去找我们的包和类. 默认配置 Spring Boot默认提供静态资 ...
Nginx 静态资源缓存配置
示例 # Media: images, icons, video, audio, HTC location ~* \.(?:jpg|jpeg|gif|png|ico|cur|gz|svg|svgz|m ...
IOS layoutSubviews总结
ios layout机制相关方法 - (CGSize)sizeThatFits:(CGSize)size - (void)sizeToFit - (void)layoutSubviews - (voi ...
Log4j（一）：Log4j将日志信息写入数据库
前言为了监听一些数据的采集等功能,需要随时监听设备的状态,所以需要运行的时候将日志打入到数据库中. 正文第一步: 首先是jar包,由于我使用的是springboot,所以,在springboot- ...
LTE-Advanced（4G）主要技术学习：CA、CoMp、HetNet
CA:Carrier Aggregation,载波聚合从LTE到LTE-Advanced演进过程中,更宽频谱的需求是影响演进的最重要因素,为此3GPP标准提出了载波聚合技术.简单地说,它可以将多个载 ...

Information Retrieval II

Information Retrieval II的更多相关文章

随机推荐

热门专题