HTTP权威协议笔记-9.Web机器人

　　经过整个春节的放肆，终于回归了，说实话，春节真心比上班累。

9.1 爬虫及爬行方式

　　(1) 爬虫：Web爬虫是一种机器人，他们会递归性的对各种信息Web站点进行遍历。

　　(2) 爬行方式：Web机器人会获取Web页面，然后获取这个页面指向的所有Web页面，再指向这个站点所指向的页面，依次类推。

　　(3) 从哪儿开始：根集

　　爬虫在开始访问的URL初始集合被称为根集。通常一个好的根集会包括一些大的流行Web站点、一个新创建的列表和一个不经常被链接的的无页面列表.

　　(4) 链接的提取：爬虫在在Web上移动时，会不断对HTML进行解析，它会对每个链接进行解析，并将这些链接添加到需要爬行的页面列表上去，最终爬虫会将这些相对URL转换为绝对URL。

　　(5) 避免环路：爬虫会根据链接在Web页面间不停跳转，在跳转期间要防止其访问A页面-》访问B页面-》访问C-页面-》访问A页面的循环状态（文件系统同样会存在该情况）。

　　　　后果：1.消耗网络带宽，导致无法获取其他页面。

　　　　　　 2.爬虫环路不断访问页面的过程中，另一端的服务器也在遭受打击，可能会造成击垮站点，阻止所有正常用户访问站点。

　　(6) 爬虫对对访问地址的管理技术

　　　　1.树和散列表：通过搜索树或散列表来记录已访问的URL，这样加速了访问速度。

　　　　2.有损的存在位图：将URL转换为一定长度的数组，这个数组中有个相关的“存在位”，在爬过URL时会将该“存在位”置位，爬虫在再次访问该URL时会发现已访问。

　　　　3.检查点：将已访问的URL列表保存到硬盘上，以防止机器人崩溃。

　　　　4.分类：为每个机器人分配一个特定的URL“片”，由其负责爬行。

　　(7) 别名与机器人回路：由于URL的默认端口是否隐藏即会造成回路存在。

　　(8) 避免循环和重复

　　　　1.规范URL

　　　　2.广度优先的爬行

　　　　3.节流（限制机器人从一个网站获取的页面数量）

　　　　4.限制URL大小（环路会使URL长度增加，限制URL长度可有效防止无限循环）

　　　　5.URL/站点黑名单

　　　　6.模式检测（通过重复组件的环路模式进行检测，可拒绝继续环路访问）

　　　　7.内容指纹（通过对URL站点内容相同的校验，得出是否访问过，并是否继续访问）

　　　　8.人工监视

9.2 机器人的HTTP

　　机器人同样遵循手HTTP规范的规则，

　　1.识别请求首部

　　建议机器人实现者发送基本首部信息：

User-Agent：机器人名称
From：机器人的用户/管理者的邮箱
Accept：告知服务器可以发送哪些媒体类型
Referer：提供包含当前请求URL的文档URL

　　2. 虚拟主机　　

　　在默认情况下，大多数服务器都会默认的配置一个特定的站点，因此，不包含host的爬虫访问提供两个站点的服务器发出请求时，会造成返回值失误。

　　3.条件请求

　　机器人只有在内容发生变化时才重新获取内容是有意义的，因此，有些机器人实现了条件HTTP请求，他们会对时间戳或者实体签进行比较，之后确认是否继续获取。

　　4.对响应的处理

　　　　1.状态码

　　　　2.实体

　　5.User-Agent导向

　　　很多站点会为不同的用户代理进行内容优化，并尝试对浏览器类型进行检测，以确保支持各种特性，当机器人进行访问时，站点会为机器人提供出错页面而不是请求页面。

　　　站点管理者应该设计一个处理机器人请求的策略。

9.3 行为不当的机器人

失效机器人（造成服务器过载，拒绝为其他人服务）
失效的URL（如果一个网页经过大量修改，而机器人依然访问之前记录的该网页内容，机器人会对大量不存在的URL发起请求）
很长的错误URL（URL过长会降低Web服务器性能）
爱打听的机器人（请求私有文档，敏感数据）
动态网关访问

9.4 拒绝机器人访问

　　服务器文档中提供一份Robots.txt，其中标明机器人可以访问服务器的哪些部分，机器人请求时从Web站点首先请求该文档，然后继续访问数据。

　　Robots.txt具有特有格式及参数，学习不认真，略了。

HTTP权威协议笔记-9.Web机器人的更多相关文章

HTTP权威协议笔记-5.Web服务器
5.1 Web服务器工作内容建立连接--接受一个客户端的连接,或者将其拒绝接受请求--从网络中读取一条HTTP报文处理请求--对请求报文进行解释,并采取行动访问资源--访问报文中指定的资源构 ...
HTTP权威协议笔记-7.集成点：网关、隧道及中继
.8.1 网关定义:网关类似与翻译器,它抽象出了一种能够到达资源的方法. 实用:网关可以自动将HTTP流量转换为其他协议,这样使用HTTP协议的一方就不需要了解其他协议,也可实现与其他程序或设备交互 ...
HTTP权威协议笔记-6.代理
6.1 Web的中间实体 Http的代理服务器即是客户端的服务器又是服务器的客户端. 它介于服务器与客户端之间,当客户端发送请求报文经过它时,它会像服务器一样正确的处理请求和返回响应,同时,代理服务器 ...
HTTP权威协议笔记-10.HTTP-NG
1.HTTP发展中存在的问题复杂性其连接.报文.及功能逻辑之间的混合使用相当复杂,使用容易出错可扩展性传统流行下来的http应用很难实现扩展性,且无法兼容性能高延时.低吞吐 ...
HTTP权威协议笔记-8.集成点：网关、隧道及中继
.8.1 网关定义:网关类似与翻译器,它抽象出了一种能够到达资源的方法. 实用:网关可以自动将HTTP流量转换为其他协议,这样使用HTTP协议的一方就不需要了解其他协议,也可实现与其他程序或设备交互 ...
HTTP权威协议笔记-7.缓存
7.1 冗余的数据传输缓存的作用:当客户端每次访问服务器,服务器都会返回一份相同文件,一些相同的字节会不断的在网络内传输,这样冗余的数据传输会耗尽昂贵的带宽,降低传输速度,加重Web服务器的负载. ...
HTTP权威协议笔记-4.连接管理
4.1 TCP连接 TCP为HTTP提供了一条可靠的比特传输管道,按顺序正确的传输,步骤如下: 浏览器解析主机名. 查询这个主机名的IP地址(DNS) 获得端口号. 浏览器对服务器该端口号发起连接. ...
HTTP权威协议笔记-3.Http报文
3.1 报文流 http使用流入和流出来描述事物处理方向,报文包含:起始行.首部和主体. 3.2 起始行起始行包含:请求行和回应行. 3.2.1请求行请求行包含:方法.请求URL(描述了对哪个资源 ...
【读书笔记】《HTTP权威指南》：Web Robots
一.概述 Web机器人(Web Robots)是一种Web客户端的软件程序,它自动发起一系列的Web事务,从而在没有人工参与的状态下完成各种Web数据的搜集和处理. 典型的Web机器人有: 股票绘图机 ...

随机推荐

windows phone 8 使用页面传对象的方式实现页面间的多值传递
在做windows phone 开发的时候,会经常碰到页面间之间的跳转和传递数据,如果传递的值不多,只有两三个,我们通常使用NavigationService.Navigate(new Uri(&qu ...
VUE路由history模式坑记--NGINX
因微信分享和自动登录需要,对于URL中存在'#'的地址,处理起来比较坑(需要手动写一些代码来处理).还有可能会有一些隐藏的问题没被发现. 如果VUE能像其他(JSP/PHP)系统的路径一样,就不存在这 ...
结果缓冲区 resbuf具体用法
struct resbuf *rb; rb=acutBulidlist(RTSTR,text(), rtpoint,,,,,) 创建圆用法. acdbEntGet 返回结果缓冲区然后 rb-> ...
ie9以下提示用户升级浏览器
<!--[if lt IE 9]> <div style='border: 4px solid #FFF500; background: #FDFDC8; text-align: c ...
Codeforces Round #468 Div. 2题解
A. Friends Meeting time limit per test 1 second memory limit per test 256 megabytes input standard i ...
JS练习：定时弹出广告
代码: <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title ...
JQ + PHP + TrackMore物流信息跟踪
在使用之前,您需要先去trackmore官方网站申请API_KEY,传送门:TrackMore html <script type="text/javascript" src ...
(蓝桥)2017C/C++A组第七题正则问题
#include<iostream> #include<memory.h> #include<stack> #include<string> using ...
《零压力学Python》之第四章知识点归纳
第四章(决策和循环)知识点归纳 if condition: indented_statements [ elif condition: Indented_statements] [else: Inde ...
hdu 5175 Misaki's Kiss again
Misaki's Kiss again Accepts: 75 Submissions: 593 Time Limit: 2000/1000 MS (Java/Others) Memory L ...

HTTP权威协议笔记-9.Web机器人

HTTP权威协议笔记-9.Web机器人的更多相关文章

随机推荐

热门专题