scrapy中的canonicalize

转自：http://www.leyle.com/archives/canonicalize_url.html

思考一下：对url进行规范化处理是否是必须的？因为这一步处理涉及到编码转换，对于一个网页的新链发现来说是比较耗时的。

为什么需要格式化 url？

比如下面几个url：

实质上请求的内容是一样的，但是参数的顺序却是可以不一样的，所以，我们需要一个规则，让所有的 url 都按照这个规则来格式化，这样更方便我们判断 url 指向的内容是否相同，也可以对 url 进行去重处理。

在 scrapy 中，格式化 url 的函数是 scrapy.utils.url.canonicalize_url()，在 scrapy 中，按照 url 的构成方法，对 url 中的构成数据进行了重新排列，关于 url 的信息，可以参考 Uniform resource locator

所以整个函数的实现过程就是：

分割 url，提取出来 url 中各个部分；这里使用的是 urlparse.urlparse(url) 来实现；
对于 query 的内容，对他们进行分割(urlparse.parse_qsl(query, True))，同时保留空参数，然后进行排序后再重新拼接成查询字符串；urllib.urlencode(query_list);
路径处理，根据百分号编码相关规则进行编码与转义；
处理是否保留页面内的导航定位('#')，默认情况下是不保留；

经过上面的处理后，再通过 urlparse.urlunparse 反向拼接成新的 url。到此处是，整个 url 格式化过程就完成了。

scrapy中的canonicalize_url【转】的更多相关文章

Scrapy中使用Django的Model访问数据库
Scrapy中使用Django的Model进行数据库访问当已存在Django项目的时候,直接引入Django的Model来使用比较简单 # 使用以下语句添加Django项目的目录到path impo ...
scrapy中的下载器中间件
scrapy中的下载器中间件下载中间件下载器中间件是介于Scrapy的request/response处理的钩子框架. 是用于全局修改Scrapy request和response的一个轻量.底层 ...
Scrapy中使用cookie免于验证登录和模拟登录
Scrapy中使用cookie免于验证登录和模拟登录引言 python爬虫我认为最困难的问题一个是ip代理,另外一个就是模拟登录了,更操蛋的就是模拟登录了之后还有验证码,真的是不让人省心,不过既然有 ...
scrapy 中日志的使用
我在后台调试在后台调试scrapy spider的时候,总是觉得后台命令窗口打印的东西太多了不便于观察日志,因此需要一个日志文件记录信息,这样以后会方便查找问题. 分两种方法吧. 1.简单粗暴. ...
scrapy中response.body 与 response.text区别
scrapy中response.body 与 response.text区别 body http响应正文, byte类型 text 文本形式的http正文,str类型,它是response.body经 ...
scrapy中的request
scrapy中的request 初始化参数 class scrapy.http.Request( url [ , callback, method='GET', headers, body, cook ...
[转]scrapy中的logging
logging模块是Python提供的自己的程序日志记录模块. 在大型软件使用过程中,出现的错误有时候很难进行重现,因此需要通过分析日志来确认错误位置,这也是写程序时要使用日志的最重要的原因. scr ...
论Scrapy中的数据持久化
引入 Scrapy的数据持久化,主要包括存储到数据库.文件以及内置数据存储. 那我们今天就来讲讲如何把Scrapy中的数据存储到数据库和文件当中. 终端指令存储保证爬虫文件的parse方法中有可迭代 ...
selenium在scrapy中的使用、UA池、IP池的构建
selenium在scrapy中的使用流程重写爬虫文件的构造方法__init__,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次). 重写爬虫文件的closed ...

随机推荐

网页头部的声明应该是用 lang="";
我们经常需要用缩写的代码来表示一种语言,比如用en表示英语,用de表示德语.ISO 639就是规定语种代码的国际标准.最早的时候,ISO 639规定的代码是,用两个拉丁字母表示一种语言,这被称为ISO ...
使用object literal替换switch
提问: 1.为什么要使用switch方法 ==> (替换冗长的if和else判断) 2.什么场景下使用 ==> (在判断布尔值的) 3.switch有什么优点 ==> (简化了代码 ...
shell 中的（）【】{}（（））
本文转自:https://blog.csdn.net/taiyang1987912/article/details/39551385 shell中各种括号的作用().(()).[].[[]].{} 一 ...
Maven入门指南（一）
Maven介绍: Maven是一个强大的Java项目构建工具. 什么是构建工具? 构建工具是将软件项目构建相关的过程自动化的工具.构建一个软件项目通常包含以下一个或多个过程: 生成源码(如果项目使用自 ...
application/json和application/x-www-form-urlencoded区别
application/json和application/x-www-form-urlencoded都是表单数据发送时的编码类型. EncType: enctype 属性规定在发送到服务器之前应该如何 ...
C# Global.asax文件里实现通用防SQL注入漏洞程序(适应于post/get请求)
可使用Global.asax中的Application_BeginRequest(object sender, EventArgs e)事件来实现表单或者URL提交数据的获取,获取后传给SQLInje ...
新浪通过API分享实践
注:如果集成了百度的Frontia和SinaCoreSDK, 那么SSO会出现包冲突 https://github.com/sinaweibosdk/weibo_android_sdk/issues/ ...
Asp.net读取和写入txt文件方法（实例）！
Asp.NET读取和写入txt文件方法(实例)! [程序第一行的引入命名空间文件 - 参考] System; using System.Collections; using System.Config ...
Powerdesigner逆向工程从sql server数据库生成pdm【转】
Powerdesigner逆向工程从sql server数据库生成pdm 第一步:打开"控制面板"中的"管理工具" 第二步:点击"管理工具" ...
Docker容器之Nginx
一,pull一个Nginx镜像 docker pull nginx 二,Nginx镜像文件说明配置文件 /etc/nginx/nginx.conf 网站根目录 /usr/share/nginx/ht ...

scrapy中的canonicalize_url【转】

scrapy中的canonicalize_url【转】的更多相关文章

随机推荐

热门专题