scrapy之使用LinkExtractor提取链接

一、概述：

　　在页面含有少量链接时，使用selector来提取信息就可以，但如果链接特别多时，就需要用LinkExtractor来提取。

二、LinkExtractor构造器的各个参数：

　　1、allow 接收一个正则表达式或一个正则表达式列表，提取绝对url与正则表达式匹配的链接，如果改参数为空，就提取全部的链接。

　　2、deny　　与allow刚好相反，排除绝对URL与正则表达式相匹配的链接。

　　3、allow_domains　　接收一个域名或一个域名列表，提取到指定域的链接

　　4、deny_domains 与3相反。

　　5、restrict_xpaths　　接受一个xpath表达式或者一个xpath表达式列表，提取xpath表达式选中的区域下的链接。

　　6、restrict_css　　　　接收一个css选择器或者是一个css选择器列表，提取css选择器选中区域下的链接。

　　7、tags　　接收一个标签或者标签列表，提取指定标签内的链接。

　　8、attrs　　接收一个属性或一个属性类表，提取指定属性内的连接。

三、如何导出数据：

　　scrapy crawl spidername -t datatype -o filepath

scrapy之使用LinkExtractor提取链接的更多相关文章

scrapy中使用LinkExtractor提取链接
le = LinkExtractor(restrict_css='ul.pager li.next') links = le.extract_links(response) 使用LinkExtra ...
Scrapy 使用 LinkExtractor 提取链接和使用 Exporter 导出数据
在爬取一个网站时,想要爬取的数据通常分布到多个页面中,每个页面包含一部分数据以及其他页面的链接,提取链接有使用 Selector 和使用 Linkextractor 两种方法. 1.使用Selecto ...
scrapy的使用-LinkExtractor
背景: 在爬取网站信息是需要获取特定标签下的某些内容,就需要获取这些标签下的链接,如果获取每一个,在通过这个获取它下面的信息,这样效率会很低,时间复杂度O(n^2),但如果先获取链接,再获取内容,则时 ...
使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
【python】使用HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
一.从HTML文档中提取链接模块HTMLParser,该模块使我们能够根据HTML文档中的标签来简洁.高效地解析HTML文档. 处理HTML文档的时候,我们常常需要从其中提取出所有的链接.使用HTM ...
asp之GetArray提取链接地址，以$Array$分隔的代码
'================================================== '函数名:GetArray '作用:提取链接地址,以$Array$分隔 '参数:ConStr ...
Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
scrapy 中用selector来提取数据的用法
一. 基本概念 1. Selector是一个可独立使用的模块,我们可以用Selector类来构建一个选择器对象,然后调用它的相关方法如xpaht(), css()等来提取数据,如下 from sc ...
【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）
package 网络编程; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileOutpu ...

随机推荐

仿9GAG制作过程（四）
有话要说: 这次主要讲述主页面下拉刷新和上拉加载功能的实现. 主要是使用了SwipeRefreshLayout的布局方式,并在此基础上通过RecyclerView的特性增加了上拉加载的功能. 成果: ...
window64位电脑如何通过VMware Workstation12.5.6安装苹果操作系统 macOS High Sierra 10.13
1.下载 VMware-workstation-full-12.5.6.exe,macOS High Sierra 10.13.iso 2.安装 VMware-workstation时不要选择C盘,因 ...
DAS、SAN和NAS三种存储方式
DAS存储 DAS存储在我们生活中是非常常见的,尤其是在中小企业应用中,DAS是最主要的应用模式,存储系统被直连到应用的服务器中,在中小企业中,许多的数据应用是必须安装在直连的DAS存储器上. DAS ...
Spring MVC 数据绑定（四）
完整的项目案例: springmvc.zip 目录实例项目结构路径: 一.配置web.xml <?xml version="1.0" encoding="UTF ...
【原】Java学习笔记025 - 内部类
package cn.temptation; public class Sample01 { public static void main(String[] args) { // 内部类(嵌套类): ...
【English】20190415
approximately大约 [əˈprɑ:ksɪmətli] This install will take + minutes and requires the download of appro ...
Luogu P5296 [北京省选集训2019]生成树计数
Luogu P5296 [北京省选集训2019]生成树计数题目链接题目大意:给定每条边的边权.一颗生成树的权值为边权和的$k$次方.求出所有生成树的权值和. 我们列出答案的式子: 设$E$ ...
android 获取通话记录
在manifest添加以下权限<uses-permission android:name="android.permission.READ_CALL_LOG" />&l ...
(十)Modifying Your Data
Elasticsearch provides data manipulation and search capabilities in near real time. By default, you ...
Java HttpURLConnection发送post请求示例
public static Map<String, Object> invokeCapp(String urlStr, Map<String, Object> params) ...

scrapy之使用LinkExtractor提取链接

scrapy之使用LinkExtractor提取链接的更多相关文章

随机推荐

热门专题