创建scrapy工程项目，除了爬虫文件中的代码需要略微修改，其他模块用法相同（如中间件，管道等）；

爬虫文件代码流程

导入链接提取器

from scrapy.linkextractors import LinkExtractor

导入规则解析器

from scrapy.spiders import CrawlSpider,Rule

1、使爬虫文件中的类不在继承scrapy.Spider，而是CrawlSpider

2、起始URL一样

3、定义链接提取规则，基于正则表达式

　　link = LinkExteactor(allow = 'r'所需的正则表达式")

　　link2 = LinkExteactor(allow = 'r'所需的正则表达式")

　　框架会自动请求起始URL，并将页面返回给链接提取器，链接提取器通过正则表达式提取匹配的URL；

4、定义规则解析器

　　rules = (

　　　　Rule(link(链接提取器名称),callback="回调函数名称"，follew=True)，

　　　　Rule(link2(链接提取器名称),callback="回调函数名称"，follew=False),　　

　　)

　　follew参数表示，是否在link获取到的链接内继续获取link中要匹配的链接

　　框架会自动让规则解析器去请求链接提取器提取到的链接，并返回页面交给回调函数，回调函数，用来编写解析数据的代码；

5、编写回调函数解析数据

　　def parse_one(self,response):

　　　　print(response)

　　def parse_two(self,response):

　　　　print(response)

基于Scrapt框架的全站数据爬取的更多相关文章

Scrapy 框架 CrawlSpider 全站数据爬取
CrawlSpider 全站数据爬取创建 crawlSpider 爬虫文件 scrapy genspider -t crawl chouti www.xxx.com import scrapy fr ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之CrawlSpider全站自动爬取
全站数据爬取的方式 1.通过递归的方式进行深度和广度爬取全站数据,可参考相关博文(全站图片爬取),手动借助scrapy.Request模块发起请求. 2.对于一定规则网站的全站数据爬取,可以使用Cra ...
移动端数据爬取和Scrapy框架
移动端数据爬取注:抓包工具:青花瓷 1.配置fiddler 2.移动端安装fiddler证书 3.配置手机的网络 - 给手机设置一个代理IP:port a. Fiddler设置打开Fiddler软 ...
基于python的统计公报关键数据爬取
# -*- coding: utf-8 -*- """ Created on Wed Nov 8 14:23:14 2017 @author: 123 "&qu ...
基于 PHP 的数据爬取（QueryList）
基于PHP的数据爬取官方网站站点简单. 灵活.强大的PHP采集工具,让采集更简单一点. 简介: QueryList使用jQuery选择器来做采集,让你告别复杂的正则表达式:QueryList具有j ...
requests模块session处理cookie 与基于线程池的数据爬取
引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/ ...
requests模块处理cookie,代理ip，基于线程池数据爬取
引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的. 一.基于requests模块 ...
基于CrawlSpider全栈数据爬取
CrawlSpider就是爬虫类Spider的一个子类使用流程创建一个基于CrawlSpider的一个爬虫文件 :scrapy genspider -t crawl spider_name www ...

随机推荐

partprobe 和 partx 的用法
partprobe: 用于重读分区表,当出现删除文件后,出现仍然占用空间.可以partprobe在不重启的情况下重读分区. 将磁盘分区表变化信息通知内核,请求操作系统重新加载分区表. -d 不更新内核 ...
Map构造器模式 map builder pattern
maven引入依赖 <dependency> <groupId>com.google.guava</groupId> <artifactId>guava ...
.Netcore 2.0 Ocelot Api网关教程（2）- 路由
.Netcore 2.0 Ocelot Api网关教程(1) 路由介绍上一篇文章搭建了一个简单的Api网关,可以实现简单的Api路由,本文介绍一下路由,即配置文件中ReRoutes,ReRoutes ...
ECS Samples概述
本文档介绍了Unity 面向数据的技术堆栈(DOTS)的三个主要方面:实体包,Unity C#作业系统和Unity Burst编译器所涵盖的Unity实体 - 组件系统(ECS).由于实体是DOTS中 ...
k8s nginx-ingress 504 timeout
nginx ingress 报错 504 timeout,是由于反向代理超时造成的,反向代理默认超时时间60s 官方文档配置片段: apiVersion: extensions/v1beta1 ki ...
ZOJ Problem Set - 1008
1.翻译及思路 http://blog.csdn.net/dapengbusi/article/details/7313785 http://acm.sdut.edu.cn/bbs/read.php? ...
精通Java中的volatile关键字
在一些开源的框架的源码当中时不时都可以看到volatile这个关键字,最近特意学习一下volatile关键字的使用方法. 很多资料中是这样介绍volatile关键字的: volatile是轻量级的sy ...
sql server凭据
转自:https://blog.csdn.net/kk185800961/article/details/52469170 凭据是包含连接到 SQL Server 外部资源所需的身份验证信息(凭据)的 ...
Linux：shift 命令可以将参数依次向左移动一个位置
在脚本中,命令行参数可以依据其在命令行中的位置来访问.第一个参数是 $1 ,第二个参数是 $2 ,以此类推. 下面的语句可以显示出前3个命令行参数: echo $1 $2 $3 更为常见的处理方式是 ...
redis5.0 数据结构与命令
1.redis 支持如下5种数据结构数据结构说明简介 String 字符串 key-val Hash 哈希 filed-val 映射表 List 列表双向链表 Set 集合 element(元 ...

基于Scrapt框架的全站数据爬取

爬虫文件代码流程

基于Scrapt框架的全站数据爬取的更多相关文章

随机推荐

热门专题