[Python] Scrapy爬虫框架入门

说明：

　　本文主要学习Scrapy框架入门，介绍如何使用Scrapy框架爬取页面信息。

　　项目案例：爬取腾讯招聘页面 https://hr.tencent.com/position.php?&start=

　　开发环境：win10、Python3.5、Scrapy1.5

一、安装

　　》pip install scrapy

　　//如果安装不成功，可以参考 https://blog.csdn.net/dapenghehe/article/details/51548079

　　//或下载安装twisted

二、创建项目（scrapy startproject）

　　1、在开始爬取之前，必须创建一个新的Scrapy项目。进入相应目录，运行下列命令（tencent为项目名称）：

　　　　》scrapy startproject tencentSpider

　　2、进入项目目录（tencentSpider）

　　　　项目目录结构如下：

　　　　scrapy.cfg：项目的配置文件。

　　　　tencentSpider/：项目的Python模块，将会从这里引用代码。

　　　　tencentSpider/spiders/：存储爬虫代码目录（爬虫文件主要在此编辑）。

　　　　tencentSpider/items.py：项目的目标文件。

　　　　tencentSpider/middlewares.py：项目中间件。

　　　　tencentSpider/pipelines.py：项目管道文件。

　　　　tencentSpider/setting：项目的设置文件。

　　到此，项目基本创建完成，接下来就是编写爬虫代码了。

三、明确目标（tencentSpider/items.py）

　　明确需要爬取的网址以及需要的信息，在 items.py 中定义需要爬取的信息字段。

　　本项目主要爬取：https://hr.tencent.com/position.php?&start= 网站里的职称、详情地址、类别、人数、地点和发布时间。

　　1、打开 tencentSpider 目录下的 items.py。

　　2、Item 定义结构化数据字段，用来保存爬取到的数据，类似于Python的字典，但是提供一些额外的的保护减少错误。

　　3、可以通过创建一个 scrapy.Item 类，并且定义类型为 scrapy.Field 的类属性来定义一个Item（可以理解成类似于ORM的映射关系）。

　　4、接下来，创建一个 TencentspiderItem 类，和构建item模型（model）。

　　items.py代码如下：

 # -*- coding: utf-8 -*-

 # Define here the models for your scraped items

 #

 # See documentation in:

 # https://doc.scrapy.org/en/latest/topics/items.html

 import scrapy

 class TencentspiderItem(scrapy.Item):

     # define the fields for your item here like:

     # name = scrapy.Field()

     # 职称

     title = scrapy.Field()

     # 详情地址

     link = scrapy.Field()

     # 类别

     cate = scrapy.Field()

     # 人数

     num = scrapy.Field()

     # 地点

     address = scrapy.Field()

     # 发布时间

     date = scrapy.Field()

四、制作爬虫（spiders/tencentSpider.py）

　　1、爬取数据

　　　　① 在与 scrapy.cfg 同级目录下执行如下命令，将会在 tencentSpider/spiders 目录下创建一个名为 tencent 的爬虫，并制定爬取的域范围（或手动创建文件，基本代码格式如下所示）：

　　　　　　》scrapy genspider tencent "hr.tencent.com"

　　　　② 打开 tencentSpider/spiders 目录下的 tencent.py ，默认的代码如下：

 # -*- coding: utf-8 -*-

 import scrapy

 class TencentSpider(scrapy.Spider):

     name = 'tencent'

     allowed_domains = ['hr.tencent.com']

     start_urls = ['http://hr.tencent.com/']

     def parse(self, response):

         pass

　　　　③ 编写爬虫文件，基本思路：构造分页url，解析内容（xpath），管道文件处理：

 # -*- coding: utf-8 -*-

 import scrapy

 from tencentSpider.items import TencentspiderItem

 class TencentSpider(scrapy.Spider):

     # 爬虫的名字

     name = 'tencent'

     allowed_domains = ["hr.tencent.com"]

     # 拼接 URL

     url = "https://hr.tencent.com/position.php?&start="

     offset = 0

     # 首次爬取入口URL

     start_urls = [url + str(offset)]

     def parse(self, response):

         info_ls = response.xpath('//tr[contains(@class, "odd")] | //tr[contains(@class, "even")]')

         # 原始地址

         origin_url = "https://hr.tencent.com/"

         for each in info_ls:

             # 初始化模型对象

             item = TencentspiderItem()

             # 职称

             title = each.xpath("./td/a/text()")[0].extract()

             # 详情地址

             link = origin_url + each.xpath("./td/a/@href")[0].extract()

             # 职位分类

             cate = each.xpath('./td[2]/text()')[0].extract()

             # 人数

             num = each.xpath('./td[3]/text()')[0].extract()

             # 所在地址

             address = each.xpath('./td[4]/text()')[0].extract()

             # 发布时间

             date = each.xpath('./td[5]/text()')[0].extract()

             item['title'] = title

             item['link'] = link

             item['cate'] = cate

             item['num'] = num

             item['address'] = address

             item['date'] = date

             # 交给管道 pipelines 处理

             yield item

         # 循环遍历分页,这里只爬取 100 条

         if self.offset < 100:

             self.offset += 10

             # 每次处理完一页的数据之后， 重新发送下一页的页面请求

             yield scrapy.Request(self.url + str(self.offset), callback=self.parse)

         else:

             print("[ALL_END:爬虫结束]")

　　　　④ 修改配置文件（settings.py），部分:

　　　　　　需要修改的主要有如下三处：　

 # 是否遵守 robot 协议，本项目为False

 ROBOTSTXT_OBEY = False

 # 请求头

 DEFAULT_REQUEST_HEADERS = {

     'User-Agent': 'Mozilla/5.0 (compatible; MSIE 9.0; Window NT 6.1; Trident/5.0;)',

     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

     # 'Accept-Language': 'en',

 }

 # 配置管道文件

 ITEM_PIPELINES = {

    'tencentSpider.pipelines.TencentspiderPipeline': 300,

 }

　　　　⑤ 编写管道文件 pipelines.py：

　　　　　　这里的管道文件主要把数据以json格式保存在文件中：

 # -*- coding: utf-8 -*-

 # Define your item pipelines here

 #

 # Don't forget to add your pipeline to the ITEM_PIPELINES setting

 # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

 import json

 class TencentspiderPipeline(object):

     def __init__(self):

         self.save_path = open("res_info.json", "w", encoding="utf8")

         self.save_path.write("[")

     def process_item(self, item, spider):

         # 处理每页的数据，并写入文件

         json_text = json.dumps(dict(item), ensure_ascii=False) + ", \n"

         self.save_path.write(json_text)

         return item

     def close_spider(self, spider):

         self.save_path.write("{}]")

         self.save_path.close()

　　　　⑥ 运行爬虫：

　　　　　　》scrapy crawl tencent

　　　　⑦ 查看结果，打开数据文件 res_info.json：

[Python] Scrapy爬虫框架入门的更多相关文章

【python】Scrapy爬虫框架入门
说明: 本文主要学习Scrapy框架入门,介绍如何使用Scrapy框架爬取页面信息. 项目案例:爬取腾讯招聘页面 https://hr.tencent.com/position.php?&st ...
Python之Scrapy爬虫框架入门实例（一）
一.开发环境 1.安装 scrapy 2.安装 python2.7 3.安装编辑器 PyCharm 二.创建scrapy项目pachong 1.在命令行输入命令:scrapy startproject ...
Scrapy 爬虫框架入门案例详解
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者:崔庆才 Scrapy入门本篇会通过介绍一个简单的项目,走一遍Scrapy抓取流程,通过这个过程,可以对 ...
Python Scrapy 爬虫框架实例（一）
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Python Scrapy 爬虫框架实例
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
scrapy爬虫框架入门实例（一）
流程分析抓取内容(百度贴吧:网络爬虫吧) 页面: http://tieba.baidu.com/f?kw=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&ie=ut ...
scrapy爬虫框架入门教程
scrapy安装请参考:安装指南. 我们将使用开放目录项目(dmoz)作为抓取的例子. 这篇入门教程将引导你完成如下任务: 创建一个新的Scrapy项目定义提取的Item 写一个Spider用来爬行 ...
python scrapy爬虫框架概念介绍(个人理解总结为一张图)
python的scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架 python和scrapy的安装就不介绍了,资料很多这里我个人总结一下,能更加快理解scrapy和快速上手一个简 ...
python - scrapy 爬虫框架（创建, 持久化, 去重, 深度, cookie）
## scrapy 依赖 twisted - twisted 是一个基于事件循环的异步非阻塞框架/模块 ## 项目的创建 1. 创建 project scrapy startproject ...

随机推荐

python基础之元祖、嵌套，for循环、 enumerate、range的试用案例
元祖又叫做只读列表,可循环查询.可切片,元祖里的直接元素不能更改,但是若里面有嵌套的列表,则可以修改列表里的元素 tu = (1,2,3,'sun',[3,4,5,'cat']) tu[4][3] = ...
Linux基础之bash shell介绍及基本特性
今天继续讲Linux基础知识,内容是关于bash shell的.分享以下bash shell的相关知识,例如基本特性等. 1.8)bash shell的介绍 1.8.1)什么是bash shell ...
web设计_8_数据表格内容样式分离
1.页面需要用到table的时候,样式重置CSS要设置: table{ border-collapse: collapse; border-spacing:; } 2. HTML结构 <tabl ...
HelloDjango 系列教程：第 04 篇：Django 迁移、操作数据库
文中涉及的示例代码,已同步更新到 HelloGitHub-Team 仓库我们已经编写了博客数据库模型的代码,但那还只是 Python 代码而已,django 还没有把它翻译成数据库语言,因此实际上这 ...
Another option to bootup evidence files
When it comes to booting up evidence files acquired from target disk, you got two options. One is VF ...
spring boot 学习笔记之前言----环境搭建（如何用Eclipse配置Maven和Spring Boot）
本篇文档来源:https://blog.csdn.net/a565649077/article/details/81042742 1.1 Eclipse准备 (1) 服务器上安装JDK和Mav ...
Java基础之二十并发
20.1 并发得多面性并发编程令人困惑的一个主要原因:使用并发时需要解决的问题有多个,而实现并发的方法也有多种,并且在这两者之间没有明显的映射关系. 20.1.1 更快的执行速度问题初听起来很简单 ...
C#：正则表达式类
Regex r = new Regex("abc"); // 定义一个Regex对象实例(Regex r = new Regex("abc", RegexOp ...
Drawable 使用详解
极力推荐文章:欢迎收藏 Android 干货分享阅读五分钟,每日十点,和您一起终身学习,这里是程序员Android Drawable 是Android 中图像显示的常用方法. 概念:Drawable ...
python使用pip安装第三方库以及镜像使用豆瓣源安装第三方库
2018/8/7 在使用pip安装pynum第三方库时的随笔所有的前提都是你成功安装了pip 首先第一步打开命令提示符输入pip show pip 查看当前pip版本然后可以上官网搜索一下 ...

[Python] Scrapy爬虫框架入门

[Python] Scrapy爬虫框架入门的更多相关文章

随机推荐

热门专题