利用Crawlspider爬取腾讯招聘数据(全站，深度)

需求：

使用crawlSpider（全站）进行数据爬取

- 首页: 岗位名称，岗位类别

- 详情页：岗位职责

- 持久化存储

代码：

爬虫文件：

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from ..items import CrawlproItem,TenproItem_detail

class CrawSpider(CrawlSpider):

    name = 'craw'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://hr.tencent.com/position.php?&start=0#a']

    # 首页所有页码的连接提取器

    link1 = LinkExtractor(allow=r'&start=\d+#a')

    # 详情页连接提取器

    link2 = LinkExtractor(allow=r'position_detail.php\?id=\d+&keywords=&tid=0&lid=0$')  # 问号转义

    rules = (

        Rule(link1, callback='parse_item', follow=True),

        Rule(link2, callback='parse_detail', follow=True),

    )

    def parse_item(self, response):

        # 岗位名称和类别

        print('item',response)

        tr_list = response.xpath('//table[@class="tablelist"]/tr[@class="odd"] | //table[@class="tablelist"]/tr[@class="even"]')

        for tr in tr_list:

            job_name = tr.xpath('./td[1]/a/text()').extract_first()

            job_class = tr.xpath('./td[2]/text()').extract_first()

            # 实例化item类

            item = CrawlproItem()

            item['job_name'] = job_name

            item['job_class'] = job_class

            yield item

    def parse_detail(self, response):

        # 岗位职责

        desc = response.xpath('//ul[@class="squareli"]/li/text()').extract()

        desc = ''.join(desc)

        item = TenproItem_detail()

        item['desc'] = desc

        yield item

items.py文件:

import scrapy

class CrawlproItem(scrapy.Item):

    job_name = scrapy.Field()

    job_class = scrapy.Field()

class TenproItem_detail(scrapy.Item):

    desc = scrapy.Field()

管道文件pipelines.py:

class CrawlproPipeline(object):

    fp = None

    def open_spider(self, spider):

        # 文件只打开一次

        self.fp = open('./tenxun.txt', 'w',encoding='utf-8')

    def process_item(self, item, spider):

        desc = None

        # 取出item中的值

        if item.__class__.__name__ == 'CrawlproItem':

            job_name = item["job_name"]

            job_class = item["job_class"]

            self.fp.write(f'{job_name}\n{job_class}\n\n')

        else:

            desc = item['desc']

            self.fp.write(desc)

        return item  # 返回给下一个即将被执行的管道类

    def close_spider(self, spider):

        self.fp.close()

配置文件中注意开启管道

利用Crawlspider爬取腾讯招聘数据(全站，深度)的更多相关文章

简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
利用scrapy爬取腾讯的招聘信息
利用scrapy框架抓取腾讯的招聘信息,爬取地址为:https://hr.tencent.com/position.php 抓取字段包括:招聘岗位,人数,工作地点,发布时间,及具体的工作要求和工作任务 ...
Python 爬取腾讯招聘职位详情 2019/12/4有效
我爬取的是Python相关职位,先po上代码,(PS:本人小白,这是跟着B站教学视频学习后,老师留的作业,因为腾讯招聘的网站变动比较大,老师的代码已经无法运行,所以po上),一些想法和过程在后面. f ...
『Scrapy』爬取腾讯招聘网站
分析爬取对象初始网址, http://hr.tencent.com/position.php?@start=0&start=0#a (可选)由于含有多页数据,我们可以查看一下这些网址有什么相 ...
python3 scrapy 爬取腾讯招聘
安装scrapy不再赘述, 在控制台中输入scrapy startproject tencent 创建爬虫项目名字为 tencent 接着cd tencent 用pycharm打开tencent项目 ...
Python爬虫入门——使用requests爬取python岗位招聘数据
爬虫目的使用requests库和BeautifulSoup4库来爬取拉勾网Python相关岗位数据爬虫工具使用Requests库发送http请求,然后用BeautifulSoup库解析HTML文 ...
利用Jsoup爬取新冠疫情数据并存至数据库
需要用到的jar包(用来爬取的jsoup,htmlunit-2.37.0-bin以及连接数据库中的mysql.jar) 链接:https://pan.baidu.com/s/1VlylWmlhjd8K ...
scrapy 第一个案例（爬取腾讯招聘职位信息）
import scrapy import json class TzcSpider(scrapy.Spider): # spider的名字,唯一 name = 'tzc' # 起始地址 start_u ...

随机推荐

ORA-00604: 递归 SQL 级别 1 出现错误 ORA-01000: 超出打开游标的最大数
有程序没关闭游标, --打开了哪些游标 select * from v$open_cursor 在open cursor之后一定要注意要close cursor(在store procedure里更应 ...
winfrom保存图片，将文件夹中图片放入listview，与撤回操作
之前那些操作完成对图片的修改之后,就是要保存图片了. 这里保存用到一个SaveFileDialog控件,可以获取用户选择的保存文件的路径. ) { SaveFileDialog saveImageDi ...
Hibernate入门级实例
一.开发环境 Win8 + jdk1.7 + MyEclipse + Tomcat5.0 + MySQL 说明:其实Hibernate是非常独立的框架,根本不需要MyEclipse,Eclipse,T ...
无网络安装mysql步骤
1. 先安装Microsoft Visual C++ 2010 运行环境,运行vcredist_x86.exe文件: 2. 安装MySql数据库,运行mysql-installer-community ...
白盒测试实践-任务进度-Day05
所使用静态代码检查工具阿里巴巴Java开发代码检测IDE插件小组成员华同学.郭同学.覃同学.刘同学.穆同学.沈同学任务进度任务已经进入收官阶段,为了对大家各自任务完成情况进行确认,保证任务能 ...
servlet中如何发送ajax请求并动态拼接数据到html中
废话不多说,直接上代码 1.servlet 2.js 3.jsp 有不懂得欢迎来扣我哦^_^ 详细介绍请查看全文:https://cnblogs.com/qianzf/ 原文博客的链接地址:https ...
sql insert、update、delete完以后返回主键ID
以前只用过在insert完以后利用select @@IDENTITY返回主键ID,最近在做微信公众平台,遇到一个需求是在帮绑定万微信openid后自动完成登陆,这就需要update以后返回主键ID,查 ...
springboot+swagger集成
一.swagger介绍 Swagger 是一款RESTFUL接口的文档在线自动生成+功能测试功能软件.本文简单介绍了在项目中集成swagger的方法和一些常见问题.如果想深入分析项目源码,了解更多内容 ...
linux命令的笔记
1.改变目录的用户组和所有者 chown 命令如下图: 可以看到test1与test2的的所有者和所属组都是root,其中第三个字段是说明目录拥有者, 第四个字段是文件拥有者所在的组, 第五个字段 ...
版本控制-https svn服务器搭建和常用命令（centos 6.3）
Svn是比较优秀的版本控制工具,虽然功能和性能上无法和Git媲美,但由于其容易搭建和使用的特性,所以在各个小公司还是很受欢迎的.使用Git可参考<版本控制-Git服务器搭建和常用命令使用> ...

利用Crawlspider爬取腾讯招聘数据(全站，深度)

需求：

代码：

利用Crawlspider爬取腾讯招聘数据(全站，深度)的更多相关文章

随机推荐

热门专题