scrapy 第一个案例（爬取腾讯招聘职位信息）

import scrapy

import json

class TzcSpider(scrapy.Spider):

    # spider的名字，唯一

    name = 'tzc'

    # 起始地址

    start_urls = ['https://hr.tencent.com/position.php?keywords=python&tid=0&lid=2268']

    # 每个url爬取之后会调用这个方法

    def parse(self, response):

        tr = response.xpath( '//table[@class="tablelist"]/tr[@class = "even"]|//table[@class="tablelist"]/tr[@class = "odd"]')

        with open('info.json','a') as f:

            for i in tr:

                data = {

                    "jobName": i.xpath('./td[1]/a/text()').extract_first(),

                    "jobType":i.xpath('./td[2]/text()').extract_first(),

                    "Num":i.xpath('./td[3]/text()').extract_first(),

                    "Place":i.xpath('./td[4]/text()').extract_first(),

                    "Time":i.xpath('./td[5]/text()').extract_first()

                }

                data = json.dumps(data,ensure_ascii=False)

                f.write(data)

                f.write('\n')

        # 寻找下一页标签

        url_next = response.xpath('//a[@id = "next"]/@href').extract_first()

        # 提取的是段标签，需要加上域名

        url_next = 'https://hr.tencent.com/{}'.format(url_next)

        # 返回下一页地址，scrapy会递归

        return scrapy.Request(url_next)

scrapy 第一个案例（爬取腾讯招聘职位信息）的更多相关文章

Python 爬取腾讯招聘职位详情 2019/12/4有效
我爬取的是Python相关职位,先po上代码,(PS:本人小白,这是跟着B站教学视频学习后,老师留的作业,因为腾讯招聘的网站变动比较大,老师的代码已经无法运行,所以po上),一些想法和过程在后面. f ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
python3 scrapy 爬取腾讯招聘
安装scrapy不再赘述, 在控制台中输入scrapy startproject tencent 创建爬虫项目名字为 tencent 接着cd tencent 用pycharm打开tencent项目 ...
scrapy项目1：爬取某培训机构老师信息（spider类）
1.scrapy爬虫的流程,可简单该括为以下4步: 1).新建项目---->scrapy startproject 项目名称(例如:myspider) >>scrapy.cfg为项目 ...
『Scrapy』爬取腾讯招聘网站
分析爬取对象初始网址, http://hr.tencent.com/position.php?@start=0&start=0#a (可选)由于含有多页数据,我们可以查看一下这些网址有什么相 ...
<scrapy爬虫>爬取腾讯社招信息
1.创建scrapy项目 dos窗口输入: scrapy startproject tencent cd tencent 2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义) # - ...
scrapy项目2：爬取智联招聘的金融类高端岗位（spider类）
---恢复内容开始--- 今天我们来爬取一下智联招聘上金融行业薪酬在50-100万的职位. 第一步:解析解析网页当我们依次点击下边的索引页面是,发现url的规律如下: 第1页:http://www. ...

随机推荐

PKUWC2019垫底记
凭着noip2018中超凡的运气,我来到了纪中. DAY0 听说PKUWC可以看榜?那就不用担心写挂啦!开心! 刚从雅礼回来休息了一天,下午就和hz一起坐上教练的车去到了中山纪中. 纪中好大好漂亮啊! ...
ADO.NET连接字符串大全---各种数据库的连接字符串
ADO.NET连接字符串大全 ADO.NET连接字符串名称 ADO.NET连接字符串说明 ADO.NET连接字符串:SQL Server,SQL Server 2005,ACCESS,Oracle ...
Confluence 6 访问日志脚本
日志访问脚本在连接:https://confluence.atlassian.com/download/attachments/133267635/Atlassian-accessLogScripts ...
Swift 新增fileprivate 详解
以前项目中只要用了private 那么在同一个文件同一个类中还是能访问的(比如一个类中写了一个extension) swift3.0现在不行了新增了一个fileprivate 的访问控制以前的p ...
自执行匿名函数： (function() { /* code */ })();
1,常见格式:(function() { /* code */ })(); 2,解释:包围函数(function(){})的第一对括号向脚本返回未命名的函数,随后一对空括号立即执行返回的未命名函数,括 ...
升级centos6.8内核
1.查看默认版本:uname -r 2.更新nss 3.安装elrepo的yum源,升级内核需要使用elrepo的yum源,在安装yum源之前还需要我们导入elrepo的key rpm --impor ...
蓝桥杯历届试题剪格子 dfs
历届试题剪格子时间限制:1.0s 内存限制:256.0MB 问题描述如下图所示,3 x 3 的格子中填写了一些整数. +--*--+--+ |10* 1|52| +--****--+ |20 ...
史上最简单的SpringCloud教程 | 第二篇: 服务消费者（rest+ribbon）
在上一篇文章,讲了服务的注册和发现.在微服务架构中,业务都会被拆分成一个独立的服务,服务与服务的通讯是基于http restful的.Spring cloud有两种服务调用方式,一种是ribbon+r ...
Java链表和递归
删除链表的指定元素: public class ListNode { public int val; public ListNode next; public ListNode(int x){ val ...
谷歌浏览器Software Reporter Tool长时间占用CPU解决办法
什么是Software Reporter Tool Software Reporter Tool是一个Chrome清理工具,用于清理谷歌浏览器中不必要或恶意的扩展,应用程序,劫持开始页面等等.当你安装 ...

scrapy 第一个案例（爬取腾讯招聘职位信息）

scrapy 第一个案例（爬取腾讯招聘职位信息）的更多相关文章

随机推荐

热门专题