python爬取智联招聘职位信息（多进程）

测试了下，采用单进程爬取5000条数据大概需要22分钟，速度太慢了点。我们把脚本改进下，采用多进程。

首先获取所有要爬取的URL，在这里不建议使用集合，字典或列表的数据类型来保存这些URL，因为数据量太大，太消耗内存，这里，python的生成器就发挥作用了。

def get_urls(total_page,cityname,jobname):

    '''

    获取需要爬取的URL以及部分职位信息

    :param start: 开始的工作条数

    :param cityname: 城市名

    :param jobname: 工作名

    :return: 字典

    '''

    for start in range(total_page):

        url = r'https://fe-api.zhaopin.com/c/i/sou?start={}&pageSize=60&cityId={}&workExperience=-1&education=-1' \

              r'&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw={}&kt=3'.format(start*60,cityname,jobname)

        try:

            rec = requests.get(url)

            if rec.status_code == 200:

                j = json.loads(rec.text)

                results = j.get('data').get('results')

                for job in results:

                    empltype = job.get('emplType')  # 职位类型，全职or校园

                    if empltype=='全职':

                        positionURL = job.get('positionURL') # 职位链接

                        createDate = job.get('createDate') # 招聘信息创建时间

                        updateDate = job.get('updateDate') # 招聘信息更新时间

                        endDate = job.get('endDate') # 招聘信息截止时间

                        positionLabel = job.get('positionLabel')

                        if positionLabel:

                            jobLight_par = (re.search('"jobLight":\[(.*?|[\u4E00-\u9FA5]+)\]',job.get('positionLabel'))) # 职位亮点

                            jobLight = jobLight_par.group(1) if jobLight_par else None

                        else:

                            jobLight = None

                        yield {

                            'positionURL':positionURL,

                            'createDate':createDate,

                            'updateDate':updateDate,

                            'endDate':endDate,

                            'jobLight':jobLight

                        }

        except Exception as e:

            logger.error('get urls faild:%s', e)

            return None

在使用多进程之前，有两个问题需要解决：

1、在爬取过程中，即需要把爬取完成的URL实时保存到old_url这个变量中，又要去查询要爬取的URL是否在这个old_url，那么就要使这个old_url的变量在多个进程之间共享数据。这里使用multiprocessing的Manager()方法

2、每个进程都要把爬取下来的数据保存到同一个CSV文件中，多个进程同时去修改一个CSV，当然会报异常。这里我们引入回调函数来解决整个问题

def mycallback(data):

    if data:

        csv_filename = data.pop('csv_filename')

        with open(csv_filename,'a+',newline='',encoding='utf-8-sig') as f:

            f_csv = csv.DictWriter(f,data.keys())

            f_csv.writerow(data)

好了，解决上述两个问题后，就可以使用进程池Pool()来实现多进程了

if __name__=='__main__':

    start_time = datetime.datetime.now()

    logger.info('*' * 20 + "start running spider!" + '*' * 20)

    old_url_l = load_progress('old_url.txt')

    manager = Manager()

    old_url = manager.list(old_url_l)

    if not os.path.exists(output_path):

        os.mkdir(output_path)

    for jobname in job_names:

        for cityname in city_names:

            pool = Pool()

            logger.info('*'*10+'start spider '+'jobname:'+jobname+'city:'+cityname+'*'*10)

            total_page = get_page_nums(cityname,jobname)

            csv_filename=output_path+'/{0}_{1}.csv'.format(jobname,cityname)

            if not os.path.exists(csv_filename):

                write_csv_headers(csv_filename)

            urls = get_urls(total_page, cityname, jobname)

            for url in urls:

                pool.apply_async(get_job_info,args=(url,old_url,csv_filename),callback=mycallback)

            pool.close()

            pool.join()

            logger.info('*'*10+'jobname:'+jobname+'city:'+cityname+' spider finished!'+'*'*10)

    save_progress(set(old_url), 'old_url.txt')

    end_time = datetime.datetime.now()

    logger.info('*' * 20 + "spider finished!Running time:%s" % (end_time - start_time) + '*' * 20)

    print("Running time:%s" % (end_time - start_time))

测试了下，我是4核电脑，爬取速度大概是单进程的3倍，智联招聘的反爬虫很弱，基本上不封IP。

所有代码都已经上传到github中，地址：https://github.com/Python3SpiderOrg/zhilianzhaopin

python爬取智联招聘职位信息（多进程）的更多相关文章

python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
python3爬虫抓取智联招聘职位信息代码
上代码,有问题欢迎留言指出. # -*- coding: utf-8 -*- """ Created on Tue Aug 7 20:41:09 2018 @author ...
用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
Python+selenium爬取智联招聘的职位信息
整个爬虫是基于selenium和Python来运行的,运行需要的包 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的,不 ...
用生产者消费模型爬取智联招聘python岗位信息
爬取python岗位智联招聘这里爬取北京地区岗位招聘python岗位,并存入EXECEL文件内,代码如下: import json import xlwt import requests from ...
node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
scrapy项目2：爬取智联招聘的金融类高端岗位（spider类）
---恢复内容开始--- 今天我们来爬取一下智联招聘上金融行业薪酬在50-100万的职位. 第一步:解析解析网页当我们依次点击下边的索引页面是,发现url的规律如下: 第1页:http://www. ...
scrapy框架爬取智联招聘网站上深圳地区python岗位信息。
爬取字段,公司名称,职位名称,公司详情的链接,薪资待遇,要求的工作经验年限 1,items中定义爬取字段 import scrapy class ZhilianzhaopinItem(scrapy.I ...

随机推荐

Python 入门之反射
Python 入门之反射 1.反射 : (自省) 反射主要是指程序可以访问.检测和修改它本身状态或行为的一种能力(自省). Python面向对象中的反射:通过字符串的形式操作对象的相关属性.P ...
Sentinel基本使用--基于QPS流量控制(二), 采用Warm Up预热/冷启动方式控制突增流量
Sentinel基本使用--基于QPS流量控制(二), 采用Warm Up预热/冷启动方式控制突增流量 2019年02月18日 23:52:37 xiongxianze 阅读数 398更多分类专栏: ...
Redis windows服务器配置可远程连接
Redis配置远程可访问:修改redis.conf或redis.windows-service.conf配置文件. 具体通过 1:将绑定的本机给注释掉,找到这行 bind 127.0.0.1,然后在前 ...
[转载]MySQL之char、varchar和text的设计
[转载]MySQL之char.varchar和text的设计来源:https://www.cnblogs.com/billyxp/p/3548540.html 首先我们先普及一下常识: 1.char ...
scrapydWeb安装和使用
1. 安装:pip install scrapydweb 2. 启动:scrapydweb 第一次执行,当前目录会生产配置文件:scrapydweb_settings_v8.py 配置账户和密码: # ...
Array.reduce()方法
Array.reduce()方法是对数组的遍历,返回一个单个返回值使用方法: Array.reduce((acc, cur, idx, src) => { }, initialValue) ...
apache笔记
apache笔记一)两种工作模式 Prefork和worker prefork模式: 一个进程响应一个请求主进程生成多个工作进程,由工作进程一对一的去响应客户端的请求过程: 1)用户空间有个具有 ...
Transformer, ELMo, GPT, 到Bert
RNN:难以并行 CNN:filter只能考虑局部的信息,要叠多层 Self-attention:可以考虑全局的信息,并且可以并行 (Attention Is All You Need) 示意图:x1 ...
php多个数组组合算法火车头免登录发布接口代码备忘
火车头发布产品的时候,有颜色.尺码.性别等等产品属性,需要进行不重复的组合,变成不重复的数组 <?php function comb($a){ $a = array_filter($a); $o ...
【CF 463F】Escape Through Leaf
题意给你一棵 $n$ 个点的树,每个节点有两个权值 $a_i,b_i$. 从一个点 $u$ 可以跳到以其为根的子树内的任意一点 $v$(不能跳到 $u$ 自己),代价是 \(a_ ...

python爬取智联招聘职位信息（多进程）

python爬取智联招聘职位信息（多进程）的更多相关文章

随机推荐

热门专题