爬取python岗位智联招聘

这里爬取北京地区岗位招聘python岗位，并存入EXECEL文件内，代码如下：

import json

import xlwt

import requests

from queue import Queue

from threading import Thread

def producer(q,path):

    res1 = requests.get(path,

                        headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3676.400 QQBrowser/10.4.3469.400'},

                        )

    result = json.loads(res1.text)

    for item in result["data"]["results"]:

        jobName = item["jobName"]

        companyname = item["company"]["name"]

        type = item["company"]["type"]["name"]

        size = item["company"]["size"]["name"]

        url = item["company"]['url']

        city = item['city']["items"][0]["name"]

        updateDate = item["updateDate"]

        salary = item["salary"]

        eduLevel = item["eduLevel"]["name"]

        workingExp = item["workingExp"]["name"]

        emplType = item["emplType"]

        condition = item["timeState"]

        msg = "%s|%s|%s|%s|%s|%s|%s|%s|%s|%s|%s|%s"%(jobName,companyname,type,size,url,city,updateDate,salary,eduLevel,workingExp,emplType,condition)

        q.put(msg)

def consumer(q):

    count = 1

    workbook = xlwt.Workbook(encoding="utf-8")

    worksheet = workbook.add_sheet(r"智联招聘")

    pattern = xlwt.Pattern()

    pattern.pattern = xlwt.Pattern.SOLID_PATTERN

    pattern.pattern_fore_colour = 2

    style = xlwt.XFStyle()

    style.pattern = pattern

    worksheet.write(0,0,r"工作名称", style)

    worksheet.write(0,1,r"公司",style)

    worksheet.write(0,2,r"企业性质",style)

    worksheet.write(0,3,r"人数",style)

    worksheet.write(0,4,r"链接网站",style)

    worksheet.write(0,5,r"所在地",style)

    worksheet.write(0,6,r"发布日期",style)

    worksheet.write(0,7,r"薪资",style)

    worksheet.write(0,8,r"学历",style)

    worksheet.write(0,9,r"工作年限",style)

    worksheet.write(0,10,r"职位",style)

    worksheet.write(0,11,r"状态",style)

    while True:

        msg = q.get()

        if not msg:

            workbook.save("智联招聘python信息.xls")

            break

        msg_list = msg.split("|")

        for index in range(len(msg_list)):

            worksheet.write(count, index, label=msg_list[index])

        count += 1

def cp(c_count,p_count):

    q = Queue(10)

    for i in range(c_count):

        Thread(target=consumer, args=(q,)).start()

    p_l = []

    for i in range(p_count,):

        path = "https://fe-api.zhaopin.com/c/i/sou?start=%d&pageSize=90&cityId=530&salary=0,0&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=python&kt=3&=0&_v=0.55208065&x-zp-page-request-id=53d546acdd2a4e369735f9cb3a372e05-1560873187327-646177&x-zp-client-id=dc9fd9ff-68eb-42ab-8bc3-796640e734b3" % (

                i * 90)

        p1 = Thread(target=producer, args=(q,path))

        p1.start()

        p_l.append(p1)

    for p in p_l: p.join()

    for i in range(c_count):q.put(None)

if __name__ == '__main__':

    cp(1,12)

注意：此文章只用于学术交流

用生产者消费模型爬取智联招聘python岗位信息的更多相关文章

用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
Python+selenium爬取智联招聘的职位信息
整个爬虫是基于selenium和Python来运行的,运行需要的包 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的,不 ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
scrapy项目2：爬取智联招聘的金融类高端岗位（spider类）
---恢复内容开始--- 今天我们来爬取一下智联招聘上金融行业薪酬在50-100万的职位. 第一步:解析解析网页当我们依次点击下边的索引页面是,发现url的规律如下: 第1页:http://www. ...
scrapy 爬取智联招聘
准备工作 1. scrapy startproject Jobs 2. cd Jobs 3. scrapy genspider ZhaopinSpider www.zhaopin.com 4. scr ...
python3 requests_html 爬取智联招聘数据（简易版）
PS重点:我回来了-----我回来了-----我回来了 1. 基础需要: python3 基础 html5 CS3 基础 2.库的选择: 原始库 urllib2 (这个库早些年的用过,后来淡忘了) ...
scrapy框架爬取智联招聘网站上深圳地区python岗位信息。
爬取字段,公司名称,职位名称,公司详情的链接,薪资待遇,要求的工作经验年限 1,items中定义爬取字段 import scrapy class ZhilianzhaopinItem(scrapy.I ...

随机推荐

linux SVN 安装配置
svn服务器有2种运行方式 1.独立服务器 (例如:svn://xxx.com/xxx):2.借助apache.(例如:http://svn.xxx.com/xxx):为了不依赖apache,选择第一 ...
Windows消息、绘图与多线程
有一个项目,一旦点下按钮后,用死循环不停的读数据,读出后立刻用可视化的方法显示.如果不采用多线程的方法,程序运行都正确,但无法关闭窗口,不清楚是窗口无法通过关闭按钮来接受Windows消息,还是接受了 ...
LLVM的总结
LLVM 写在前面的话:无意中看到的LLVM的作者Chris Lattner相关的介绍和故事,觉得很有意思就贴上来,如果不感兴趣,可以直接跳入下一章. 关于LLVM 如果你对LLVM的由来陌生,那么我 ...
appium(2)-Setting up Appium
Setting up Appium Running Appium on Windows Additional Setup for Android App Testing Download latest ...
RabbitMQ的介绍与spring整合
本文主要讲述的是个人参考官网及其他前辈博客,对RabbitMQ的一些理解与spring整个RabbitMQ. 一.RabbitMQ的介绍 1.1.什么是RabbitMQ RabbitMQ是一个由erl ...
SDUT 2402 水杯最小表面积问题
水杯 Time Limit: 1000ms Memory limit: 65536K 有疑问?点这里^_^ 题目描述天气逐渐变热了,准备考研的高童鞋打算在夏天来临之前自己动手造一个水杯,以备口 ...
编辑xml文件时不能自动提示问题的解决
在编辑xml文件时,eclipse总是不能自动提示,在网上找了一些资料,大部分都是说关于xml editor配置的,下面也把这个方法罗列在下面,以供参考: 解决办法:在eclipse的菜单里,找到wi ...
一篇文章看懂iOS代码块Block
block.png iOS代码块Block 概述代码块Block是苹果在iOS4开始引入的对C语言的扩展,用来实现匿名函数的特性,Block是一种特殊的数据类型,其可以正常定义变量.作为参数.作为返 ...
1.1-1.3 HBase入门
一.HBASE入门部分参考链接:https://www.cnblogs.com/steven-note/p/7209398.html 1.简介 HBase – Hadoop Database,是一个 ...
1.8-1.10 大数据仓库的数据收集架构及监控日志目录日志数据，实时抽取之hdfs系统上
一.数据仓库架构二.flume收集数据存储到hdfs 文档:http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#hd ...

用生产者消费模型爬取智联招聘python岗位信息

爬取python岗位智联招聘

用生产者消费模型爬取智联招聘python岗位信息的更多相关文章

随机推荐

热门专题