python3爬虫-通过requests获取拉钩职位信息

import requests, json, time, tablib

def send_ajax_request(data: dict):

    try:

        ajax_response = session.post(url=ajax_url,

                                     params={"needAddtionalResult": "false", "city": city},

                                     data=data,

                                     headers=ajax_headers,

                                     timeout=timeout)

        if ajax_response.status_code == 200:

            return ajax_response.json()

        return {}

    except Exception:

        return {}

def get_job_info(info_dic: dict):

    jobInfoMap = info_dic.get("content").get("positionResult").get("result")

    for jobInfoDict in jobInfoMap:

        dic = {}

        dic["companyId"] = jobInfoDict.get("companyId")

        dic["companyFullName"] = jobInfoDict.get("companyFullName")

        dic["positionName"] = jobInfoDict.get("positionName")

        dic["workYear"] = jobInfoDict.get("workYear")

        dic["education"] = jobInfoDict.get("education")

        dic["salary"] = jobInfoDict.get("salary")

        dic["jobNature"] = jobInfoDict.get("jobNature")

        dic["companySize"] = jobInfoDict.get("companySize")

        dic["city"] = jobInfoDict.get("city")

        dic["district"] = jobInfoDict.get("district")

        dic["createTime"] = jobInfoDict.get("createTime")

        if is_save_txtfile:

            yield json.dumps(dic, ensure_ascii=False)

        else:

            yield dic.values()

def save_to_file(json_data):

    for data in json_data:

        f.write(data + "\n")

def save_to_excel(list_data):

    for line in list_data:

        dataset.append(line)

def run():

    for i in range(1, 31):

        data = {

            "first": "false",

            "pn": i,

            "kd": "python"

        }

        info_dic = send_ajax_request(data)

        data = get_job_info(info_dic)

        if is_save_txtfile:

            save_to_file(data)

        else:

            save_to_excel(data)

        print("正在保存数据")

        time.sleep(sleeptime)

if __name__ == '__main__':

    session = requests.Session()

    job_name = "python"

    city = "成都"

    timeout = 5

    sleeptime = 10

    doc_url = "https://www.lagou.com/jobs/list_{job_name}".format(job_name=job_name)

    session.headers[

        "User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"

    session.headers["Host"] = "www.lagou.com"

    doc_response = session.get(url=doc_url, params={"city": city})

    ajax_headers = {

        "Origin": "https://www.lagou.com",

        "Referer": doc_response.url

    }

    ajax_url = "https://www.lagou.com/jobs/positionAjax.json?=false"

    is_save_txtfile = False

    if not is_save_txtfile:

        dataset = tablib.Dataset()

        dataset.headers = ["companyId", "companyFullName", "positionName", "workYear",

                           "education", "salary", "jobNature", "companySize", "city",

                           "district", "createTime"]

    f = open("jobinfo.txt", "a", encoding="utf-8")

    try:

        run()

    except Exception:

        print('出错了')

    finally:

        if is_save_txtfile:

            f.close()

        else:

            with open("jobInfo.xls", "wb") as f:

                f.write(dataset.xls)

                f.flush()

python3爬虫-通过requests获取拉钩职位信息的更多相关文章

python3爬虫-通过requests获取安居客房屋信息
import requests from fake_useragent import UserAgent from lxml import etree from http import cookiej ...
21天打造分布式爬虫-Selenium爬取拉钩职位信息（六）
6.1.爬取第一页的职位信息第一页职位信息 from selenium import webdriver from lxml import etree import re import time c ...
python3爬虫-通过selenium登陆拉钩，爬取职位信息
from selenium import webdriver from selenium.common.exceptions import NoSuchElementException from se ...
python3爬虫抓取智联招聘职位信息代码
上代码,有问题欢迎留言指出. # -*- coding: utf-8 -*- """ Created on Tue Aug 7 20:41:09 2018 @author ...
ruby 爬虫爬取拉钩网职位信息，产生词云报告
思路:1.获取拉勾网搜索到职位的页数 2.调用接口获取职位id 3.根据职位id访问页面,匹配出关键字 url访问采用unirest,由于拉钩反爬虫,短时间内频繁访问会被限制访问,所以没有采用多线程, ...
python3爬虫-通过requests爬取图虫网
import requests from fake_useragent import UserAgent from requests.exceptions import Timeout from ur ...
通俗易懂的分析如何用Python实现一只小爬虫，爬取拉勾网的职位信息
源代码:https://github.com/nnngu/LagouSpider 效果预览思路 1.首先我们打开拉勾网,并搜索"java",显示出来的职位信息就是我们的目标. 2 ...
python3 requests 获取拉勾工作数据
#-*- coding:utf-8 -*- __author__ = "carry" import requests,json for x in range(1, 15): url ...
python3爬虫-使用requests爬取起点小说
import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...

随机推荐

域模型中的实体类分为四种类型：VO、DTO、DO、PO
经常会接触到VO,DO,DTO的概念,本文从领域建模中的实体划分和项目中的实际应用情况两个角度,对这几个概念进行简析. 得出的主要结论是:在项目应用中,VO对应于页面上需要显示的数据(表单),DO对应 ...
获取JPEGImageEncoder和JPEGCode这两个类
最近要对PDF做一些操作,在查看别人代码,拿过来借用的时候,由于代码不完整,引用的类也不全,导致JPEGImageEncoder和JPEGCode这两个类找不到,后来网上搜索了下,发现这两个类来自于J ...
Android学习笔记(5)----启动 Theme.Dialog 主题的Activity时程序崩溃的解决办法
新建了一个Android Studio工程,在MainActivity的主界面中添加了两个按钮,点击其中一个按钮用来启动 NormalActivity,点击另一按钮用来启动DialogActivity ...
Google APAC----Africa 2010, Qualification Round(Problem B. Reverse Words)----Perl 解法
原题地址链接:https://code.google.com/codejam/contest/351101/dashboard#s=p1 问题描述: Problem Given a list of s ...
50+ Useful Docker Tools
As containers take root, dozens of tools have sprung up to support them. Check out your options for ...
java 简单工厂工厂模式
<Head First 设计模式>学习中分类简单工厂模式(Simple Factory) 工厂方法模式(Factory Method) 抽象工厂模式(Abstract Factory) ...
SpringMVC与shiro集成及配置文件说明！
在项目中xml文件的配置是必不可少的,特别是SpringMVC框架.但是几乎所有项目的配置都是大同小异,很多人都是直接复制黏贴了事,不少人对其具体含义及用途都不甚全知.本片文章将正对项目中常用的框架S ...
java正则表达式校验移动电话、固话、邮编的校验
package com.tmall.epp.web.module.util; import java.util.regex.Pattern; /** * 移动电话.固话.邮编的校验 * @since ...
Redis 集群缓存测试要点--关于线上 token 失效 BUG 的总结
在测试账户系统过程中遇到了线上大面积用户登录态失效的严重问题,事后对于其原因及测试盲点做了一些总结记录以便以后查阅,总结分为以下7点,其中原理性的解释有些摘自网络. 1.账户系统token失效问题复盘 ...
redis下的字符串处理
redis设计一款sds对象[字符串对象] 优点:可跨平台的内存处理zmalloc:内存消耗的线性增长优势:每次加SDS_MAX_PREALLOC(1MB)的空间: 重写了各种字符串操作的函数: 写跨 ...

python3爬虫-通过requests获取拉钩职位信息

python3爬虫-通过requests获取拉钩职位信息的更多相关文章

随机推荐

热门专题