拉购网职位搜索爬虫

分析职位搜索调用接口：

浏览器开发者模式(快捷键F12)切换手机模式，打开拉购网职位搜索链接 https://m.lagou.com/search.html
输入搜索关键词，例如"Python" ，可以看到右侧的XHR中出现一个AJAX调用请求 https://m.lagou.com/search.json?city=%E5%85%A8%E5%9B%BD&positionName=Python&pageNo=1&pageSize=15
找到了AJAX接口后，我们就可以使用requests模拟发送请求来搜索职位信息了。

下面是实现源码：

#!/usr/bin/env python3

# -*-coding:utf8-*-

import logging

import traceback

import requests

from requests.adapters import HTTPAdapter

import json

import random

import sys

def usage():

    print("Usage:\n\t lagou_search <keyword> [page_number] [地理位置] \n\n\t<keyword> : 搜索职位名称\n\t[page_number]显示页数,每页15条\n------\n")

if len(sys.argv) < 2:

    usage()

    sys.exit(1)

keyword = sys.argv[1]

if len(sys.argv) > 2:

    page_num = int(sys.argv[2])

else:

    page_num = 1

if len(sys.argv) > 3:

    city = sys.argv[3]

else:

    city = '全国'

LOG_FORMAT = "%(asctime)s - %(filename)s - %(funcName)s - %(lineno)s - %(levelname)s - %(message)s"

logging.basicConfig(filename=f'log.lagou.log', level=logging.DEBUG, filemode='a', format=LOG_FORMAT)

def get_proxy():

    proxy_uri = 'socks5://127.0.0.1:1084'

    proxies = {

        'http': proxy_uri,

        'https': proxy_uri

    }

    return proxies

def search_jobs(keyword, page):

    proxies = get_proxy()

    myheaders = {

        'User-Agent': 'Mozilla/5.0 (Linux; Android 7.1.1; OS105 Build/NGI77B) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.84 Mobile Safari/537.36',

    }

    headers = {

        'Host': 'm.lagou.com',

        'Accept': 'application/json,text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

        'X-Requested-With': 'XMLHttpRequest',

        'User-Agent': 'Mozilla/5.0 (Linux; Android 7.1.1; OS105 Build/NGI77B) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.84 Mobile Safari/537.36',

        'Referer': 'https://m.lagou.com/search.html',

        'Accept-Language': 'zh-CN,zh;q=0.9'

    }

    payload = {

        'city': city,

        'positionName': keyword,

        'pageNo': 1,

        'pageSize': 15

    }

    result = {}

    try:

        s = requests.Session()

        s.mount('http://', HTTPAdapter(max_retries=5))

        s.mount('https://', HTTPAdapter(max_retries=5))

        resp = s.get('https://m.lagou.com/search.html', headers=myheaders, proxies=proxies, timeout=10)

        for pn in range(1, page+1):

            payload['pageNo'] = pn

            try:

                resp = s.get('https://m.lagou.com/search.json', params=payload, proxies=proxies, timeout=10, headers=headers)

                jscontent = resp.text

                jsDict = json.loads(jscontent)

                statusJson = jsDict['state'] if 'state' in jsDict.keys() else 0

                if statusJson == 1:

                    if 'content' in jsDict.keys():

                        jsList = jsDict['content']['data']['page']['result']

                        for jsData in jsList:

                            result['positionId'] = jsData['positionId']

                            result['positionName'] = jsData['positionName']

                            result['city'] = jsData['city']

                            result['salary'] = jsData['salary']

                            result['companyFullName'] = jsData['companyFullName']

                            result['link'] = 'https://www.lagou.com/jobs/' + str(jsData['positionId']) + '.html'

                            print(json.dumps(result, ensure_ascii=False))

            except Exception as e:

                logging.exception(str(e))

    except requests.exceptions.ProxyError as e:

        logging.exception(f'proxy_error ' + str(e))

    except Exception as e:

        logging.exception(f'proxy: ' + str(e))

if __name__ == "__main__":

    try:

        search_jobs(keyword, page_num)

    except Exception as e:

        print(e)

脚本工具使用方法：

╰─ ./lagou_search.py

Usage:

         lagou_search <keyword> [page_number] [地理位置]

        <keyword> : 搜索职位名称

        [page_number]显示页数,每页15条

------

AJAX接口-拉购网职位搜索爬虫的更多相关文章

关于网易云音乐爬虫的api接口？
抓包能力有限,分析了一下网易云音乐的一些api接口,但是关于它很多post请求都是加了密,没有弄太明白.之前在知乎看到过一个豆瓣工程师写的教程,但是被投诉删掉了,请问有网友fork了的吗?因为我觉得他 ...
C#制作网盘搜索工具(简单的爬虫）
最近学习C#编程,在网上发现一篇winform下制作百度网盘搜索器的文章,故而下载源码学习一二.无奈原博所用的网址失效,故而自己改写了网址和相关源代码,也进行了实现.因为初学,接触的知识较多,为免忘记 ...
[PHP] 网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索
标题起的太大了,都是骗人的.最近使用PHP实现了简单的网盘搜索程序,并且关联了微信公众平台.用户可以通过公众号输入关键字,公众号会返回相应的网盘下载地址.就是这么一个简单的功能,类似很多的网盘搜索类网 ...
【Python3爬虫】网易云音乐爬虫
此次的目标是爬取网易云音乐上指定歌曲所有评论并生成词云具体步骤: 一:实现JS加密找到这个ajax接口没什么难度,问题在于传递的数据,是通过js加密得到的,因此需要查看js代码. 通过断掉调试可以 ...
Redis 实战 —— 10. 实现内容搜索、定向广告和职位搜索
使用 Redis 进行搜索 P153 通过改变程序搜索数据的方式,并使用 Redis 来减少绝大部分基于单词或者关键字进行的内容搜索操作的执行时间. P154 基本搜索原理 P154 倒排索引 (in ...
Python 微博搜索爬虫
微博搜索爬虫网页分析由于网页端反爬虫机制比较完善所以才去移动端进行爬虫. url地址:https://m.weibo.cn/ 搜索框,输入关键词进行搜索对网页进行抓包,找到相关数据查看数据是否 ...
简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
推荐一个百度网盘搜索工具www.sososo.me
推荐一个百度网盘搜索工具 http://www.sososo.me
【百度地图API】如何使用suggestion--下拉列表方式的搜索建议
原文:[百度地图API]如何使用suggestion--下拉列表方式的搜索建议摘要: 百度地图上有一个很强大的搜索建议功能,以下拉列表的方式展示出来.比如,输入“百度”,下拉列表中就会出现“北京市海 ...

随机推荐

Spring Boot 第六弹，拦截器如何配置，看这儿~
持续原创输出,点击上方蓝字关注我吧目录前言 Spring Boot 版本什么是拦截器? 如何自定义一个拦截器? 如何使其在Spring Boot中生效? 举个栗子思路根据什么判断这个接口已经 ...
randomatic
下载 randomaticrandomatic 使用简单的字符序列生成指定长度的随机字符串.原generate-password. 请考虑下面这个项目的作者,Jon Schlinkert主演的,考虑项 ...
RHSA-2018:0395-重要: 内核安全和BUG修复更新（需要重启、本地提权、代码执行）
[root@localhost ~]# cat /etc/redhat-release CentOS Linux release 7.2.1511 (Core) 修复命令: 使用root账号登陆She ...
arcgis-java-100.8.0.jar下载
链接: https://pan.baidu.com/s/1HoW2IhPvHRw9LBZphxC5Rw 提取码: pexn
2014年实验五 Internet与网络工具的使用
实验五 Internet与网络工具的使用 [实验目的] ⑴.FTP服务器的架设和客户端的使用. ⑵.使用云盘和云笔记应用 ⑶.运用QQ的远程协助功能. (4).默认安装foxmail软件,进行邮件 ...
面试题____pthon__002(法本_) 阿里
1.描述一下您负责的业务中最复杂的业务(可以从业务是为了解决用户的什么问题切入).这个最复杂的业务中,最复杂的模块是什么,这个模块的主要功能详细描述一下.这个模块,采用了什么样的测试手段保障质量?2. ...
C++ Primer第5版第三章课后练习
练习3.1 #include <iostream> using namespace std; int main() { int sum = 0, val = 50; while (val ...
C# 获取两点（经纬度表示）间的距离
#region 获取两点(经纬度表示)间的距离 /// <summary> /// 获取两点(经纬度表示)间的距离 /// </summary> /// <param n ...
springboot入门系列（三）：SpringBoot教程之RabbitMQ示例
SpringBoot教程之RabbitMQ示例 SpringBoot框架已经提供了RabbitMQ的使用jar包,开发人员在使用RabbitMQ的时候只需要引用jar包简单的配置一下就可以使用Rabb ...
BMP位图调色板说明
网上一搜,可以看到BMP位图结构的详细说明,这篇文章专门谈一下其中的调色板. 多少位位图并不是指每一个颜色该用多少位表示,对于颜色来说,它始终都是24位(RGB),或者是32位(RGBA),而是指该位 ...

AJAX接口-拉购网职位搜索爬虫

拉购网职位搜索爬虫

AJAX接口-拉购网职位搜索爬虫的更多相关文章

随机推荐

热门专题