用requests爬取一个招聘网站

import requests
import re

session = requests.session()
第一步：访问登陆页，拿到X_Anti_Forge_Token，X_Anti_Forge_Code

# 1、请求url:https://passport.lagou.com/login/login.html
# 2、请求方法:GET  因为是get请求不需要请求体
# 3、请求头:User-agent

代码如下：

r1 = session.get('https://passport.lagou.com/login/login.html',

                 headers={

                     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

                 },

                 )

X_Anti_Forge_Token = re.findall("X_Anti_Forge_Token = '(.*?)'", r1.text, re.S)[0]   #正则表达式获取的值是一个列表

X_Anti_Forge_Code = re.findall("X_Anti_Forge_Code = '(.*?)'", r1.text, re.S)[0]

第二步：登陆

# 1、请求url:https://passport.lagou.com/login/login.json
# 2、请求方法:POST
# 3、请求头:包含：cookie,User-agent，Referer,X-Anit-Forge-Code,X-Anit-Forge-Token
# 4、请求体包含如下：

# isValidate:true
# username:18611453110
# password:70621c64832c4d4d66a47be6150b4a8e
# request_form_verifyCode:''
# submit:''
代码如下：

r2 = session.post('https://passport.lagou.com/login/login.json',

                  headers={

                      'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

                      'Referer': 'https://passport.lagou.com/login/login.html',

                      'X-Anit-Forge-Code': X_Anti_Forge_Code,

                      'X-Anit-Forge-Token': X_Anti_Forge_Token,

                      'X-Requested-With': 'XMLHttpRequest'

                  },

                  data={

                      "isValidate": True,

                      'username': '',#这是登陆的用户名，

                      'password': '70621c64832c4d4d66a47be6150b4a8e',#这是加密的密码

                      'request_form_verifyCode': '',

                      'submit': ''

                  }

                  )

第三步：授权

 1、请求url:https://passport.lagou.com/grantServiceTicket/grant.html
# 2、请求方法:GET
# 3、请求头:包含：User-agent,Referer

r3 = session.get('https://passport.lagou.com/grantServiceTicket/grant.html',

                 headers={

                     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

                     'Referer': 'https://passport.lagou.com/login/login.html',

                 }

                 )

第四步：验证是登陆成功：

r4 = session.get('https://www.lagou.com/resume/myresume.html',

                 headers={

                     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

                 }

                 )

# print('18611453110' in r4.text)#验证是否登陆成功

第五步：筛选职位信息

# 请求url：https://www.lagou.com/jobs/list_java%E9%AB%98%E7%BA%A7%E5%BC%80%E5%8F%91
# 请求方法：GET
# 请求头：
# User-Agent
# 请求参数：
# gj:3年及以下
# px:default
# yx:25k-50k
# city:北京

from urllib.parse import urlencode

res = urlencode({'k': 'java高级开发'}, encoding='utf-8').split('=')[-1]

url = 'https://www.lagou.com/jobs/list_' + res

# r5 = session.get(url,

#                  headers={

#                      'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

#                  },

#                  params={

#                      'gj': '3年及以下',

#                      'px': 'default',

#                      'yx': '25k-50k',

#                      'city': '北京'

#                  }

#                  )

#

# print(r5.text)

没有取到数据，因为数据是通过ajax发送的，所以我们换另一种方法解决：

#请求url：https://www.lagou.com/jobs/positionAjax.json
#请求方法：POST
#请求头
#    Referer
#    User-Agent
#请求体：
    # first:true
    # pn:1
    # kd:java高级开发
#请求参数
# params={
#      'gj': '3年及以下',
#      'px': 'default',
#      'yx': '25k-50k',
#      'city': '北京',
#     'needAddtionalResult':False,
#     'isSchoolJob':0
# }

r6=session.post('https://www.lagou.com/jobs/positionAjax.json',

             headers={

                    'Referer':url,

                     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

             },

             data={

                 'first':True,

                 'pn':1,

                 'kd':'java高级开发'

             },

             params={

                 'gj': '3年及以下',

                 'px': 'default',

                 'yx': '25k-50k',

                 'city': '北京',

                 'needAddtionalResult': False,

                 'isSchoolJob': 0

             }

             )

comapines_list=r6.json()['content']['positionResult']['result']

for comapiny in comapines_list:

    positionId=comapiny['positionId']

    company_link='https://www.lagou.com/jobs/{pos_id}.html'.format(pos_id=positionId)

    companyShortName = comapiny['companyShortName']

    positionName = comapiny['positionName']

    salary = comapiny['salary']

    print('''

    详情连接:%s

    公司名：%s

    职位名：%s

    薪资：%s

    ''' %(company_link,companyShortName,positionName,salary))

#第七步：访问详情页，拿到X_Anti_Forge_Token，X_Anti_Forge_Code
# 请求url：详情页地址
# 请求方式：GET
# 请求头：User-Agent

 r7=session.get(company_link,

                headers={

                    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

                }

                )

    X_Anti_Forge_Token = re.findall("X_Anti_Forge_Token = '(.*?)'", r7.text, re.S)[0]

    X_Anti_Forge_Code = re.findall("X_Anti_Forge_Code = '(.*?)'", r7.text, re.S)[0]

#第八步：投递简历
#请求url：https://www.lagou.com/mycenterDelay/deliverResumeBeforce.json
#请求方式：POST
#请求头：
    #Referer:详情页地址
    #User-agent
    #X-Anit-Forge-Code:53165984
    #X-Anit-Forge-Token:3b6a2f62-80f0-428b-8efb-ef72fc100d78
    #X-Requested-With:XMLHttpRequest
#请求体：
# positionId:职位ID
# type:1
# force:true

   session.post('https://www.lagou.com/mycenterDelay/deliverResumeBeforce.json',

                 headers={

                     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

                     'Referer': company_link,

                     'X-Anit-Forge-Code': X_Anti_Forge_Code,

                     'X-Anit-Forge-Token': X_Anti_Forge_Token,

                     'X-Requested-With': 'XMLHttpRequest'

                 },

                 data={

    'positionId':positionId,

    'type':1,

    'force':True

                 }

                 )

    print('%s 投递成功' %(companyShortName))

第7步，8步是并列的，放在第六步的里面。
第六步找到一个公司，进入详情页，然后投递简历。

用requests爬取一个招聘网站的更多相关文章

利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪
#通过输入的关键字,爬取北京地区某岗位的平均月薪 # -*- coding: utf-8 -*- import re import requests import time import lxml.h ...
Python使用requests爬取一个网页并保存
#导入 requests模块import requests #设置请求头,让网站监测是浏览器 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6. ...
python-scrapy爬取某招聘网站信息(一)
首先准备python3+scrapy+mysql+pycharm... 这次我们选择爬取智联招聘网站的企业招聘信息,首先我们有针对的查看网站的html源码,发现其使用的是js异步加载的方式,直接从服务 ...
python-scrapy爬取某招聘网站(二)
首先要准备python3+scrapy+pycharm 一.首先让我们了解一下网站拉勾网https://www.lagou.com/ 和Boss直聘类似的网址设计方式,与智联招聘不同,它采用普通的页 ...
爬取拉勾网招聘信息并使用xlwt存入Excel
xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 python操作excel之xlrd 1.Python模块介绍 - xlwt ,什么是xlwt? Python语言中,写入Excel文件的扩 ...
网络爬虫之scrapy爬取某招聘网手机APP发布信息
1 引言过段时间要开始找新工作了,爬取一些岗位信息来分析一下吧.目前主流的招聘网站包括前程无忧.智联.BOSS直聘.拉勾等等.有段时间时间没爬取手机APP了,这次写一个爬虫爬取前程无忧手机APP岗位 ...
[Python]爬取游民星空网站每周精选壁纸（1080高清壁纸）网络爬虫
一.检查首先进入该网站的https://www.gamersky.com/robots.txt页面给出提示: 弹出错误页面注: 网络爬虫:自动或人工识别robots.txt,再进行内容爬取约束 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...

随机推荐

Java设计模式学习记录-组合模式
前言今天要介绍的设计模式是组合模式,组合模式也是结构型设计模式的一种,它主要体现了整体与部分的关系,其典型的应用就是树形结构.组合是一组对象,其中的对象可能包含一个其他对象,也可能包含一组其他对象. ...
Hyperledger Fabric密码模块系列之BCCSP（三）
fabric中通过工厂模式来生成bccsp实例,进而通过bccsp的接口来提供加密.解密.签名验证以及哈希等操作. fabric的factory工厂默认返回的bccsp实例是sw(也就是所有密码操作都 ...
c++中运算符重载
c++语言中运算符重载都是通过函数来实现的,所以其实质为函数重载,当c++语言原有的一个运算符被重载之后,它原来所具有的语义并没有消失,只相当于针对一个特定的类定义了一个新的运算符. <1> ...
PowerDesigner反向生成物理数据模型
什么是PowerDesigner Power Designer 是Sybase公司的CASE工具集,使用它可以方便地对管理信息系统进行分析设计,它几乎包括了数据库模型设计的全过程.利用Power De ...
Ajax事件，方法
1\ready:事件:使用ready()来使函数在文档加载后可用 $(document).ready(funcation(){ 函数体 }) 2\click事件:当单机元素时,使用 3\focus事件 ...
[android] 安卓消息推送的几种实现方式
消息推送的目的:让服务器端及时的通知客户端实现方案轮询:客户端每隔一定的时间向服务器端发起请求,获得最新的消息特点:如果用在最新新闻通知上,效率就有点低了,技术简单,好实现应用场景:服务器端以 ...
【Java基础】2、Java中普通代码块，构造代码块，静态代码块区别及代码示例
Java中普通代码块,构造代码块,静态代码块区别及代码示例.Java中普通代码块,构造代码块,静态代码块区别及代码示例执行顺序:静态代码块>静态方法(main方法)>构造代码块>构 ...
Oracle数据库如何提高访问性能
A,避免在索引列上使用 IS NULL 和 IS NOT NULL 操作避免在索引中使用然后可以为空的列,ORACLE将无法使用该索引.对于单列索引如果包含空值,索引将不存在此记录.对于复合索引 ...
js array 数组添加与删除数据
//新建数组 var ids =new Array(); //向数组中添加数据 ids.push(1); //删除下标为i的数组元素 ids.remove(i); //自定义删除函数: Array.p ...
JS数组迭代方法
先说 every()和 some(),它们都用于查询数组中的项是否满足某个条件. every(): var numbers = [1,2,3,4,5,4,3,2,1]; var everyResult ...

用requests爬取一个招聘网站

用requests爬取一个招聘网站的更多相关文章

随机推荐

热门专题