1. 首先前往拉勾网“爬虫”职位相关页面
  2. 确定网页的加载方式是JavaScript加载
  3. 通过谷歌浏览器开发者工具分析和寻找网页的真实请求,确定真实数据在position.Ajax开头的链接里,请求方式是POST
  4. 使用requests的post方法获取数据,发现并没有返回想要的数据,说明需要加上headers和每隔多长时间爬取

    我们可以看到拉勾网列表页的信息一般js加载的都在xhr和js中,通过发送ajax加载POST请求,获取页面信息。

  5. 这个是ajax的头信息,通过Form Data中的的信息获取页面
  6. 下面是scrapy爬虫的 代码部分
 import scrapy
import json
from lagou.items import LagouItem
class LagoupositionSpider(scrapy.Spider):
name = 'lagouposition'
allowed_domains = ['lagou.com']
kd = input('请输入你要搜索的职位信息:')
ct =input('请输入要搜索的城市信息')
page=1
start_urls = ["https://www.lagou.com/jobs/list_"+str(kd)+"&city="+str(ct)]
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
'Referer': 'https://www.lagou.com/jobs/list_'+str(kd)+'?labelWords=&fromSearch=true&suginput=',
'Cookie':' _ga=GA1.2.1036647455.1532143907; user_trace_token=20180721113217-aacd6291-8c96-11e8-a020-525400f775ce; LGUID=20180721113217-aacd667e-8c96-11e8-a020-525400f775ce; index_location_city=%E5%8C%97%E4%BA%AC; _gid=GA1.2.1320510576.1532272161; WEBTJ-ID=20180723084204-164c4960832159-09bf89fcd2732e-5e442e19-1049088-164c496083348; JSESSIONID=ABAAABAABEEAAJAC7D58B57D1CAE4616ED47AACF945615E; _gat=1; LGSID=20180723203627-04b27de6-8e75-11e8-9ee6-5254005c3644; PRE_UTM=; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DYhfCtaCVlOHCdncJxMCMMS3PB1wGlwfw9Yt2c_FXqgu%26wd%3D%26eqid%3D8f013ed00002f4c7000000035b55cbc4; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1532306722,1532306725,1532306732,1532349358; SEARCH_ID=cdd7822cf3e2429fbc654720657d5873; LGRID=20180723203743-3221dec8-8e75-11e8-a35a-525400f775ce; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1532349434; TG-TRACK-CODE=search_code'
} def parse(self, response):
with open('lagou.html','w') as f:
f.write(response.text)
url="https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"
formdata={'first':'true','kd':str(self.kd),'pn':'','city':str(self.ct)}
yield scrapy.FormRequest(url,formdata=formdata,callback=self.parse_detail,headers=self.headers) def parse_detail(self,response):
text=json.loads(response.text)
res=[]
try:
res = text["content"]["positionResult"]["result"]
print(res)
except:
pass
if len(res)>0:
item = LagouItem()
for position in res:
try:
item['title']=position['positionName']
item['education']=position['education']
item['company']=position['companyFullName']
item['experience']=position['workYear']
item['location']=position['city']
item['salary'] = position['salary']
print(item)
except:
pass
yield item
self.page+=1
url='https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false
formdata={'first':'false','kd':str(self.kd),'pn':str(self.page),'city':str(self.ct)}
print('===========================',formdata)
yield scrapy.FormRequest(url, callback=self.parse_detail, formdata=formdata,headers=self.headers)
else:
print("爬取结束!")

注意拉钩网有反爬措施, 我们在Formreqest提交POST请求消息必须携带kd等键值对,在setting中也许设置

 DOWNLOAD_DELAY = 20
#设置爬取时间
ROBOTSTXT_OBEY = False
#是否遵循发爬虫协议
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'zh-CN,zh;q=0.8',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Host': 'www.lagou.com',
'Origin': 'https://www.lagou.com',
'Referer': 'https://www.lagou.com/jobs',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36',
'X-Anit-Forge-Code': '',
'X-Anit-Forge-Token': 'None',
'X-Requested-With': 'XMLHttpRequest'
}
#请求头信息headers

接下来就是在items中设置爬取信息的字段

 import scrapy

 class LagouItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# pass education= scrapy.Field()
company= scrapy.Field()
experience= scrapy.Field()
location= scrapy.Field()
salary= scrapy.Field()
title= scrapy.Field()

在Pipeline.py文件中设置保存爬取文件的格式等

 import json
class LagouPipeline(object):
def open_spider(self,spider):
self.file=open('pythonposition.json','w',encoding='utf-8')
def process_item(self, item, spider):
python_dict=dict(item)
content=json.dumps(python_dict,ensure_ascii=False)+'\n'
self.file.write(content)
return item
def close_spider(self,spider):
self.file.close()

注意一定要把setting中的ITEM_PIPELINES解注释,接下来就是跑起我们的项目,通过input输入想要爬取的职位和城市,

上面就是爬取到的信息总共是855条招聘消息,接下来就是用jumpter-notebook打开爬取到的csv文件用pandas,numpy,和mupltlib进行分析

 import pandas as pd
import numpy as np
import seaborn as sns
lagou=pd.read_csv('./examples/lagou.csv')
lagou.info()
#查看缺失值情况

通过读取文件并显示出855条招聘信息是否有缺失值

 city=lagou['location']
city=pd.DataFrame(city.unique())
city
通过上面可以看到招聘python职位的城市,总共有38城市
 education=lagou['education']
education=pd.DataFrame(education.unique())
lagou['education'] = lagou['education'].replace('不限','unlimited')
lagou['education'] = lagou['education'].replace('大专','junior')
lagou['education'] = lagou['education'].replace('本科','regular')
lagou['education'] = lagou['education'].replace('硕士','master')
lagou['education'] = lagou['education'].replace('博士','doctor')
#seaborn不支持中文需将对应的中文替换
import seaborn as sns
sns.set_style('whitegrid')
sns.countplot(x='education',data=lagou,palette='Greens_d')

通过上图可以看到大多数的Python职位招聘还是本科学历为主

 experience=lagou['experience']
experience=pd.DataFrame(experience.unique())
lagou['experience'] = lagou['experience'].replace('不限','unlimited')
lagou['experience'] = lagou['experience'].replace('3-5年','3-5')
lagou['experience'] = lagou['experience'].replace('1-3年','1-3')
lagou['experience'] = lagou['experience'].replace('5-10年','5-10')
lagou['experience'] = lagou['experience'].replace('1年以下','<1')
lagou['experience'] = lagou['experience'].replace('应届毕业生','intern')
experience
sns.countplot(x="experience", data=lagou,palette="Blues_d")

上图是招聘的工作经验的人数分布图,可以看到3-5年的Python工程师比较抢手,其次就是1-3年工作经验的

 import matplotlib.pyplot as plt
%matplotlib inline
f, ax1= plt.subplots(figsize=(20,20))
sns.countplot(y='salary', data=lagou, ax=ax1)
ax1.set_title('Python salary distribute ',fontsize=15)
#薪资分布
ax1.set_xlabel('salary')
#薪资
ax1.set_ylabel('level')
plt.show()

同过下图可以看到拉勾网上的pyhong工程师薪资待遇,其中待遇重要分布在10-40K之间,其中给出15-30K工资待遇的企业最多

Python工程师还是很有前景的,

拉勾网爬取全国python职位并数据分析薪资,工作经验,学历等信息的更多相关文章

  1. 拉钩网爬取所有python职位信息

    最近在找工作,所以爬取了拉钩网的全部python职位,以便给自己提供一个方向.拉钩网的数据还是比较容易爬取的,得到json数据直接解析就行,废话不多说, 直接贴代码: import json impo ...

  2. python爬虫学习之爬取全国各省市县级城市邮政编码

    实例需求:运用python语言在http://www.ip138.com/post/网站爬取全国各个省市县级城市的邮政编码,并且保存在excel文件中 实例环境:python3.7 requests库 ...

  3. selelinum+PhantomJS 爬取拉钩网职位

    使用selenium+PhantomJS爬取拉钩网职位信息,保存在csv文件至本地磁盘 拉钩网的职位页面,点击下一页,职位信息加载,但是浏览器的url的不变,说明数据不是发送get请求得到的. 我们不 ...

  4. 用webdriver模仿浏览器 爬取豆瓣python书单

    用webdriver模仿浏览器 爬取豆瓣python书单 其中运用到os 模块 作用是生成文件夹 存储爬取的信息 etree 用于xpath解析内容 详细代码如下 可用我的上一篇博客存取到excel当 ...

  5. 爬虫黑科技,我是怎么爬取indeed的职位数据的

    最近在学习nodejs爬虫技术,学了request模块,所以想着写一个自己的爬虫项目,研究了半天,最后选定indeed作为目标网站,通过爬取indeed的职位数据,然后开发一个自己的职位搜索引擎,目前 ...

  6. Python 爬取 热词并进行分类数据分析-[云图制作+数据导入]

    日期:2020.01.28 博客期:136 星期二 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入](本期博客) ...

  7. python爬虫实战之爬取智联职位信息和博客文章信息

    1.python爬取招聘信息 简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author  ...

  8. Python 爬取 热词并进行分类数据分析-[简单准备] (2020年寒假小目标05)

    日期:2020.01.27 博客期:135 星期一 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备](本期博客) b.[云图制作+数据导入] ...

  9. Python 爬取 热词并进行分类数据分析-[数据修复]

    日期:2020.02.01 博客期:140 星期六 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...

随机推荐

  1. Hive篇--搭建Hive集群

    一.前述 Hive中搭建分为三中方式 a)内嵌Derby方式 b)Local方式 c)Remote方式 三种方式归根到底就是元数据的存储位置不一样. 二.具体实现 a)内嵌Derby方式 使用derb ...

  2. Ocelot统一权限验证

    Ocelot作为网关,可以用来作统一验证,接上一篇博客,我们继续 前一篇,我们创建了OcelotGateway网关项目,DemoAAPI项目,DemoBAPI项目,为了验证用户并分发Token,现在还 ...

  3. 抓包工具Charles的使用教程

    参考:https://zhubangbang.com/charlesproxy 如果您是您一次使用Charles,可能对下面的感兴趣. Charles破解版免费下载和安装教程 Charles手机抓包设 ...

  4. 行为驱动:Cucumber + Selenium + Java(二) - 第一个测试

    在上一篇中,我们搭建好了Selenium + Cucumber + Java的自动化测试环境,这一篇我们就赶紧开始编写我们的第一个BDD测试用例. 2.1 创建features 我们在新建的java项 ...

  5. 【转载】CentOS 7部署ASP.NET Core应用程序

    看了几篇大牛写的关于Linux部署ASP.NET Core程序的文章,今天来实战演练一下.2017年最后一个工作日,提前预祝大家伙元旦快乐.不扯淡,直接进入正题.您有任何问题请在评论区留言. 1.环境 ...

  6. Kali 无法正常上网问题

    有时候我们会突然发现我们的kali不能够正常上网,在终端使用ping 命令对其进行检查,显示网络不可达, 然后使用ifconfig,可以看到没有正在工作的网卡,只有localhost 接着使用ifco ...

  7. C++STL模板库序列容器之deque

    目录 一丶队列容器deque简介 二丶使用代码演示 一丶队列容器deque简介 deque底层跟vector一样,都是数组维护.不同的是可以操作头部. 二丶使用代码演示 #define _CRT_SE ...

  8. PE知识复习之PE的重定位表

    PE知识复习之PE的重定位表 一丶何为重定位 重定位的意思就是修正偏移的意思.  如一个地址位 0x401234 ,Imagebase = 0x400000 . 那么RVA就是 1234.  如果Im ...

  9. curl 错误总结

    证书域名与访问的域名不一致 问题:curl SSL: certificate subject name 'luffichen_server.tencent.com' does not match ta ...

  10. ES6躬行记(16)——Set

    ES6引入了两种新的数据结构:Set和Map.Set是一组值的集合,其中值不能重复:Map(也叫字典)是一组键值对的集合,其中键不能重复.Set和Map都由哈希表(Hash Table)实现,并可按添 ...