python爬取拉勾网职位信息-python相关职位

import requests
import math
import pandas as pd
import time
from  lxml import etree
 
url = 'https://www.lagou.com/jobs/positionAjax.json?px=default&needAddtionalResult=false'
headers = {
            'Accept': "application/json, text/javascript, */*; q=0.01",
            'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",
            'Referer':'https://www.lagou.com/jobs/list_python/p-city_0?px=default'
    }
form_data = {
            'first': 'true',
            'pn': 1,
            'kd': 'python'
    }
s = requests.session()
s.get('https://www.lagou.com/jobs/list_python/p-city_0?px=default#filterBox', headers=headers, timeout=3) 
cookie = s.cookies
response = s.post(url, data=form_data, headers=headers, cookies=cookie, timeout=3)
job_json = response.json()
job_totalCount = job_json['content']['positionResult']['totalCount']
job_pageCount = math.ceil(job_totalCount/15)
company_info = []
for i in range(1,job_pageCount+1):
    form_data['pn'] = i
    s = requests.session()
    s.get('https://www.lagou.com/jobs/list_python/p-city_0?px=default#filterBox', headers=headers,
          timeout=3) 
    cookie = s.cookies
    response = s.post(url, data=form_data, headers=headers, cookies=cookie, timeout=3)
    job_json = response.json()
    print(i,job_json)
    job_list = job_json['content']['positionResult']['result']
    for job in job_list:
        job_info = []
        job_info.append(job['companyFullName'])
        job_info.append(job['companySize'])
        job_info.append(job['financeStage'])
        job_info.append(job['district'])
        job_info.append(job['positionName'])
        job_info.append(job['workYear'])
        job_info.append(job['education'])
        job_info.append(job['salary'])
        job_info.append(job['positionAdvantage'])
        positionId=job['positionId']
        job_detail_url = 'https://www.lagou.com/jobs/'+str(positionId)+'.html?show=10faf2bed17a459bbf40e09529f61edd'
        response1 = s.post(job_detail_url,data=form_data, headers=headers, cookies=cookie, timeout=3)
        root = etree.HTML(response1.text)
        job_detail = root.xpath('//div[@class="job-detail"]/text()')
        work_addr = root.xpath('//div[@class="work_addr"]/text()')
        job_info.append(job_detail)
        job_info.append(work_addr)
        #print('===============', job_detail,work_addr)
        print(job_info)
        company_info.append(job_info)
        time.sleep(1)
print(company_info)
datas  = pd.DataFrame(columns=['公司','规模','融资','位置','职位','经验','学历','工资','福利','职位描述','工作地点'],data=company_info)
datas.to_excel(r'C:\Users\xxx\Desktop\out/lagou_1.xlsx')

python爬取拉勾网职位信息-python相关职位的更多相关文章

Python爬取拉勾网招聘信息并写入Excel
这个是我想爬取的链接:http://www.lagou.com/zhaopin/Python/?labelWords=label 页面显示如下: 在Chrome浏览器中审查元素,找到对应的链接: 然后 ...
python-scrapy爬虫框架爬取拉勾网招聘信息
本文实例为爬取拉勾网上的python相关的职位信息, 这些信息在职位详情页上, 如职位名, 薪资, 公司名等等. 分析思路分析查询结果页在拉勾网搜索框中搜索'python'关键字, 在浏览器地址栏 ...
爬取拉勾网招聘信息并使用xlwt存入Excel
xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 python操作excel之xlrd 1.Python模块介绍 - xlwt ,什么是xlwt? Python语言中,写入Excel文件的扩 ...
(转)python爬取拉勾网信息
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程我们在查看拉勾网上的招聘信息的时候 ...
python爬取拉勾网数据并进行数据可视化
爬取拉勾网关于python职位相关的数据信息,并将爬取的数据已csv各式存入文件,然后对csv文件相关字段的数据进行清洗,并对数据可视化展示,包括柱状图展示.直方图展示.词云展示等并根据可视化的数据做 ...
python爬取豆瓣视频信息代码
目录一:代码二:结果如下(部分例子) 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...
python爬取拉勾网职位数据
今天写的这篇文章是关于python爬虫简单的一个使用,选取的爬取对象是著名的招聘网站--拉钩网,由于和大家的职业息息相关,所以爬取拉钩的数据进行分析,对于职业规划和求职时的信息提供有很大的帮助. 完成 ...
爬虫实战(三) 用Python爬取拉勾网
目录 0.前言 1.初始化 2.爬取数据 3.保存数据 4.数据可视化 5.大功告成 0.前言最近,博主面临着选方向的困难(唉,选择困难症患者 >﹏<),所以希望了解一下目前不同岗位的就 ...
Python 爬取美团酒店信息
事由:近期和朋友聊天,聊到黄山酒店事情,需要了解一下黄山的酒店情况,然后就想着用python 爬一些数据出来,做个参考主要思路:通过查找,基本思路清晰,目标明确,仅仅爬取美团莫一地区的酒店信息,不过 ...
python 爬取豆瓣书籍信息
继爬取猫眼电影TOP100榜单之后,再来爬一下豆瓣的书籍信息(主要是书的信息,评分及占比,评论并未爬取).原创,转载请联系我. 需求:爬取豆瓣某类型标签下的所有书籍的详细信息及评分语言:pyth ...

随机推荐

PYTHON实战完整教程1-配置VSCode开发环境
一.安装为降低学习门槛,保证学习目标的聚焦,我们在windows(使用WinServer2019虚拟机)上搭建开发环境.(系列教程最后结束时,也会部署到linux上) 打开Python官网 http ...
Java并发--基础知识
一.为什么要用到并发充分利用多核CPU的计算能力方便进行业务拆分,提升应用性能二.并发编程有哪些缺点频繁的上下文切换时间片是CPU分配给各个线程的时间,因为时间非常短,所以CPU不断通过切换 ...
String类常用的方法
(1)int length():返回字符串的长度,例如: String s1="hello"; System.out.println(s1.length());//显示为5 (2) ...
JAVA三种多线程实现方法和应用总结
最近在做代码优化时学习和研究了下JAVA多线程的使用,看了菜鸟们的见解后做了下总结.1.JAVA多线程实现方式JAVA多线程实现方式主要有三种:继承Thread类.实现Runnable接口.使用Exe ...
面向对象的js编程 Call和apply方法
JavaScript中有一个call和apply方法,其作用基本相同,但也有略微的区别. 一.方法定义 1.call 方法语法:call([thisObj[,arg1[, arg2[, [,.arg ...
C#LeetCode刷题之#896-单调数列（Monotonic Array）
问题该文章的最新版本已迁移至个人博客[比特飞],单击链接 https://www.byteflying.com/archives/3760 访问. 如果数组是单调递增或单调递减的,那么它是单调的. ...
PowerJob 的自实现高可用方案，妙妙妙！
本文适合有 Java 基础知识的人群作者:HelloGitHub-Salieri HelloGitHub 推出的<讲解开源项目>系列. 碎碎念高可用放到今天已经不是一个新颖的词汇了,怎 ...
运用cookie实现记住密码自动登陆：
苦命的程序员:只有博客才能了解我的路!!! 废话不多说:直接上代码: 1.首先在现在登录的页面上来获取cookie的所有: 2.在验证页面来设置clookie的用户名和密码还有是否是自动登录: 到此就 ...
Selenium数据驱动测试模型和实例
模块驱动的模型虽然解决了脚本的重复问题,但是需要测试不同数据的用例时,模块驱动的方式就不很适合了. 数据驱动就是数据的改变从而驱动自动化测试的执行,最终引起测试结果的改变. 装载数据的方式可以是列表. ...
android.content.ActivityNotFoundException: No Activity found to handle Intent { (has extras) }
报错: 初始代码: @OnClick(R.id.include_top_iv_more) public void onViewClicked() { Intent intent_chat_set = ...

python爬取拉勾网职位信息-python相关职位

python爬取拉勾网职位信息-python相关职位的更多相关文章

随机推荐

热门专题