python3爬取拉钩招聘数据

使用python爬去拉钩数据
    第一步:下载所需模块
            requests 进入cmd命令 :pip install requests 回车 联网自动下载
            xlwt     进入cmd命令 :pip install  xlwt 回车 联网自动下载
    第二步：找到你要爬去的网页（我爬去的是拉钩网）
        选择浏览器 （火狐、谷歌）我使用的谷歌抓包
        编码工具 （idea）（ pyCharm）我使用的idea

import requests #导入下载过的requesta

import xlwt #导入下载过的xlwt

#用谷歌找到对应的网页，按f12进入检查

　　 #NetWork,XHR里面有一个headers里面找
headers={

    #第一个电脑和服务器信息，

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36',#电脑和服务器信息

    #第二个是你从哪里进入的拉钩网，没有这个以为是机器人访问。

    'Referer':'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',

    #第三个为了辨别身份，有的网站需要，有的不需要

    'Cookie':'user_trace_token=20170921093258-cc8e4c13-9e6c-11e7-9d07-525400f775ce; LGUID=20170921093258-cc8e52b6-9e6c-11e7-9d07-525400f775ce; index_location_city=%E5%85%A8%E5%9B%BD; JSESSIONID=ABAAABAACEBACDGD4C15CDA891A7242B76AA4F9B7450B8B; _gat=1; PRE_UTM=; PRE_HOST=www.sogou.com; PRE_SITE=https%3A%2F%2Fwww.sogou.com%2Flink%3Furl%3DhedJjaC291NlQquFD-D9iKfCABISWiMgDLW1Nx6fG3psqHL_zYlG_a3mlRzfPLR2; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Fgongsi%2Fj75915.html; TG-TRACK-CODE=index_search; _gid=GA1.2.405703854.1505957562; _ga=GA1.2.1930895945.1505957562; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1505957579,1505957596,1505957630,1505969456; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1505969469; LGSID=20170921125112-7dcd03f6-9e88-11e7-9d2f-525400f775ce; LGRID=20170921125125-85aaed04-9e88-11e7-91fb-5254005c3644; SEARCH_ID=746090bf111a497aa55f7f1b8dabffd2'#来路，你是从哪个页面点入的

}

#data对应的是分页pn为1就相当于第一页

def getJobList(page):

    data={

        'first':'false',

        'pn': page,

        'kd': 'python'

    }

    #发起一个post请求，指的当前网页的链接

    res=requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult='

'false&isSchoolJob=0',data=data,headers=headers)

    result=res.json()#将里面的数据以json格式展示类似于（key,value）

    jobs=result['content']['positionResult']['result'] #每个对应查找

    return jobs#结果返回

excelTabel= xlwt.Workbook()#创建excel对象

sheet1=excelTabel.add_sheet('lagou',cell_overwrite_ok=True)

sheet1.write(0,0,'公司名')#公司名

sheet1.write(0,1,'城市')#城市

sheet1.write(0,2,'地区')#地区

sheet1.write(0,3,'全职/简直')#全职/简直

sheet1.write(0,4,'薪资')#薪资

sheet1.write(0,5,'职位')#职位

sheet1.write(0,6,'工作年限')#工作年限

sheet1.write(0,7,'公司规模')#公司规模

sheet1.write(0,8,'学历')#学历

n=1

for page in range(1,31):#循环输出每一页

    for job in getJobList(page=page):

        #下面的if判断可以加也可以不加

        if '1-3'in job['workYear'] and '后端开发'in job['secondType'] and '本科'in job['education']: # and '朝阳区'in job['district']

            sheet1.write(n,0,job['companyFullName'])#公司名

            sheet1.write(n,1,job['city'])#城市

            sheet1.write(n,2,job['district'])#地区

            sheet1.write(n,3,job['jobNature'])#全职/简直

            sheet1.write(n,4,job['salary'])#薪资

            sheet1.write(n,5,job['secondType'])#职位

            sheet1.write(n,6,job['workYear'])#工作年限

            sheet1.write(n,7,job['companySize'])#公司规模

            sheet1.write(n,8,job['education'])#学历

            n+=1

#打印到wps的表格里面

excelTabel.save('lagou.xlsx')

其实准备好图片的单不知道怎么插入到上面，

但是复制上面代码可以爬取出数据然后再慢慢研究（headers里面的根据个人的不同来更换）

python3 :

　　　　输入和输出

　　　　　　　　str():函数返回一个用户易读的表达形式

　　　　　　　　　　　　str.format()替换输出语句中的{}，跟其他字符串拼接

　　　　　　　　repr():产生一个解析器易读的表达形式

　　　　　　　　　　　　repr()函数可以转义字符串中的特殊字符

　　　　　　　　　　　　repr()的参数可以是python的任何对象

　　　　读和写文件

　　　　　　　　open(filename,mode)将会返回一个file对象

　　　　　　　　　　　　filename:变量是一个包含了你要访问的文件名得字符串

　　　　　　　　　　　　mode:决定了打开文件的模式，默认的是只读

　　　　　　　　f=open('c\foo.txt',w):

　　　　　　　　str=f.read()

　　　　　　　　print(str)

　　　　　　　　f.close():关闭打开的文件

　　　　　　　　f.readline():会从文件中读取单独的一行

　　　　　　　　f.readlines():返回文件中包含的所有行

　　　　　　　　f.write('aaaa'):将aaaa写入到文件中，然后返回写入的文件字符数

　　　　　　　　f.tell()返回当前对象所处的位置

　　　　　　　　f.seek()：改变文件当前位置

python3爬取拉钩招聘数据的更多相关文章

Python 爬取拉钩
... from urllib import request from urllib import parse from urllib.error import URLError import jso ...
利用Crawlspider爬取腾讯招聘数据(全站，深度)
需求: 使用crawlSpider(全站)进行数据爬取 - 首页: 岗位名称,岗位类别 - 详情页:岗位职责 - 持久化存储代码: 爬虫文件: from scrapy.linkextractors ...
Python爬虫入门——使用requests爬取python岗位招聘数据
爬虫目的使用requests库和BeautifulSoup4库来爬取拉勾网Python相关岗位数据爬虫工具使用Requests库发送http请求,然后用BeautifulSoup库解析HTML文 ...
CrawlSpider爬取拉钩
CrawlSpider继承Spider,提供了强大的爬取规则(Rule)供使用填充custom_settings,浏览器中的请求头 from datetime import datetime imp ...
21天打造分布式爬虫-Selenium爬取拉钩职位信息（六）
6.1.爬取第一页的职位信息第一页职位信息 from selenium import webdriver from lxml import etree import re import time c ...
python3爬取中国药学科学数据
今天我表弟说帮忙爬一下中国药学科学数据,导出json格式给他.一共18万条数据. 看了一下网站http://pharm.ncmi.cn/dataContent/admin/index.jsp?subm ...
python3 requests_html 爬取智联招聘数据（简易版）
PS重点:我回来了-----我回来了-----我回来了 1. 基础需要: python3 基础 html5 CS3 基础 2.库的选择: 原始库 urllib2 (这个库早些年的用过,后来淡忘了) ...
使用nodejs爬取拉勾苏州和上海的.NET职位信息
最近开始找工作,本人苏州,面了几家都没有结果很是伤心.在拉勾上按照城市苏州关键字.NET来搜索一共才80来个职位,再用薪水一过滤,基本上没几个能投了.再加上最近苏州的房价蹭蹭的长,房贷压力也是非常大, ...
使用request爬取拉钩网信息
通过cookies信息爬取分析header和cookies 通过subtext粘贴处理header和cookies信息处理后,方便粘贴到代码中爬取拉钩信息代码 import requests c ...

随机推荐

解决VS2005打开js,css,asp.php等文件,中文都是乱码的问题
用记事本打开可以正常观看但是用VS2005编辑器打开JS,中文确实乱码. 解决办法:在VS 2005 的设置里面选择自动检测Utf-8:“工具”->“选项”->“文本编辑器”->“自 ...
PLSQL Developer 12 汉化包下载
下载地址: https://www.allroundautomations.com/plsqldevlang/120/index.html
单点登录系统SSO实现
前些天被问到单点登录了,而据我当时做的这个模块两年了,现在重新温习并记录下,方便以后快速回忆起来一.什么是单点登录系统 SSO全称Single Sign On.SSO是用户只需要登录一次就可以访问所 ...
Vivotek 摄像头远程栈溢出漏洞分析及利用
Vivotek 摄像头远程栈溢出漏洞分析及利用近日,Vivotek 旗下多款摄像头被曝出远程未授权栈溢出漏洞,攻击者发送特定数据可导致摄像头进程崩溃. 漏洞作者@bashis 放出了可造成摄像头 C ...
【转】草根老师的 linux字符设备驱动详解
Linux 驱动之模块化编程 Linux 驱动之模块参数和符号导出 Linux 设备驱动之字符设备(一) Linux 设备驱动之字符设备(二) Linux 设备驱动之字符设备(三)
《python解释器源码剖析》第3章--python中的str对象
3.0 序我们知道python中的字符串属于变长对象,当然和int也是一样,底层的结构体实例所维护的数据的长度,在对象没有定义的时候是不知道的.当然如果是python2的话,底层PyIntObjec ...
C++中虚函数的作用和虚函数的工作原理
1 C++中虚函数的作用和多态虚函数: 实现类的多态性关键字:虚函数:虚函数的作用:多态性:多态公有继承:动态联编 C++中的虚函数的作用主要是实现了多态的机制.基类定义虚函数,子类可以重写该函数 ...
Cookie/Session的机制
Cookie的机制 Cookie是浏览器(User Agent)访问一些网站后,这些网站存放在客户端的一组数据,用于使网站等跟踪用户,实现用户自定义功能. Cookie的Domain和Path属性标识 ...
hive单机部署
hadoop,hbase,zookeeper安装好了,现在来安装hive hadoop 版本:2.8.4 hbase 版本:2.1.3 hive 版本:2.3.4 zookeeper 版本:3.4.1 ...
Python：多进程。
参考:https://www.liaoxuefeng.com/wiki/1016959663602400/1017628290184064 Python程序实现多进程(multiprocessing) ...

python3爬取拉钩招聘数据

python3爬取拉钩招聘数据的更多相关文章

随机推荐

热门专题