python爬取拉勾网职位数据

　　今天写的这篇文章是关于python爬虫简单的一个使用，选取的爬取对象是著名的招聘网站——拉钩网，由于和大家的职业息息相关，所以爬取拉钩的数据进行分析，对于职业规划和求职时的信息提供有很大的帮助。

　　完成的效果

　爬取数据只是第一步，怎样使用和分析数据也是一大重点，当然这不是本次博客的目的，由于本次只是一个上手的爬虫程序，所以我们的最终目的只是爬取到拉钩网的职位信息，然后保存到Mysql数据库中。最后中的效果示意图如下：

控制台输入

数据库显示

　　准备工作

　首先需要安装python，这个网上已经有很多的教程了，这里就默认已经安装python，博主使用的是python3.6,然后安装了requests、pymysql（连接数据库使用）和Mysql数据库。

　　分析拉勾网

　首先我们打开拉勾网，打开控制台，搜索java关键词搜索职位，选取北京地区，然后查看network一栏中的数据分析，查看第一个，是不是感觉它很像我们要拿到的请求地址，事实上不是的，这个打开之后是一个html，如果我们访问这个接口，拉钩会返回给我们一个结果，提示我们操作太频繁，也就是被拦截了。不过从这个页面可以看到，拉钩的网页用到了模板，这种加载数据的方式更加快速（大幅度提升），建议大家可以尝试使用一下（个人拙见）

　　不要气馁，我们接着往下找，可以看到一个“positionAjax”开头的请求，没错就它“https://www.lagou.com/jobs/positionAjax.jsonpx=default&city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false&isSchoolJob=0”，还是看图说话吧

　　找到请求地址之后，我们就开始写代码了。

　　先是导入requests和pymysql，然后requests的post方法访问上面找到的url，但是直接访问这个地址是会被拦截的，因为我们缺少所要传输的数据，和设置请求头，会被认为是非自然人请求的，加入请求头和数据，

     headers = {'Referer':'https://www.lagou.com/jobs/list_'+position+'?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput=',               'Origin':'https://www.lagou.com',                'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',

               'Accept':'application/json, text/javascript, */*; q=0.01',

               'Cookie':'JSESSIONID=ABAAABAAAGFABEFE8A2337F3BAF09DBCC0A8594ED74C6C0; user_trace_token=20180122215242-849e2a04-ff7b-11e7-a5c6-5254005c3644; LGUID=20180122215242-849e3549-ff7b-11e7-a5c6-5254005c3644; index_location_city=%E5%8C%97%E4%BA%AC; _gat=1; TG-TRACK-CODE=index_navigation; _gid=GA1.2.1188502030.1516629163; _ga=GA1.2.667506246.1516629163; LGSID=20180122215242-849e3278-ff7b-11e7-a5c6-5254005c3644; LGRID=20180122230310-5c6292b3-ff85-11e7-a5d5-5254005c3644; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1516629163,1516629182; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1516633389; SEARCH_ID=8d3793ec834f4b0e8e680572b83eb968'

               }

    dates={'first':'true',

           'pn': page,#页数

           'kd': position#搜索的职位

    }

　　加入请求头之后就可以请求了，控制台输出数据，可以看出是一个json数据，使用json方法处理之后，一步步找到我们想要的数据，可以看出全在“result”里面，那么我们就只拿到他就行了，

result=resp.json()['content']['positionResult']['result']

这个时候可以看到数据非常多，有30个左右，不过不用担心，都是英文单词，基本上可以才出意思。接下来我们就要怕这些数据存储到数据库中，以备日后分析使用。

　　连接mysql我使用的是pymysql，先建好数据库和数据表，然后在代码中加入配置信息

config={

    "host":"127.0.0.1",

    "user":"root",

    "password":"",

    "database":databaseName,

    "charset":"utf8"#防止中文乱码

}

　　加载配置文件，连接数据库

db = pymysql.connect(**config)

cursor = db.cursor()

sql=""#insert语句

cursor.execute（）

db.commit()  #提交数据

cursor.close()

db.close()#用完记得关闭连接

　　大功告成，这个时候拉钩的职位信息已经静静地躺在了你的数据库中，静待你的宠幸，拿到这些数据，你就可以进行一些分析了，比如平均工资水平、职位技能要求等。

　　因为篇幅有限，有些代码并没有粘贴出来，比如sql语句（这个sql写的挺长的），但是别担心，楼主已经把这个程序放入到github上面了，大家可以自行下载，github地址：https://github.com/wudb1993/pythonDemo如果觉得不错的话请在github上面点一下star，手打不易谢谢啦，欢迎大神拍砖。

python爬取拉勾网职位数据的更多相关文章

python爬取拉勾网职位信息-python相关职位
import requestsimport mathimport pandas as pdimport timefrom lxml import etree url = 'https://www.la ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
利用Python爬取朋友圈数据，爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
python爬取拉勾网数据并进行数据可视化
爬取拉勾网关于python职位相关的数据信息,并将爬取的数据已csv各式存入文件,然后对csv文件相关字段的数据进行清洗,并对数据可视化展示,包括柱状图展示.直方图展示.词云展示等并根据可视化的数据做 ...
node.js爬虫爬取拉勾网职位信息
简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Androi ...
爬虫实战(三) 用Python爬取拉勾网
目录 0.前言 1.初始化 2.爬取数据 3.保存数据 4.数据可视化 5.大功告成 0.前言最近,博主面临着选方向的困难(唉,选择困难症患者 >﹏<),所以希望了解一下目前不同岗位的就 ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...
如何使用python爬取网页动态数据
我们在使用python爬取网页数据的时候,会遇到页面的数据是通过js脚本动态加载的情况,这时候我们就得模拟接口请求信息,根据接口返回结果来获取我们想要的数据. 以某电影网站为例:我们要获取到电影名称以 ...

随机推荐

LAMP第三部分php,mysql配置
php配置 1. 配置disable_functiondisable_functions = eval,assert,popen,passthru,escapeshellarg,escapeshell ...
RSA加解密实现
RSA是由MIT的三位数学家R.L.Rivest,A.Shamir和L.Adleman[Rivest等1978, 1979]提出的一种用数论构造双钥的方法,被称为MIT体制,后来被广泛称之为RSA体制 ...
任务调度 -----> quartz 不同时间间隔调度任务
Quartz Quartz是OpenSymphony开源组织在Job scheduling领域又一个开源项目,它可以与J2EE与J2SE应用程序相结合也可以单独使用.Quartz可以用来创建简单或为运 ...
队列详解及java实现
导读栈和队列是有操作限制的线性表. 目录 1.队列的概念.特点.存储结构. 2.栈队列的java实现. 概念队列是一种在一端进行插入,而在另一端进行删除的线性表.1.队列的插入端称为队尾:队列的删 ...
关于swing的一些问题
-问题1 :Exception in thread "AWT-EventQueue-0" java.lang.ArrayIndexOutOfBoundsException: 1 & ...
微信小程序开发之模板
一.简介 WXML提供模板(template),可以在模板中定义代码片段,然后在不同的地方调用. 定义模板使用name属性,作为模板的名字.然后在<template/>内定义代码片段,如 ...
Head First设计模式之组合模式
一.定义将对象组合成树形结构来表现"整体-部分"层次结构. 组合能让客户以一致的方法处理个别对象以及组合对象. 主要部分可以被一致对待问题. 在使用组合模式中需要注意一点也是组合 ...
jQuery的get()post()getJson()方法
jQuery get() 和 post() 方法用于通过 HTTP GET 或 POST 请求从服务器请求数据. HTTP 请求:GET vs. POST 两种在客户端和服务器端进行请求-响应的常用方 ...
amaze UI 笔记 - CSS
导航添加依据 http://amazeui.org/css/ 下面内容属学习笔记,如有理解偏差和错误请留言相告,感谢!* =(官网这块写的很详细) 一.基本样式 1.统一样式说明了为什么使用Nor ...
I/O模型详细解析
内核空间和用户空间:由于操作系统都包括内核空间和用户空间(或者说内核态和用户态),内核空间主要存放的是内核代码和数据,是供系统进程使用的空间.而用户空间主要存放的是用户代码和数据,是供用户进程使用的空 ...

python爬取拉勾网职位数据

python爬取拉勾网职位数据的更多相关文章

随机推荐

热门专题