利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪

#通过输入的关键字，爬取北京地区某岗位的平均月薪

# -*- coding: utf-8 -*-

import re

import requests

import time

import lxml.html

from bs4 import BeautifulSoup

#------------------------------------------------定义函数：获取指定网页北京地区所有相关职位的月薪---------------------

def getSalary(url):

    headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    resp=requests.get(url,headers=headers)

    time.sleep(5)

    web_data = BeautifulSoup(resp.content, "lxml")

    firstlist=web_data.find_all('td')

    salarylist1=[]

    salarylist2=[]

    for i in firstlist:

        if 'zwyx' in str(i) and '面议' not in str(i):    #提取职位月薪，并存入salarylist1列表，月薪为面议时不统计

            salarylist1.append(str(i))                       #将列表转为字符串，并用正则表达式提取字符串里面的数字（即月薪），并存入salarylist2，此时列表中元素格式还是字符串

    salaryliststr='+'.join(salarylist1)

    reeq=re.compile(r'(\w[0-9]+)\w*')

    salarylist2=re.findall(reeq,salaryliststr)

    salarylist2=map(float,salarylist2)                       #将字符串格式的月薪转为float型

    return salarylist2                                      #以数字列表形式返回指定网页所有统计到的月薪

#-------------------------定义函数：统计智联招聘网站北京地区，招聘岗位名称包含keyword关键字所有岗位的平均月薪-------------

def getAverageSalary(keyword):

    url=r'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC&kw='+keyword+'&sm=0&p=1&kt=3'  #包含关键字的网站名

    headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    pagelist=[]

    salarylist=getSalary(url)         #提取第一页的招聘岗位月薪信息，并存入salarylist列表

    print salarylist

    while True:

        resp=requests.get(url,headers=headers)

        time.sleep(5)

        if resp.status_code!=200:

            break

        resp=resp.content

        reg=r'a href="(.*?)" class="next-page">下一页</a>'         #用于获取下一页地址的正则表达式

        reg=re.compile(reg)

        page=re.findall(reg,resp)

        if page!=[]:                                                      #如果未到检索的最后一页

            page1=re.split(r'href="',page[0])                             #提取当前页的下一页的网址，并赋给url

            if re.search('http',page1[-1]):

                pagelist.append(page1[-1])

                url=page1[-1]

                salarylist2=getSalary(url)

                #print 'salarylist',salarylist

                salarylist.extend(salarylist2)                          #将新提取的月薪信息存入salarylist列表

                #print 'salarylist2',salarylist

            else:

                break

        else:                                                              #已到检索到的最后一页，结束循环

            break

    salarylist=map(float,salarylist)

    if len(salarylist)!=0:

        averageSalary=sum(salarylist)/len(salarylist)

        return averageSalary,pagelist

    else:

        print '统计到的月薪列表为0，请检查网页是否正确！'

        return 0,[0,]

averageSalary,pagelist=getAverageSalary('CAE')     #爬取关键字为 CAE 的岗位平均月薪

print 'AverageSalary:',averageSalary

利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪的更多相关文章

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化
前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...
利用Python网络爬虫抓取微信好友的签名及其可视化展示
前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...
python-scrapy爬取某招聘网站(二)
首先要准备python3+scrapy+pycharm 一.首先让我们了解一下网站拉勾网https://www.lagou.com/ 和Boss直聘类似的网址设计方式,与智联招聘不同,它采用普通的页 ...
python-scrapy爬取某招聘网站信息(一)
首先准备python3+scrapy+mysql+pycharm... 这次我们选择爬取智联招聘网站的企业招聘信息,首先我们有针对的查看网站的html源码,发现其使用的是js异步加载的方式,直接从服务 ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...

随机推荐

sql 删除数据库表外键
--/第1步**********删除所有表的外键约束*************************/ DECLARE c1 cursor for select 'alter table ['+ ...
python3 实现简单的信用卡还款，取款转账功能V2
仅实现还款,取款,转账,信息查询功能程序结构: atm(函数主执行程序): #Author by Andy #_*_ coding:utf-8 _*_ import os,sys Father_pa ...
Caché数据库学习笔记（5）
目录 Cache数据库方法的RESTful封装 ================================================================ 因为对web serv ...
ASP.NET 控件前缀命名规范
标准控件 1 btn Button 2 chk CheckBox 3 ckl CheckedListBox 4 cmb ComboBox 5 dtp DateTimePicker 6 lb ...
CentOS 程序开机自启动方法总结
1.把启动程序的命令添加到/etc/rc.d/rc.local文件中 CentOS系统下管理开机自启动的配置文件是/etc/rc.d/rc.local,所以只需编辑这个文件,在里面加入相应的启动命令即 ...
使用cocos2d-x c++ Android静态库
在用cocos2d-x做Android开发时,每次clean后都会需要再次编译coco2d-x的库,十分耗时. 这里给出一个直接使用静态库而不用每次都编译源码的方法: 1\ 首先找到一个cocos2d ...
poj 2732 Countdown（East Central North America 2005）
题意:建一个家庭树,找出有第d代子孙的名字,按照要求的第d代子孙的数从大到小输出三个人名,如果有一样大小子孙数的,就按字母序从小到大将同等大小的都输出,如果小于三个人的就全输出. 题目链接:http: ...
JAVA RMI 实例
下面我将介绍一个完整的实例,让初学者能快速体验RMI的功用. 分为以下四个步骤 1. 创建远程接口及声明远程方法(HelloInterface.java)2. 实现远程接口及远程方法(继承Unicas ...
Oracle 数据库特殊查询总结
1. 查询本节点及本节点以下的所有节点: select * from table1 c start with c.p_id='0000000' connect by prior c.id=c.p_id ...
AutoCAD安装失败
问题一: Installing .NET Framework Runtime 4.0: D:\安装包\CAD\cad2012(x64)\Map3D2012(x64)\3rdParty\NET\4\wc ...

利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪

利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪的更多相关文章

随机推荐

热门专题