练习： bs4 简单爬取 + matplotlib 折线图显示（关键词，职位数量、起薪）

要看一种技术在本地的流行程度，最简单的就是找招聘网站按关键词搜索。

比如今天查到的职位数量是vue 1296个，react 1204个，angular 721个。国际上比较流行的是react，本地市场中vue倒更受欢迎。所以学习的话可以先考虑前两个。

比如我们可以功利化一点：某些语言的薪资中值比较低，或者某些语言职位数比较少，那么我们做做比较，去学点别的吗。

分为两步，第一步爬取并保存成文本文件；第二步读取和解析文本文件显示折线图。（数据存在本地更好，免得频繁扒着玩，对方网站恨我。所以分为两步）

第一个文件：

按关键词，扒取页面 https://sou.zhaopin.com/jobs/searchresult.ashx?jl=北京

按薪资区间分为几挡：1～6000，　　6001～12000,　　12001～20000,　　20001～30000,　　30001～99999

# -*- coding: utf-8 -*-

# coding=utf-8

import requests

import bs4

import urllib

def getPageTxt(url):

    headers = {

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}

    r = requests.get(url, headers=headers)

    soup = bs4.BeautifulSoup(r.content.decode("utf-8"), "lxml")

    mylist = soup.select('.search_yx_tj em')

    counts = mylist[0].text

    return counts

def getUrl(word, moneymin=0, moneymax=99999):

    url = "http://sou.zhaopin.com/jobs/searchresult.ashx?jl=北京&kw="

    url += word + "&p=1&isadv=0&isfilter=1&sf=" + str(moneymin) + "&st=" + str(moneymax)

    return url

# 一、查询关键词

word000 = "前端,python" #限最多6个值，中间半角逗号分隔

#word000 = "前端,python,php"

words = word000.split(",")

# 二、工资区间（最小值为0，最大值为99999）

moneys = [0, 6000, 12000, 20000, 30000, 99999]

money_min = list(map(lambda x: x+1, moneys[:-1]))    #[1, 6001, 12001, 20001, 30001]

money_max = list(map(lambda x: x, moneys[1:]))        #[6000, 12000, 20000, 30000, 99999]

print(money_min)

print(money_max)

# 三、url拼串，扒取页面，生成字典文件

'''

字典文件的结构为：（counts是职位数量，startmoney是起薪。这两个list，后面将用于生成折线图）

[

    {'key': '前端', 'counts': [1105, 4485, 4394, 1549, 393], 'startmoney': [1, 6001, 12001, 20001, 30001]},

    {'key': 'python', 'counts': [700, 2945, 4467, 2454, 984], 'startmoney': [1, 6001, 12001, 20001, 30001]}

]

'''

ulist = []

for word in words:

    li = {}

    counts = []

    for k in money_min:

        idx = money_min.index(k)  # 索引

        url = getUrl(word, money_min[idx], money_max[idx])    # 拼串

        counts.append(int(getPageTxt(url)))  # 扒取    ，并转换为数字，存入counts列表

    li["key"] = word

    li["counts"] = counts

    li["startmoney"] = money_min

    ulist.append(li)

print(ulist)

f = open("counts000.txt", "w")

f.write(str(ulist))

f.close()

第二个文件：

注意这里有个坑：json载入的字符串，必须是双引号

# -*- coding: utf-8 -*-

# coding=utf-8

import json

f = open('counts000.txt', 'r+')

ulliststring = f.read()

f.close()

ulliststring = ulliststring.replace("'", '"')  # 注意这里有个坑！！  json的标准格式：要求必须 只能使用双引号作为键 或者 值的边界符号，不能使用单引号，而且“键”必须使用边界符（双引号）

ullist = json.loads(ulliststring)

import matplotlib

import matplotlib.pyplot as plt

matplotlib.rcParams['font.sans-serif'] = ['SimHei']# 为了能显示中文（而不是显示一个框）

matplotlib.rcParams['font.family']='sans-serif'

matplotlib.rcParams['axes.unicode_minus'] = False   # 为了能显示负号（而不是显示一个框）

colornames = ['#ff0000', '#ccee00', '#00aa00','#0000ff', '#9900ff', '#ff0099']

plt.title('bj薪资、职位数量折线表', color='#ff33a0')

plt.xlabel('薪资区间')  # 设置X坐标轴标题

plt.ylabel('职位数量')  # 设置Y坐标轴表

plt.xlim(0, 35000)  # 设置坐标轴的范围

plt.ylim(0, 5000)

# plt.xticks([2,4])#设置x轴的标签间隔

# plt.yticks([4,16])#设置y轴的标签间隔

i = 0

for li in ullist:

    x = li["startmoney"]

    y = li["counts"]

    plt.plot(x, y, colornames[i])

    i += 1

plt.show()

写在后面：

可能会有些小bug，不做处理了：

比如colornames颜色我只设了6个，y轴最大值才设了5000，

折线图的x轴，代表的是起薪点。理想的应该是薪资区间的中值。

练习： bs4 简单爬取 + matplotlib 折线图显示（关键词，职位数量、起薪）的更多相关文章

用BeautifulSoup简单爬取BOSS直聘网岗位
用BeautifulSoup简单爬取BOSS直聘网岗位爬取python招聘 import requests from bs4 import BeautifulSoup def fun(path): ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
Golang+chromedp+goquery 简单爬取动态数据
目录 Golang+chromedp+goquery 简单爬取动态数据 Golang的安装下载golang软件解压golang 配置golang 重新导入配置 chromedp框架的使用实际的代 ...
Python简单爬取Amazon图片-其他网站相应修改链接和正则
简单爬取Amazon图片信息这是一个简单的模板,如果需要爬取其他网站图片信息,更改URL和正则表达式即可 1 import requests 2 import re 3 import os 4 de ...
一、python简单爬取静态网页
一.简单爬虫框架简单爬虫框架由四个部分组成:URL管理器.网页下载器.网页解析器.调度器,还有应用这一部分,应用主要是NLP配合相关业务. 它的基本逻辑是这样的:给定一个要访问的URL,获取这个ht ...
用python爬虫简单爬取笔趣网：类“起点网”的小说
首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供 ...
python之简单爬取一个网站信息
requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...
网DAI之家简单爬取
用requests和bs做个简单的爬取网DAI之家的例子. 只做笔记用. #!/usr/bin/python3 import requestsfrom bs4 import BeautifulSoup ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...

随机推荐

html5 知识点简单总结03
table表格 ----基本结构 table默认无边框(border) <table border="数值"> <tr> <th>表头</ ...
centos安装实用总结
1.常用软件安装: yum install -y bash-completion vim lrzsz wget expect net-tools nc nmap tree dos2unix htop ...
Python之PIL库的运用、GIF处理h
一.PIL库简介 PIL(Python Image Library)库是Python语言的第三方库,它支持图像存储.显示和处理,它能够处理几乎所有图片格式,可以完成对图像的缩放.剪裁.折叠以及像图片添 ...
highchart在IE8下面的显示问题解决
完整的代码: <!DOCTYPE HTML><html> <head> <meta http-equiv="Content-Type" c ...
Kali安装zmap简单介绍
zmap是一个非常方便的扫描器,跟nmap和masscan一样,不过区别在于zmap他快,号称是一小时扫遍整个互联网.主要使用方式是TCP SYN scan.TCP connectscan.UDP s ...
Ubuntu 16.04 LTS 安装 miniconda
Ubuntu 16.04 LTS 安装 miniconda 下载 miniocnda 的 bash 文件下载链接 https://conda.io/miniconda.html ,我选择的是 64-b ...
springboot 添加 jsp支持
idea 新建springboot项目 packageing:选择 war next 勾选web 添加jar包 <dependency> <groupId>org.apac ...
Java高级特性第15节解析XML文档(3) - JDOM和DOM4J技术
一.JDOM解析特征: 1.仅使用具体类,而不使用接口. 2.API大量使用了Collections类. Jdom由6个包构成: Element类表示XML文档的元素 org.jdom: 解析xml ...
Linux基础入门-用户及文件权限管理
一.Linux用户管理: 不同的用户的文件都是放在同一个物理磁盘上的甚至同一个逻辑分区或者目录里,但是由于Linux的用户管理和权限机制,不同用户不能轻易查看.修改彼此的文件. 1. 查看用户: wh ...
JavaWeb数据库长时间不访问断开链接解决思路
这几天开发的线上商超系统长时间不操作,会频繁的出现第一次登陆或者跟数据库操作有关的方法都会报500错误,很是鸡肋啊这个问题. 经过网上不断的探索,在知识的海洋里畅游了几分钟后我自己总结出一套方法,我用 ...

练习： bs4 简单爬取 + matplotlib 折线图显示 （关键词，职位数量、起薪）

练习： bs4 简单爬取 + matplotlib 折线图显示 （关键词，职位数量、起薪）的更多相关文章

随机推荐

热门专题

练习： bs4 简单爬取 + matplotlib 折线图显示（关键词，职位数量、起薪）

练习： bs4 简单爬取 + matplotlib 折线图显示（关键词，职位数量、起薪）的更多相关文章