第 9章数据分析案例：Python 岗位行情

9.1 数据爬取

（1）打开某招聘网站首页 https://www.lagou.com，选择“全国站”，在搜索栏输入 Python，单击“搜索”。

（2）滚动到底部可以看到只有 30 页。

（3）多次单击“下一页”，发现页面并没有全部刷新，猜测是 Ajax 动态加载数据，在Chrome 浏览器中打开开发者工具进行抓包分析，使用 XHR 过滤，刷新网页。找到positionAjax.json文件。

知道获取哪里的数据，接下来就是模拟请求了，单击 Headers 选项卡。

没有登录也能访问，说明 Cookies 请求可以不用设置，其他请求不变，接着是 POST提交的表单数据：

data = {

            'first': 'true',

            'pn': page,

            'kd': '数据分析师'

        }

first 表示是不是第一次加载，pn 是页码，kd 是搜索关键词，爬取时只修改页码，其他两个参数不变。

接着运行程序把数据写入 CSV 文件。

import requests

import json

import csv

import time

url = "https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"

# 请求网页

headers = {

    'origin': 'https://www.lagou.com',

    'referer': 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88/p-city_0?',

   "Cookie": "user_trace_token=20240109144522-22a864fb-165d-40a5-9106-c8c4dc0833be; _ga=GA1.2.714090013.1704782724; LGUID=20240109144524-b4c91de5-c00e-44ad-980e-8b390e6ce3cb; JSESSIONID=ABAABJAACEEACDC491607BADD16CFBD16DE05AEF3F65DE9; WEBTJ-ID=20240216172151-18db138e28a13c5-04d07b79f5d239-26001851-1327104-18db138e28b18fb; RECOMMEND_TIP=true; sensorsdata2015session=%7B%7D; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1708075312; _gid=GA1.2.1801299287.1708075312; privacyPolicyPopup=false; index_location_city=%E5%85%A8%E5%9B%BD; __lg_stoken__=8d209f0da8117a7f227ff5bcf85d5aee81ec638f51b321ab2499d1a1e55477b18a018cdb186c91a2755690b0a0d079fa17a47b5da95e94296d5b65e2fba66056f85d7d5c25a5; X_HTTP_TOKEN=eabfd70a31a2b04619267080711fa44a831f8c5fff; X_MIDDLE_TOKEN=b85d819be2e6990415429d15f75d4bb5; PRE_UTM=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; TG-TRACK-CODE=index_navigation; _gat=1; LGSID=20240216185902-8375e3ec-6a8d-4188-9d25-b1197100f1b1; PRE_HOST=link.zhihu.com; PRE_SITE=https%3A%2F%2Flink.zhihu.com%2F%3Ftarget%3Dhttps%253A%2F%2Fwww.lagou.com%2F; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1708081146; _ga_DDLTLJDLHH=GS1.2.1708080415.3.1.1708081145.60.0.0; LGRID=20240216185906-2a43cf92-b853-4adc-8867-683bfabe304d; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2218cecf7fb5136f-0d4d5589a6224f-26001951-1327104-18cecf7fb5283d%22%2C%22%24device_id%22%3A%2218cecf7fb5136f-0d4d5589a6224f-26001951-1327104-18cecf7fb5283d%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%A4%BE%E4%BA%A4%E7%BD%91%E7%AB%99%E6%B5%81%E9%87%8F%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC%22%2C%22%24latest_referrer%22%3A%22https%3A%2F%2Flink.zhihu.com%2F%3Ftarget%3Dhttps%253A%2F%2Fwww.lagou.com%2F%22%2C%22%24os%22%3A%22Windows%22%2C%22%24browser%22%3A%22Chrome%22%2C%22%24browser_version%22%3A%22121.0.0.0%22%7D%7D",

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36"

}

with open('lagou_jobs.csv', 'w', newline='', encoding='utf-8') as csvfile:

    fieldnames = ['position_id', 'position_name', 'company_size', 'finance_stage', 'city', 'salary', 'work_year', 'education', 'job_nature']

    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    writer.writeheader()

    count = 1  # 计数器

    for page in range(1, 10):

        data = {

            'first': 'true',

            'pn': page,

            'kd': '数据分析师'

        }

        response = requests.post(url=url, headers=headers, data=data, timeout=3)

        response = json.loads(response.content)

        # 获取数据

        result_data = response['content']['positionResult']['result']

        # 写入CSV文件

        for i in result_data:

            position_id = i['positionId']  # 职位Id

            position_name = i['positionName']  # 职位名称

            company_size = i['companySize']  # 公司规模

            finance_stage = i['financeStage']  # 融资阶段

            city = i['city']  # 城市

            salary = i['salary']  # 薪水

            work_year = i['workYear']  # 工作年限

            education = i['education']  # 教育背景

            job_nature = i['jobNature']  # 工作性质

            writer.writerow({

                'position_id': position_id,

                'position_name': position_name,

                'company_size': company_size,

                'finance_stage': finance_stage,

                'city': city,

                'salary': salary,

                'work_year': work_year,

                'education': education,

                'job_nature': job_nature

            })

        print("已经完成第{}页数据爬取".format(count))

        count += 1

        # 暂停一段时间，避免请求过于频繁

        time.sleep(1)

部分数据如表

打开 CSV 文件可以看到爬取的数据。数据有了，接下来就是准备开始数据可视化分析。在此之前，我们先要来了解数据分析的两个常用库 NumPy 与 pandas。

9.2 NumPy 库和 pandas 库

NumPy 库是科学计算的基础库，提供了一个多维数组对象（ndarray）和各种派生对象（如 Masked、arrays 和矩阵），以及各种加速数组操作的例程，包括数学、逻辑、图形变换、排序、选择、io、离散傅里叶变换、基础线性代数、基础统计、随机模拟等。

概念看上去很复杂，目前我们只了解 ndarray 常用的基本函数就够了，安装 NumPy 库可以通过 pip 命令（pip install numpy）或 Anaconda 库（conda install numpy）完成。

9.2.1 ndarray 数组

ndarray 是一个多维的数组对象，和 Python 自带的列表、元组等元素最大的区别就是后者元素的数据类型可以是不一样的，比如一个列表里可能存放着整型、字符串，而 ndarray中元素的数据类型必须是相同的。可以通过 NumPy 库提供的 array 函数来生成一个 ndarray数组，传入一个列表或元组即可创建。下面演示生成 ndarray 的多种方法，以及几个常用属性。

import numpy as np

print("1.生成一个一维数组:\n %s" % np.array([1, 2]))

print("2.生成一个二维数组:\n %s" % np.array([[1, 2], [3, 4]]))

print("3.生成一个元素初始值都为0的4行3列矩阵:\n %s" % np.zeros((4, 3)))

print("4.生成一个元素初始值都为1的3行4列矩阵:\n %s" % np.ones((3, 4)))

print("5.创建一个空数组，元素为随机值：\n %s" % np.empty([2, 3], dtype=int))

a1 = np.arange(0, 30, 2)

print("6.生成一个等间隔数字的数组:\n %s" % a1)

a2 = a1.reshape(3, 5)

print("7.转换数组的维度，比如把一维的转换为3行5列的数组:\n %s" % a2)

# ndarray常用属性

print("8.a1的维度: %d \t a2的维度：%d" % (a1.ndim, a2.ndim))

print("9.a1的行列数：%s \t a2的行列数：%s" % (a1.shape, a2.shape))

print("10.a1的元素个数：%d \t a2的元素个数：%d" % (a1.size, a2.size))

print("11.a1的元素数据类型：%s 数据类型大小：%s" % (a1.dtype, a1.itemsize))

运行代码，结果如下：

1.生成一个一维数组:

 [1 2]

2.生成一个二维数组:

 [[1 2]

 [3 4]]

3.生成一个元素初始值都为0的4行3列矩阵:

 [[0. 0. 0.]

 [0. 0. 0.]

 [0. 0. 0.]

 [0. 0. 0.]]

4.生成一个元素初始值都为1的3行4列矩阵:

 [[1. 1. 1. 1.]

 [1. 1. 1. 1.]

 [1. 1. 1. 1.]]

5.创建一个空数组，元素为随机值：

 [[  809116279  1885413932 -2124452662]

 [-2147455881  1701061164  1702259052]]

6.生成一个等间隔数字的数组:

 [ 0  2  4  6  8 10 12 14 16 18 20 22 24 26 28]

7.转换数组的维度，比如把一维的转换为3行5列的数组:

 [[ 0  2  4  6  8]

 [10 12 14 16 18]

 [20 22 24 26 28]]

8.a1的维度: 1 	 a2的维度：2

9.a1的行列数：(15,) 	 a2的行列数：(3, 5)

10.a1的元素个数：15 	 a2的元素个数：15

11.a1的元素数据类型：int32 数据类型大小：4

9.2.2 ndarray 数组的常用操作

下面介绍 ndarray 的常用操作，和 Python 中的列表类似，方法较多不用去记，使用时查询即可。

import numpy as np

# 1.访问数组

a1 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print("访问第一行: %s" % a1[0])

a1[0] = 2 # 修改数组中元素的值

print("访问第一列: %s" % a1[:, 0])

print("访问前两行:\n {}".format(a1[:2]))

print("访问前两列:\n {}".format(a1[:, :2]))

print("访问第二行第三列：{}".format(a1[1][9]))

# 2.通过take函数访问数组(axis参数代表轴)，put函数快速修改元素值

a2 = np.array([1, 2, 3, 4, 5])

print("take函数访问第二个元素：%s" % a2.take(1))

a3 = np.array([0, 2, 4])

print("take函数参数列表索引元素：%s" % a2.take(a3))

print("take函数访问某个轴的元素：%s" % a1.take(1, axis=1))

a4 = np.array([6, 8, 9])

a2.put([0, 2, 4], a4)

print("put函数快速修改特定索引元素的值：%s" % a2)

# 3.通过比较符访问元素

print("通过比较符索引满足条件的元素：%s" % a1[a1 > 3])

# 4.遍历数组

print("一维数组遍历：")

for i in a2:

    print(i, end=" ")

print("\n二维数组遍历：")

for i in a1:

    print(i, end=" ")

print("\n还可以这样遍历：")

for (i, j, k) in a1:

    print("%s - %s - %s" % (i, j, k))

# 5.insert插入元素(参数依次为数组，插入轴的标号，插入值，axis=0插入行，=1插入列)

a5 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

a5 = np.insert(a5, 0, [6, 6, 6], axis=0)

print("insert函数插入元素到第一行：\n %s " % a5)

# 6.delete删除元素(参数依次为数组，删除轴的标号，axis同上)

a5 = np.delete(a5, 0, axis=1)

print("delete函数删除第一列元素：\n %s" % a5)

# 7.copy深拷贝一个数组，直接赋值是浅拷贝

a6 = a5.copy()

a7 = a5

print("copy后的数组是否与原数组指向同一对象：%s" % (a6 is a5))

print("赋值的数组是否与原数组指向同一对象：%s" % (a7 is a5))

# 8.二维数组转一维数组，二维数组间数组合并

a8 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print("二维数组 => 一维数组：%s" % a8.flatten())

a9 = np.array([[1, 2, 3], [4, 5, 6]])

a10 = np.array([[7, 8], [9, 10]])

print("两个二维数组合并 => 一个二维数组：\n{}".format(np.concatenate((a9, a10), axis=1)))

# 9.数学计算(乘法是对应元素相乘，叉乘用.dot()函数)

a11 = np.array([[1, 2], [3, 4]])

a12 = np.array([[5, 6], [7, 8]])

print("数组相加：\n%s" % (a11 + a12))

print("数组相减：\n%s" % (a11 - a12))

print("数组相乘：\n%s" % (a11 * a12))

print("数组相除：\n%s" % (a11 / a12))

print("数组叉乘:\n%s" % (a11.dot(a12)))

# 10.其他

a12 = np.array([1, 2, 3, 4])

print("newaxis增加维度：\n %s" % a12[:, np.newaxis])

print("tile函数重复数组(重复列数，重复次数)：\n %s" % np.tile(a12, [2, 2]))

print("vstack函数按列堆叠：\n %s" % np.vstack([a12, a12]))

print("hstack函数按行堆叠：\n %s" % np.hstack([a12, a12]))

a13 = np.array([1, 4, 8, 2, 44, 77, -2, 1, 4])

a13.sort()

print("sort函数排序：\n %s" % a13)

print("unique函数去重：\n {}".format(np.unique(a13)))

运行结果如下：

访问第一行: [1 2 3]

访问第一列: [2 4 7]

访问前两行:

 [[2 2 2]

 [4 5 6]]

访问前两列:

 [[2 2]

 [4 5]

 [7 8]]

访问第二行第三列：6

take函数访问第二个元素：2

take函数参数列表索引元素：[1 3 5]

take函数访问某个轴的元素：[2 5 8]

put函数快速修改特定索引元素的值：[6 2 8 4 9]

通过比较符索引满足条件的元素：[4 5 6 7 8 9]

一维数组遍历：

6 2 8 4 9

二维数组遍历：

[2 2 2] [4 5 6] [7 8 9]

还可以这样遍历：

2 - 2 - 2

4 - 5 - 6

7 - 8 - 9

insert函数插入元素到第一行：

 [[6 6 6]

 [1 2 3]

 [4 5 6]

 [7 8 9]]

delete函数删除第一列元素：

 [[6 6]

 [2 3]

 [5 6]

 [8 9]]

copy后的数组是否与原数组指向同一对象：False

赋值的数组是否与原数组指向同一对象：True

二维数组 => 一维数组：[1 2 3 4 5 6 7 8 9]

两个二维数组合并 => 一个二维数组：

[[ 1  2  3  7  8]

 [ 4  5  6  9 10]]

数组相加：

[[ 6  8]

 [10 12]]

数组相减：

[[-4 -4]

 [-4 -4]]

数组相乘：

[[ 5 12]

 [21 32]]

数组相除：

[[0.2        0.33333333]

 [0.42857143 0.5       ]]

数组叉乘:

[[19 22]

 [43 50]]

newaxis增加维度：

 [[1]

 [2]

 [3]

 [4]]

tile函数重复数组(重复列数，重复次数)：

 [[1 2 3 4 1 2 3 4]

 [1 2 3 4 1 2 3 4]]

vstack函数按列堆叠：

 [[1 2 3 4]

 [1 2 3 4]]

hstack函数按行堆叠：

 [1 2 3 4 1 2 3 4]

sort函数排序：

 [-2  1  1  2  4  4  8 44 77]

unique函数去重：

 [-2  1  2  4  8 44 77]

9.2.3 pandas 库

pandas 库提供了快速处理结构化数据的大量数据结构和函数，有两种常见的数据结构，分别为 Series（一维的标签化数组对象）和 DataFrame（面向列的二维表结构）。

pandas 库安装：

pip install pandas

Series 是一维的标签化数组对象，和Python 自带的列表类似，每个元素由索引与值构成，数组中的值为相同的数据类型。

注意：np.nan 用来标识空缺数据。

Series 代码如下：

import pandas as pd

import numpy as np

s1 = pd.Series([1, 2, 3, np.nan, 5])

print("1.通过列表创建Series对象：\n%s" % s1)

s2 = pd.Series([1, 2, 3, np.nan, 5], index=['a', 'b', 'c', 'd', 'e'])

print("2.通过列表创建Series对象(自定义索引)：\n%s" % s2)

print("3.通过索引获取元素：%s" % s2['a'])

print("4.获得索引：%s" % s2.index)

print("5.获得值：%s" % s2.values)

print("6.和列表一样只支持分片的：\n{}".format(s2[0:2]))

s3 = pd.Series(pd.date_range('2014.1.17', periods=6))

print("7.利用date_range生成日期列表:\n%s" % s3)

代码运行结果如下：

1.通过列表创建Series对象：

0    1.0

1    2.0

2    3.0

3    NaN

4    5.0

dtype: float64

2.通过列表创建Series对象(自定义索引)：

a    1.0

b    2.0

c    3.0

d    NaN

e    5.0

dtype: float64

3.通过索引获取元素：1.0

4.获得索引：Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

5.获得值：[ 1.  2.  3. nan  5.]

6.和列表一样只支持分片的：

a    1.0

b    2.0

dtype: float64

7.利用date_range生成日期列表:

0   2014-01-17

1   2014-01-18

2   2014-01-19

3   2014-01-20

4   2014-01-21

5   2014-01-22

dtype: datetime64[ns]

DataFrame 具有面向列的二维表结构，类似于 Excel 表格，由行标签、列表索引与值三

部分组成，代码如下：

import pandas as pd

# 1.创建DataFrame对象

dict1 = {

 '学生': ["小红", "小绿", "小蓝", "小黄", "小黑", "小灰"],

 '性别': ["女", "男", "女", "男", "男", "女"],

  '年龄': np.random.randint(low=10, high=15, size=6),

}

d1 = pd.DataFrame(dict1)

print("1.用相等长度的列表组成的字典对象生成：\n %s" % d1)

d2 = pd.DataFrame(np.random.randint(low=60, high=100, size=(6, 3)),

 index=["小红", "小绿", "小蓝", "小黄", "小黑", "小灰"],

 columns=["语文", "数学", "英语"])

print("2.通过二维数组生成DataFrame: \n %s" % d2)

# 2.数据查看

print("3.head函数查看顶部多行(默认5行)：\n%s" % d2.head(3))

print("4.tail函数查看底部多行(默认5行)：\n%s" % d2.tail(2))

print("5.index查看所有索引：%s" % d2.index)

print("6.columns查看所有行标签：%s" % d2.columns)

print("7.values查看所有值:\n%s" % d2.values)

# 3.数据排序

print("8.按索引排序(axis=0行索引，=1列索引排序，ascending=False降序排列):\n%s"

 % (d2.sort_index(axis=0, ascending=False)))

print("9.按值进行排序：\n%s" % d2.sort_values(by="语文", ascending=False))

# 4.数据选择

print("9.选择一列或多列:\n{} {} ".format(d2['语文'], d2[['数学', '英语']]))

print("10.数据切片:\n{}".format(d2[0:1]))

print("11.条件过滤(过滤语文分数高于90的数据):\n{}".format(d2[d2.语文 > 90]))

print("12.loc函数行索引切片获得指定列数据：\n{}".format(d2.loc['小红':'小蓝', ['数学', '英语']]))

print("13.iloc函数行号切片获得指定列数据：\n{}".format(d2.iloc[4:6, 1:2]))

# 5.求和，最大/小值，平均值，分组

print("14.语文总分：{}".format(d2['语文'].sum()))

print("15.语文平均分：{}".format(d2['语文'].mean()))

print("16.数学最高分：{}".format(d2['数学'].max()))

print("17.英语最低分：{}".format(d2['英语'].min()))

# 6.数据输入输出(可以把数据保存到CSV或Excel中，也可以读取文件)

d1.to_csv('student_1.csv')

d3 = pd.read_csv('student_1.csv')

print("18.读取CSV文件中的数据：\n{}".format(d3))

d2.to_excel('student_2.xlsx', sheet_name="Sheet1")

d4 = pd.read_excel('student_2.xlsx', sheet_name="Sheet1")

print(("19.读取Excel文件中的数据：\n{}".format(d4)))

运行代码，结果如下：

1.用相等长度的列表组成的字典对象生成：

    学生 性别  年龄

0  小红  女  10

1  小绿  男  10

2  小蓝  女  10

3  小黄  男  12

4  小黑  男  14

5  小灰  女  13

2.通过二维数组生成DataFrame:

     语文  数学  英语

小红  60  83  74

小绿  97  83  80

小蓝  92  63  65

小黄  69  66  60

小黑  90  62  76

小灰  94  75  97

3.head函数查看顶部多行(默认5行)：

    语文  数学  英语

小红  60  83  74

小绿  97  83  80

小蓝  92  63  65

4.tail函数查看底部多行(默认5行)：

    语文  数学  英语

小黑  90  62  76

小灰  94  75  97

5.index查看所有索引：Index(['小红', '小绿', '小蓝', '小黄', '小黑', '小灰'], dtype='object')

6.columns查看所有行标签：Index(['语文', '数学', '英语'], dtype='object')

7.values查看所有值:

[[60 83 74]

 [97 83 80]

 [92 63 65]

 [69 66 60]

 [90 62 76]

 [94 75 97]]

8.按索引排序(axis=0行索引，=1列索引排序，ascending=False降序排列):

    语文  数学  英语

小黑  90  62  76

小黄  69  66  60

小蓝  92  63  65

小绿  97  83  80

小红  60  83  74

小灰  94  75  97

9.按值进行排序：

    语文  数学  英语

小绿  97  83  80

小灰  94  75  97

小蓝  92  63  65

小黑  90  62  76

小黄  69  66  60

小红  60  83  74

9.选择一列或多列:

小红    60

小绿    97

小蓝    92

小黄    69

小黑    90

小灰    94

Name: 语文, dtype: int32     数学  英语

小红  83  74

小绿  83  80

小蓝  63  65

小黄  66  60

小黑  62  76

小灰  75  97

10.数据切片:

    语文  数学  英语

小红  60  83  74

11.条件过滤(过滤语文分数高于90的数据):

    语文  数学  英语

小绿  97  83  80

小蓝  92  63  65

小灰  94  75  97

12.loc函数行索引切片获得指定列数据：

    数学  英语

小红  83  74

小绿  83  80

小蓝  63  65

13.iloc函数行号切片获得指定列数据：

    数学

小黑  62

小灰  75

14.语文总分：502

15.语文平均分：83.66666666666667

16.数学最高分：83

17.英语最低分：60

18.读取CSV文件中的数据：

   Unnamed: 0  学生 性别  年龄

0           0  小红  女  10

1           1  小绿  男  10

2           2  小蓝  女  10

3           3  小黄  男  12

4           4  小黑  男  14

5           5  小灰  女  13

19.读取Excel文件中的数据：

  Unnamed: 0  语文  数学  英语

0         小红  60  83  74

1         小绿  97  83  80

2         小蓝  92  63  65

3         小黄  69  66  60

4         小黑  90  62  76

5         小灰  94  75  97

9.3 用 Matplotlib 实现数据可视化

Matplotlib 是一个用于 2D 图表绘制的Python 库，用法也很简单，可以轻易地绘制出各种图表。

推荐通过 pip 命令行进行安装：

pip install matplotlib

9.3.1 Matplotlib 中文乱码问题

使用 Matplotlib 进行图表绘制，第一个遇到的问题就是中文乱码问题

解决方法如下：

解决方案一：重载配置文件

import matplotlib  as  plt

plt.rcParams['font.sans-serif'] = 'SimHei'  # 指定默认字体为黑体

plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

解决方案二:指定字体文件：在绘图时，可以指定支持中文的字体文件

import matplotlib.pyplot as plt

from matplotlib.font_manager import FontProperties

font = FontProperties(fname=r"/usr/share/fonts/truetype/arphic/uming.ttc")  # 指定字体文件路径

plt.xlabel(u'时间', fontproperties=font)  # 使用指定的字体绘制x轴标签

解决方案三：设置图形backend

import matplotlib.pyplot as plt

plt.switch_backend('agg')  # 切换到agg backend，该backend支持中文显示

解决方案四：使用Seaborn

Seaborn是一个基于Matplotlib的高级数据可视化库，它默认支持中文，因此使用Seaborn也是解决中文乱码问题的一种简单方法。

import seaborn as sns

import matplotlib.pyplot as plt

sns.lineplot([1, 2, 3], [4, 5, 6])

plt.title("中文标题")

plt.xlabel("横轴")

plt.ylabel("纵轴")

plt.show()

9.3.2 Matplotlib 绘制显示不全

如图所示，在绘制时可能会出现显示不全的情况，需要进行设置。

9.3.3 用 Matplotlib 生成图表并进行分析

先调用 pd.read_csv()函数读取存放爬取数据的 CSV 文件，接着针对不同的列进行数据分析。

公司规模

获取 data 里的公司规模数据，调用value_counts()函数统计频次，接着绘制饼图

import pandas as pd

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = 'SimHei'  # 指定默认字体为黑体

plt.rcParams['axes.unicode_minus'] = False

data =pd.read_csv('lagou_jobs.csv')

df = pd.DataFrame(data)

# 统计频次

company_size_counts = df['company_size'].value_counts()

# 绘制饼图

plt.figure(figsize=(8, 8))

plt.pie(company_size_counts, labels=company_size_counts.index, autopct='%1.1f%%', startangle=140)

plt.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.title('公司规模数据分布饼图')

plt.show()

2. 公司融资状态

获取 data 里的融资状态数据，调用

value_counts()函数统计频次，接着绘制饼图

import pandas as pd

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = 'SimHei'  # 指定默认字体为黑体

plt.rcParams['axes.unicode_minus'] = False

data =pd.read_csv('lagou_jobs.csv')

df = pd.DataFrame(data)

# 统计频次

company_size_counts = df['finance_stage'].value_counts()

# 绘制饼图

plt.figure(figsize=(8, 8))

plt.pie(company_size_counts, labels=company_size_counts.index, autopct='%1.1f%%', startangle=140)

plt.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.title('公司融资数据分布饼图')

plt.show()

![image]

公司城市分布

获取 data 里的城市数据，调用value_counts()函数统计频次，接着绘制饼图。

import pandas as pd

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = 'SimHei'  # 指定默认字体为黑体

plt.rcParams['axes.unicode_minus'] = False

data = pd.read_csv('lagou_jobs.csv')

df = pd.DataFrame(data)

# 统计频次

company_size_counts = df['city'].value_counts()

# 绘制饼图

plt.figure(figsize=(8, 8))

plt.pie(company_size_counts, labels=company_size_counts.index, autopct='%1.1f%%', startangle=140)

plt.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.title('公司城市分布分布饼图')

# 重新设置标签方向

plt.legend(loc='best')

plt.show()

4. 工作经验

获取 data 里的工作经验数据，调用value_counts()函数统计频次，接着分别绘制直方图和饼图。

import pandas as pd

import matplotlib.pyplot as plt

import matplotlib   as mpl

mpl.rcParams['font.sans-serif'] = 'SimHei'  # 指定默认字体为黑体

mpl.rcParams['axes.unicode_minus'] = False

data = pd.read_csv('lagou_jobs.csv')

df = pd.DataFrame(data)

# 获取工作经验数据并统计频次

experience_counts = df['work_year'].value_counts()

# 设置绘图参数

plt.figure(figsize=(10, 6))

bar_color = '#4c72b0'

# 绘制横向直方图

plt.barh(experience_counts.index, experience_counts, color=bar_color)

# 添加标题和标签

plt.title('工作经验分布直方图', fontsize=16)

plt.xlabel('频次', fontsize=12)

plt.ylabel('工作经验', fontsize=12)

# 添加网格线

plt.grid(axis='x', linestyle='--', alpha=0.5)

plt.show()

# 绘制饼图

plt.figure(figsize=(8, 8))

plt.pie(experience_counts, labels=experience_counts.index, autopct='%1.1f%%', startangle=140)

plt.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.title('工作经验数据分布饼图')

plt.legend(loc='best')

plt.show()

学历要求

获取 data 里的学历数据，调用value_counts()函数统计频次，接着绘制饼图。

import pandas as pd

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = 'SimHei'  # 指定默认字体为黑体

plt.rcParams['axes.unicode_minus'] = False

data = pd.read_csv('lagou_jobs.csv')

df = pd.DataFrame(data)

# 统计频次

company_size_counts = df['education'].value_counts()

# 绘制饼图

plt.figure(figsize=(8, 8))

plt.pie(company_size_counts, labels=company_size_counts.index, autopct='%1.1f%%', startangle=140)

plt.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.title('公司学历要求分布饼图')

# 重新设置标签方向

plt.legend(loc='best')

plt.show()

薪资

获取 data 里的薪资数据，调用value_counts()函数统计频次，接着绘制条形图。

import pandas as pd

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = 'SimHei'

plt.rcParams['axes.unicode_minus'] = False

data = pd.read_csv('lagou_jobs.csv')

df = pd.DataFrame(data)

# 提取最低薪资数据

salaries = df['salary'].str.split('-', expand=True)[0]

# 统计频次

salary_counts = salaries.value_counts()

# 提取薪资范围和对应的公司数量

salary_ranges = salary_counts.index

company_counts = salary_counts.values

# 绘制条形图

plt.bar(salary_ranges, company_counts, color='skyblue')

plt.xlabel('薪资范围')

plt.ylabel('公司数量')

plt.title('薪资频次分布图')

plt.show()

9.4 用 Wordcloud 库进行词云绘制

词云以词语为基本单位，用于更直观和艺术地展示文本，在 Python 中我们可以使用Wordcloud 库来实现精美的词云图。

9.4.1 Wordcloud 简介

我们可以进行词频统计，即统计每个词语出现的次数，然后按照比例生成词云。而生成词云可以利用 Wordcloud 库。

推荐通过 pip 命令进行安装：

pip install wordcloud

9.4.2 Wordcloud 构造函数与常用方法

构造函数

def __init__(self, font_path=None, width=400, height=200, margin=2,

    ranks_only=None, prefer_horizontal=.9, mask=None, scale=1,

    color_func=None, max_words=200, min_font_size=4,

    stopwords=None, random_state=None, background_color='black',

    max_font_size=None, font_step=1, mode="RGB",

    relative_scaling=.5, regexp=None, collocations=True,

    colormap=None, normalize_plurals=True):

参数详解

font_path：字体路径，就是绘制词云用的字体，如 monaco.ttf。
width：输出的画布宽度，默认为 400 像素。
height：输出的画布高度，默认为 200 像素。
margin：画布偏移，默认为 2 像素。
prefer_horizontal：词语水平方向排版出现的概率，默认为 0.9，垂直方向出现的概
率为 0.1。
mask：如果参数为空，则使用二维遮罩绘制词云。如果 mask 非空，设置的宽高
值将被忽略，遮罩形状被 mask，全白（#FFFFFF）的部分将不会绘制，其余部分
会用于绘制词云。比如 bg_pic = imread('读取一张图片.png')，背景图片的画布一定
要设置为白色（#FFFFFF），图片形状显示为其他颜色。可以用绘图工具将要显示
的形状复制到一个纯白色的画布上再保存。
scale：按照比例放大画布，比如设置为 1.5，则长和宽都是原画布的 1.5 倍。
color_func：生成新颜色的函数，如果为空，则使用 self.color_func。
max_words：显示的词的最大个数。
min_font_size：显示的最小字体的大小。
stopwords：需要屏蔽的词（字符串集合），为空则使用内置 stopwords。
random_state：如果给出了一个随机对象，则生成一个随机数。
background_color：背景颜色，默认为黑色。
max_font_size：显示的最大字体的大小。
font_step：字体步长，如果步长大于 1，会加快运算，但是可能导致结果出现较大的误差。
mode：当参数为"RGBA"，并且 background_color 不为空时，背景为透明，默认为RGB。
relative_scaling：词频和字体大小的关联性，默认为 5。
regexp：使用正则表达式分隔输入的文本。
collocations：是否包括两个词的搭配。
colormap：给每个单词随机分配颜色，若指定 color_func，则忽略该方法。
normalize_plurals：是否删除尾随的词语。

常见的几个函数

fit_words(frequencies)：根据词频生成词云。
generate(text)：根据文本生成词云。
generate_from_frequencies(frequencies[, ...])：根据词频生成词云。
generate_from_text(text)：根据文本生成词云。
process_text(text)：将长文本分词并去除屏蔽词（此处指英语，中文分词还需要用
其他库先实现，如fit_words(frequencies)）。
recolor([random_state, color_func, colormap])：对现有输出重新上色。重新上色会比重新生成整个词云快很多。
to_array()：转化为 numpy array。
to_file(filename)：输出到文件。

9.4.3 一个简单的词云

我们生成一个简单词云并用image绘出来

import wordcloud

from PIL import Image

import matplotlib.pyplot as plt

wcd = wordcloud.WordCloud(background_color='white')

text = 'hello world python windows css html javascript'

# 生成词云

wcd.generate(text) # Generate  wordcloud from text.

wcd.to_image()

从中可以看见单词很散，很少，我们对词云对象添加两个属性， repeat = true（重复）max_words (最大词数）

# 设置背景为白色，单词重复，词数限制，放大长宽

wcd1 = wordcloud.WordCloud(background_color='white',repeat=True,max_words=100,width=800,height=600,max_font_size=100)

wcd1.generate(text)

wcd1.to_image()

9.4.4 中文版词云

zh_hans_text = "自由、平等、公正、法治。自由、平等、公正、法治"

wcd_zh_hans = wordcloud.WordCloud(background_color='white',repeat=True,max_words=100,width=800,height=600,max_font_size=100)

wcd_zh_hans.generate(zh_hans_text)

wcd_zh_hans.to_image()

可以发现编码问题出现了

解决方案：修改 font path 为中文字体路径

中文字体路径在哪里找呢，在C:\Windows\Fonts

zh_hans_text = "自由、平等、公正、法治。自由、平等、公正、法治"

wcd_zh_hans = wordcloud.WordCloud(font_path='C:/Windows/Fonts/SimHei.ttf',background_color='white',repeat=True,max_words=100,width=800,height=600,max_font_size=100)

wcd_zh_hans.generate(zh_hans_text)

wcd_zh_hans.to_image()

自定义轮廓（根据图片）

import PIL

import wordcloud

import numpy as np

mask = np.array(PIL.Image.open('q.jpg'))

text = 'hello world python windows css html javascript'

# 设置背景为白色，单词重复，词数限制，放大长宽

wcd1 = wordcloud.WordCloud(background_color='white',mask=mask,repeat=True,max_words=100,width=800,height=600,max_font_size=100)

wcd1.generate(text)

wcd1.to_image()

使用此类脚本下载网站内容时应遵守网站的使用条款，以及相关的法律法规。

本系列文章皆做为学习使用，勿商用。