数据可视化实例（八）：边缘直方图（matplotlib，pandas）

https://datawhalechina.github.io/pms50/#/chapter6/chapter6

边缘直方图（Marginal Histogram）

边缘直方图具有沿 X 和 Y 轴变量的直方图。这用于可视化 X 和 Y 之间的关系以及单独的 X 和 Y 的单变量分布。这种图经常用于探索性数据分析（EDA）。

导入所需要的库

# 导入numpy库

import numpy as np

# 导入pandas库

import pandas as pd

# 导入matplotlib库

import matplotlib as mpl

import matplotlib.pyplot as plt

# 导入seaborn库

import seaborn as sns

# 在jupyter notebook显示图像

%matplotlib inline

设定图像各种属性

large = 22; med = 16; small = 12

            # 设置子图上的标题字体

params = {'axes.titlesize': large,

            # 设置图例的字体

          'legend.fontsize': med,

            # 设置图像的画布

          'figure.figsize': (16, 10),

            # 设置标签的字体

          'axes.labelsize': med,

            # 设置x轴上的标尺的字体

          'xtick.labelsize': med,

            # 设置整个画布的标题字体

          'ytick.labelsize': med,

          'figure.titlesize': large}

# 更新默认属性

plt.rcParams.update(params)

 # 设定整体风格

plt.style.use('seaborn-whitegrid')

# 设定整体背景风格

sns.set_style("white")

程序代码

# step1:导入数据

df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/mpg_ggplot2.csv")

# step2:创建子图对象与网格

    # 画布

fig = plt.figure(figsize = (16, 10),     # 画布大小_(16, 10)

                 dpi = 80,               # 分辨率

                 facecolor = 'white')    # 背景颜色，默认为白色

    # 网格

grid = plt.GridSpec(4,                   # 行数

                    4,                   # 列数

                    hspace = 0.5,        # 行与行之间的间隔

                    wspace = 0.2)        # 列与列之间的间隔

# step3:明确子图的位置

    # 确定如图所示散点图的位置

ax_main = fig.add_subplot(grid[:-1, :-1])

    # 确定如图所示右边直方图的位置

ax_right = fig.add_subplot(grid[:-1, -1], xticklabels = [], yticklabels = [])

    # 确定如图所示最底下直方图的位置

ax_bottom = fig.add_subplot(grid[-1, 0:-1], xticklabels = [], yticklabels = [])

# step4：散点图

    # category__Category是pandas的一种数据类型

    # astype__实现变量类型转换

    # cat__获取分类变量的类别

    # codes__按照类别编码

ax_main.scatter('displ',             # 横坐标

               'hwy',                # 纵坐标

                s = df.cty*4,        # 设置点的尺寸

               data = df,            # 所使用的数据

               c = df.manufacturer.astype('category').cat.codes,   # 颜色类别

                cmap = 'tab10',      # 调色板

                edgecolors = 'gray', # 边框颜色

                linewidths = 0.5,    # 线宽

                alpha = 0.9)          # 透明度

# step5:右边的直方图

ax_right.hist(df.hwy,                 # 需要绘图的变量

             40,                      # 需要分为多少段

             histtype = 'stepfilled', # 生成一个的线条轮廓

             orientation = 'horizontal',  # 方位__水平

             color = 'deeppink')      # 颜色__深粉色

# step6:底部的直方图

ax_bottom.hist(df.displ,                # 需要绘图的变量

              40,                       # 需要分为多少段

              histtype = 'stepfilled',  # 生成一个的线条轮廓

              orientation = 'vertical', # 方位__垂直

              color = 'deeppink')       # 颜色__深粉色

ax_bottom.invert_yaxis()

# step7:装饰图像

ax_main.set(title='Scatterplot with Histograms \n displ vs hwy',  # 设置标题

            xlabel='displ',             # 横坐标名称

            ylabel='hwy')               # 纵坐标名称

ax_main.title.set_fontsize(20)          # 设置标题字体大小

    # xaxis.label__x坐标轴的标题

    # yaxis.label__y坐标轴的标题

    # xticklabel__x坐标轴的标尺

    # yticklabel__y坐标轴的标尺

        # 遍历每一个对象并且修改其字体大小

for item in ([ax_main.xaxis.label, ax_main.yaxis.label] + ax_main.get_xticklabels() + ax_main.get_yticklabels()):

    item.set_fontsize(14)               # 修改字体大小

xlabels = ax_main.get_xticks().tolist() # 将散点图上的x坐标轴上的标尺提取后转换为list(一位小数)

ax_main.set_xticklabels(xlabels)        # 将xlabels中的数字设置为散点图上的坐标轴上的标尺

plt.show()                              # 显示图像

博文总结

matplotlib.pyplot.hist(x,bins=None,range=None, density=None, bottom=None, histtype='bar', align='mid', 
log=False, color=None, label=None, stacked=False, normed=None)

关键参数

x: 数据集，最终的直方图将对数据集进行统计

bins: 统计的区间分布

range: tuple, 显示的区间，range在没有给出bins时生效

density: bool，默认为false，显示的是频数统计结果，为True则显示频率统计结果，这里需要注意，频率统计结果=区间数目/(总数*区间宽度)，和normed效果一致，官方推荐使用density

histtype: 可选{'bar', 'barstacked', 'step', 'stepfilled'}之一，默认为bar，推荐使用默认配置，step使用的是梯状，stepfilled则会对梯状内部进行填充，效果与bar类似

align: 可选{'left', 'mid', 'right'}之一，默认为'mid'，控制柱状图的水平分布，left或者right，会有部分空白区域，推荐使用默认

log: bool，默认False,即y坐标轴是否选择指数刻度

stacked: bool，默认为False，是否为堆积状图

数据可视化实例（八）：边缘直方图（matplotlib，pandas）的更多相关文章

【Matplotlib】数据可视化实例分析
数据可视化实例分析作者:白宁超 2017年7月19日09:09:07 摘要:数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息.但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令 ...
数据可视化实例（九）：边缘箱形图（matplotlib，pandas）
https://datawhalechina.github.io/pms50/#/chapter7/chapter7 边缘箱形图 (Marginal Boxplot) 边缘箱图与边缘直方图具有相似的用 ...
数据可视化实例（三）：散点图（pandas，matplotlib，numpy）
关联 (Correlation) 关联图表用于可视化2个或更多变量之间的关系. 也就是说,一个变量如何相对于另一个变化. 散点图(Scatter plot) 散点图是用于研究两个变量之间关系的经典的和 ...
数据可视化实例（五）：气泡图（matplotlib，pandas）
https://datawhalechina.github.io/pms50/#/chapter2/chapter2 关联 (Correlation) 关联图表用于可视化2个或更多变量之间的关系. 也 ...
数据可视化实例（十四）：带标记的发散型棒棒糖图（matplotlib，pandas）
偏差 (Deviation) 带标记的发散型棒棒糖图 (Diverging Lollipop Chart with Markers) 带标记的棒棒糖图通过强调您想要引起注意的任何重要数据点并在图表中适 ...
数据可视化实例（十三）：发散型文本（matplotlib，pandas）
偏差 (Deviation) https://datawhalechina.github.io/pms50/#/chapter11/chapter11 发散型文本 (Diverging Texts) ...
数据可视化实例（十二）：发散型条形图（matplotlib，pandas）
https://datawhalechina.github.io/pms50/#/chapter10/chapter10 如果您想根据单个指标查看项目的变化情况,并可视化此差异的顺序和数量,那么散型条 ...
数据可视化实例（十一）：矩阵图（matplotlib，pandas）
矩阵图 https://datawhalechina.github.io/pms50/#/chapter9/chapter9 导入所需要的库 import numpy as np # 导入numpy库 ...
数据可视化实例（十七）：包点图（matplotlib，pandas）
排序 (Ranking) 包点图 (Dot Plot) 包点图表传达了项目的排名顺序,并且由于它沿水平轴对齐,因此您可以更容易地看到点彼此之间的距离. https://datawhalechina.g ...

随机推荐

centos 8分区方案
https://www.cnblogs.com/yogurtwu/p/10717001.html https://zhuanlan.zhihu.com/p/126308255 常见目录解释 Linux ...
基于JQuery的简单富文本编辑器
利用jQuery实现最简单的编辑器我试了很多种方法,目前最快捷能够实现及其简单的编辑可以使用 document.execCommand("ForeColor", "fa ...
安装allure测试报告
必须安装jdk1.8,配置环境变量一.环境准备 Windows10 jdk-9.0.1 二.下载并安装JDK 到Java的官网下载JDK安装包,地址:http://www.oracle.com/te ...
单数据盘或者很多数据盘mount挂载到某个目录
单数据盘挂载背景 /dev/sda盘挂载到/opt/data2,此目录有数据,且postgres进程在写入该目录单数据盘挂载操作方法 1)查看/opt/data2 目录下有哪些文件 #ls /opt ...
Ngnix 配置文件快速入门
转自https://www.cnblogs.com/knowledgesea/p/5175711.html 其实也没什么好说的,我想大部分人也不会在意nginx的实现原理啥的.服务器要部署的时候,把n ...
python基础--函数全解析
函数(重点) (1)初始函数在认识函数之前,我们先做如下的需求: 让你打印10次"我爱中国,我爱祖国".我们在接触函数之前是这样写的. print('我爱中国,我爱祖国') pr ...
Netty中的这些知识点，你需要知道！
一.Channel Channel是一个接口,而且是一个很大的接口,我们称之为“大而全”,囊括了server端及client端接口所需要的接口. Channel是一个门面,封装了包括网络I/O及相关的 ...
寓教于乐！一款游戏让你成为 Vim 高手！
我们都知道,Vim 是 Linux 下一种非常重要的文本编辑器,我们可以用它来看代码.改代码,很多高手直接将 Vim 打造成一款强大的 IDE 用来写代码. 但是,对于新手而言,Vim 相对于其它编辑 ...
Spring Cloud面试题万字解析（2020面试必备）
1.什么是 Spring Cloud? Spring cloud 流应用程序启动器是于 Spring Boot 的 Spring 集成应用程序,提供与外部系统的集成.Spring cloud Tas ...
ceph bluestore与 filestore 数据存放的区别
一. filestore 对象所在的PG以文件方式放在xfs文件中 1 查看所有的osd硬盘,跟其他linux其他硬盘一样,被挂载一个目录中. [root@hz-storage1 ~]# df -h ...

数据可视化实例（八）： 边缘直方图（matplotlib，pandas）

https://datawhalechina.github.io/pms50/#/chapter6/chapter6

边缘直方图 （Marginal Histogram）

导入所需要的库

设定图像各种属性

程序代码

博文总结

关键参数

数据可视化实例（八）： 边缘直方图（matplotlib，pandas）的更多相关文章

随机推荐

热门专题

数据可视化实例（八）：边缘直方图（matplotlib，pandas）

边缘直方图（Marginal Histogram）

数据可视化实例（八）：边缘直方图（matplotlib，pandas）的更多相关文章