Python有很多可视化工具,本篇只介绍Matplotlib。

Matplotlib是一种2D的绘图库,它可以支持硬拷贝和跨系统的交互,它可以在Python脚本、IPython的交互环境下、Web应用程序中使用。该项目是由John Hunter于2002年启动的,其目的是为Python构建一个MATLAB式的绘图接口。如果结合使用一种GUI工具包(如IPython),Matplotlib还具有诸如缩放和平移等交互功能。它不仅支持各种操作系统上许多不同的GUI后端,而且还能将图片导出为各种常见的食量(vector)和光栅(raster)图:PDF、SVG、JPG、PNG、BMP、GIF等。

Matplotlib程序包


所谓“一图胜千言”,我们很多时候需要通过可视化的方式查看、分析数据,虽然Pandas中也有一些绘图操作,但是相比较而言,Matplotlib在绘图显示效果方面更加出色。Python为Matplotlib提供了一个方便的接口,我们可以通过Pyplot对Matplotlib进行操作,多数情况下,Pyplot的命令与MATLAB有些相似。

导入Matplotlib包进行简单的操作(此处需要安装pip install matplotlib):

import matplotlib.pyplot as plt#约定俗成的写法plt
#首先定义两个函数(正弦&余弦)
import numpy as np X=np.linspace(-np.pi,np.pi,256,endpoint=True)#-π to+π的256个值
C,S=np.cos(X),np.sin(X)
plt.plot(X,C)
plt.plot(X,S)
#在ipython的交互环境中需要这句话才能显示出来
plt.show()

输出结果:

绘图命令的基本架构及其属性设置


上面的例子我们可以看出,几乎所有的属性和绘图的框架我们都选用默认设置。现在我们来看Pyplot绘图的基本框架是什么,用过Photoshop的人都知道,作图时先要定义一个画布,此处的画布就是Figure,然后再把其他素材“画”到该Figure上。

1)在Figure上创建子plot,并设置属性

x=np.linspace(0,10,1000)#X轴数据
y1=np.sin(x)#Y轴数据
y2=np.cos(x**2)#Y轴数据 x**2即x的平方 plt.figure(figsize=(8,4)) plt.plot(x,y1,label="$sin(x)$",color="red",linewidth=2)#将$包围的内容渲染为数学公式
plt.plot(x,y2,"b--",label="$cos(x^2)$")
#指定曲线的颜色和线性,如‘b--’表示蓝色虚线(b:蓝色,-:虚线) plt.xlabel("Time(s)")
plt.ylabel("Volt")
plt.title("PyPlot First Example") '''
使用关键字参数可以指定所绘制的曲线的各种属性:
label:给曲线指定一个标签名称,此标签将在图标中显示。如果标签字符串的前后都有字符'$',则Matplotlib会使用其内嵌的LaTex引擎将其显示为数学公式
color:指定曲线的颜色。颜色可以用如下方法表示
英文单词
以‘#’字符开头的3个16进制数,如‘#ff0000’表示红色。
以0~1的RGB表示,如(1.0,0.0,0.0)也表示红色。
linewidth:指定权限的宽度,可以不是整数,也可以使用缩写形式的参数名lw。
''' plt.ylim(-1.5,1.5)
plt.legend()#显示左下角的图例 plt.show()

2)在Figure上创建多个子plot

如果需要绘制多幅图表的话,可以给Figure传递一个整数参数指定图表的序号,如果所指定序号的绘图对象已经存在的话,将不创建新的对象,而只是让它成为当前绘图对象。

fig1=plt.figure(2)
plt.subplot(211)
#subplot(211)把绘图区域等分为2行*1列共两个区域,然后在区域1(上区域)中创建一个轴对象
plt.subplot(212)#在区域2(下区域)创建一个轴对象
plt.show()

输出结果:

我们还可以通过命令再次拆分这些块(相当于Word中拆分单元格操作)

f1=plt.figure(5)#弹出对话框时的标题,如果显示的形式为弹出对话框的话
plt.subplot(221)
plt.subplot(222)
plt.subplot(212)
plt.subplots_adjust(left=0.08,right=0.95,wspace=0.25,hspace=0.45)
# subplots_adjust的操作时类似于网页css格式化中的边距处理,左边距离多少?
# 右边距离多少?这取决于你需要绘制的大小和各个模块之间的间距
plt.show()

输出结果:

3)通过Axes设置当前对象plot的属性

以上我们操作的是在Figure上绘制图案,但是当我们绘制图案过多,又需要选取不同的小模块进行格式化设置时,Axes对象就能很好地解决这个问题。

fig,axes=plt.subplots(nrows=2,ncols=2)#定一个2*2的plot
plt.show()

输出结果:

现在我们需要通过命令来操作每个plot(subplot),设置它们的title并删除横纵坐标值。

fig,axes=plt.subplots(nrows=2,ncols=2)#定一个2*2的plot
axes[0,0].set(title='Upper Left')
axes[0,1].set(title='Upper Right')
axes[1,0].set(title='Lower Left')
axes[1,1].set(title='Lower Right') # 通过Axes的flat属性进行遍历
for ax in axes.flat:
# xticks和yticks设置为空置
ax.set(xticks=[],yticks=[])
plt.show()

输出结果:

另外,实际来说,plot操作的底层操作就是Axes对象的操作,只不过如果我们不使用Axes而用plot操作时,它默认的是plot.subplot(111),也就是说plot其实是Axes的特例。

4)保存Figure对象

最后一项操作就是保存,我们绘图的目的是用在其他研究中,或者希望可以把研究结果保存下来,此时需要的操作时save。

plt.savefig(r"C:\Users\123\Desktop\save_test.png",dpi=520)#默认像素dpi是80

很明显保存的像素越高,内存越大。此处只是用了savefig属性对Figure进行保存。

另外,除了上述的基本操作之外,Matplotlib还有其他的绘图优势,此处只是简单介绍了它在绘图时所需要注意的事项,更多的属性设置请参考:https://matplotlib.org/api/

Seaborn模块介绍


前面我们简单介绍了Matplotlib库的绘图功能和属性设置,对于常规性的绘图,使用Pandas的绘图功能已经足够了,但如果对Matplotlib的API属性研究较为透彻,几乎没有不能解决的问题。但是Matplotlib还是有它的不足之处,Matplotlib自动化程度非常高,但是,掌握如何设置系统以便获得一个吸引人的图是相当困难的事。为了控制Matplotlib图表的外观,Seaborn模块自带许多定制的主题和高级的接口。

1)未加Seaborn模块的效果

import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt np.random.seed(sum(map(ord,"aesthetics")))
#首先定义一个函数用来画正弦函数,可帮助了解可以控制的不同风格参数
def sinplot(flip=1):
x=np.linspace(0,14,100)
for i in range(1,7):
plt.plot(x,np.sin(x+i*0.5)*(7-i)*flip)
sinplot()
plt.show()

输出结果:

2)加入Seaborn模块的效果

import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt # 添加了Seaborn模块 np.random.seed(sum(map(ord,"aesthetics")))
#首先定义一个函数用来画正弦函数,可帮助了解可以控制的不同风格参数
def sinplot(flip=1):
x=np.linspace(0,14,100)
for i in range(1,7):
plt.plot(x,np.sin(x+i*0.5)*(7-i)*flip)
#转换成Seaborn模块,只需要引入seaborn模块
import seaborn as sns#添加Seaborn模块
sinplot()
plt.show()

输出效果:

小编使用的jupyter notebook编辑器,使用与不使用Seaborn模块效果差别不明显。

使用Seaborn的优点有:

  1. Seaborn默认浅灰色背景与白色网格线的灵感来源于Matplotlib,却比Matplotlib的颜色更加柔和
  2. Seaborn把绘图风格参数与数据参数分开设置。

其中,Seaborn有两组函数对风格进行控制:axes_style()/set_style()函数和plotting_context()/set_context()函数。

axes_style()函数和plotting_context()函数返回参数字典,set_style()函数和set_context()函数设置Matplotlib。

使用set_style()函数

import seaborn as sns

'''
Seaborn有5种预定义的主题:
darkgrid(灰色背景+白网格)
whitegrid(白色背景+黑网格)
dark(仅灰色背景)
white(仅白色背景)
ticks(坐标轴带刻度)
默认的主题是darkgrid,修改主题可以使用set_style函数
'''
sns.set_style("whitegrid")
sinplot()#即上段代码中定义的函数
plt.show()

输出结果:

使用set_context()函数

'''
上下文(context)可以设置输出图片的大小尺寸(scale)
Seaborn中预定义的上下文有4种:paper、notebook、talk和poster
默认使用notebook上下文
'''
sns.set_context("poster")
sinplot()#即前文定义的函数
plt.show()

输出结果:

使用Seaborn“耍酷”

然而Seaborn不仅能够用来更改背景颜色,或者改变画布大小,还有其他很多方面的用途,比如下面的例子。

'''
Annotated heatmaps
================================
'''
import matplotlib.pyplot as plt
import seaborn as sns
sns.set() #通过加载sns自带数据库中的数据(具体数据可以不关心)
flights_long=sns.load_dataset("flights")
flights=flights_long.pivot("month","year","passengers") # 使用每个单元格中的数据值绘制一个热力图heatmap
sns.heatmap(flights,annot=True,fmt="d",linewidths=.5)
plt.show()

输出结果:

描述性统计图形概览


描述性统计是借助图表或者总结性的数值来描述数据的统计手段。数据挖掘工作的数据分析阶段,我们可借助描述性统计来描绘或总结数据的基本情况,一来可以梳理自己的思维,而来可以更好地向他人展示数据分析结果。数值分析的过程中,我们往往要计算出数据的统计特征,用来做科学计算的Numpy和Scipy工具可以满足我们的需求。Matplotlib工具可用来绘制图,满足图分析的需求。

1)制作数据

数据是自己制作的,主要包括个人身高、体重及一年的借阅图书量(之所以自己制作数据是因为不是每份真实的数据都可以进行接下来的分析,比如有些数据就不能绘制饼图,另一个角度也说明,此处举例的数据其实没有实际意义,只是为了分析二举例,但是不代表在具体的应用中这些分析不能发挥作用)。

另外,以下的数据显示都是在Seaborn库的作用下体现的效果。

# 案例分析
from numpy import array
from numpy.random import normal def getData():
heights=[]
weights=[]
books=[]
N=10000
for i in range(N):
while True:
#身高服从均值为172,标准差为6的正态分布
height=normal(172,6)
if 0<height:
break
while True:
#体重由身高作为自变量的线性回归模型产生,误差服从标准正态分布
weight=(height-80)*0.7+normal(0,1)
if 0<weight:
break
while True:
#借阅量服从均值为20,标准差为5的正态分布
number=normal(20,5)
if 0<=number and number<=50:
book='E' if number<10 else ('D' if number<15 else ('C' if number<20 else ('B' if number<25 else 'A')))
break
heights.append(height)
weights.append(weight)
books.append(book)
return array(heights),array(weights),array(books)
heights,weights,books=getData()

2)频数分析

(1)定性分析

柱状图和饼形图是对定性数据进行频数分析的常用工具,使用前需将每一类的频数计算出来。

柱状图。柱状图是以柱的高度来指代某类型的频数,使用Matplotlib对图书借阅量这一定性变量绘制柱状图的代码如下。(接上段代码)

from matplotlib import pyplot

#绘制柱状图
def drawBar(books):
xticks=['A','B','C','D','E']
bookGroup={}
#对每一类借阅量进行频数统计
for book in books:
bookGroup[book]=bookGroup.get(book,0)+1
#创建柱状图
#第一个参数为柱的横坐标
#第二个参数为柱的高度
#参数align为柱的对齐方式,以第一个参数为参考标准
pyplot.bar(range(5),[bookGroup.get(xtick,0) for xtick in xticks],align='center') #设置柱的文字说明
#第一个参数为文字说明的横坐标
#第二个参数为文字说明的内容
pyplot.xticks(range(5),xticks)
#设置横坐标的文字说明
pyplot.xlabel("Types of Students")
#设置纵坐标的文字说明
pyplot.ylabel("Frequency")
#设置标题
pyplot.title("Numbers of Books Students Read")
#绘图
pyplot.show()
drawBar(books)

输出结果:

饼形图。饼形图事宜扇形的面积来指代某类型的频率,使用Matplotlib对图书借阅量这一定性变量绘制饼形图的代码如下:

#绘制饼形图
def drawPie(books):
labels=['A','B','C','D','E']
bookGroup={}
for book in books:
bookGroup[book]=bookGroup.get(book,0)+1
#创建饼形图
#第一个参数是扇形的面积
#labels参数为扇形的说明文字
#autopct参数为扇形占比的显示格式
pyplot.pie([bookGroup.get(label,0) for label in labels],labels=labels,autopct='%1.1f%%')
pyplot.title("Number of Books Students Read")
pyplot.show()
drawPie(books)

输出结果:

(2)定量分析

直方图类似于柱状图,是用柱的高度来指代频数,不同的是其将定量数据划分为若干连续的区间,在这些连续的区间上绘制柱。

直方图。使用Matplotlib对身高这一定量变量绘制直方图的代码如下:

#绘制直方图
def drawHist(heights):
#创建直方图
#第一个参数为待绘制的定量数据,不同于定性数据,这里并没有实现进行频数统计
#第二个参数为划分的区间个数
pyplot.hist(heights,100)
pyplot.xlabel('Heights')
pyplot.ylabel('Frequency')
pyplot.title('Height of Students')
pyplot.show()
drawHist(heights)

输出结果:

累积曲线。使用Matplotlib对身高这一定量变量绘制累积曲线的代码如下:

#绘制累积曲线
def drawCumulativaHist(heights):
#创建累积曲线
#第一个参数为待绘制的定量数据
#第二个参数为划分的区间个数
#normal参数为是否无量纲化
#histtype参数为‘step’,绘制阶梯状的曲线
#cumulative参数为是否累积
pyplot.hist(heights,20,normed=True,histtype='step',cumulative=True)
pyplot.xlabel('Heights')
pyplot.ylabel('Frequency')
pyplot.title('Heights of Students')
pyplot.show()
drawCumulativaHist(heights)

输出结果:

3)关系分析

散点图。在散点图中,分别以自变量和因变量作为横坐标。当自变量与因变量线性相关时,散点图中的点近似分布在一条直线上。我们以身高作为自变量,体重作为因变量,讨论身高对体重的影响。使用Matplotlib绘制散点图的代码如下:

#绘制散点图
def drawScatter(heights,weights):
#创建散点图
#第一个参数为点的横坐标
#第二个参数为点的纵坐标
pyplot.scatter(heights,weights)
pyplot.xlabel('Heights')
pyplot.ylabel('Weight')
pyplot.title('Heights & Weight of Students')
pyplot.show()
drawScatter(heights,weights)

输出结果:

4)探索分析

箱型图。在不明确数据分析的目标时,我们对数据进行一些探索性的分析,可以知道数据的中心位置、发散程度及偏差程度。使用Matplotlib绘制关于身高的箱型图代码如下:

#绘制箱型图
def drawBox(heights):
#创建箱型图
#第一个参数为待绘制的定量数据
#第二个参数为数据的文字说明
pyplot.boxplot([heights],labels=['Heights'])
pyplot.title('Heights of Students')
pyplot.show()
drawBox(heights)

输出结果:

注:

  • 上四分位数与下四分位数的差叫四分位差,它是衡量数据发散程度的指标之一
  • 上界线和下界线是距离中位数1.5倍四分位差的线,高于上界线或者低于下界线的数据为异常值

描述性统计是容易操作、直观简洁的数据分析手段。但是由于简单,对于多元变量的关系难以描述。现实生活中,自变量通常是多元的:决定体重的不仅有身高,还有饮食习惯、肥胖基因等因素。通过一些高级的数据处理手段,我们可以对多元变量进行处理,例如,特征工程中,可以使用互信息方法来选择多个对因变量有较强相关性的自变量作为特征,还可以使用主成分分析法来消除一些冗余的自变量来降低运算复杂度。

参考书目:《数据馆员的Python简明手册》

 
 

python绘图 转的更多相关文章

  1. python绘图:matplotlib和pandas的应用

    在进行数据分析时,绘图是必不可少的模式探索方式.用Python进行数据分析时,matplotlib和pandas是最常用到的两个库.1.matplotlib库的应用准备工作如下:打开ipython,输 ...

  2. Python绘图工具Plotly的简单使用

    1.Plotly被称为史上最好的绘图工具之一,为了更好的展示金融数据的复杂性. Plotly的官方网站为:https://plot.ly/ python量化的关键是金融数据可视化,无论是传统的K线图, ...

  3. 【python笔记】使用matplotlib,pylab进行python绘图

    一提到python绘图,matplotlib是不得不提的python最著名的绘图库,它里面包含了类似matlab的一整套绘图的API.因此,作为想要学习python绘图的童鞋们就得在自己的python ...

  4. python绘图之seaborn 笔记

    前段时间学习了梁斌老师的数据分析(升级版)第三讲<探索性数据分析及数据可视化>,由于之前一直比较忙没有来得及总结,趁今天是周末有点闲暇时间,整理一下笔记: 什么是seaborn Seabo ...

  5. python绘图 matplotlib教程

    mark一个很好的python绘图教程 https://liam0205.me/2014/09/11/matplotlib-tutorial-zh-cn/

  6. python绘图入门

    python绘图入门 学习了:https://zhuanlan.zhihu.com/p/34200452 API:https://matplotlib.org/api/pyplot_api.html ...

  7. Python 绘图 cookbook

    目录 python绘图常见bug matplotlib包加载 解决中文绘图乱码解决方法 解决python中用matplotlib画多幅图时出现图形部分重叠的问题 python绘图常见bug matpl ...

  8. 分形、分形几何、数据可视化、Python绘图

    本系列采用turtle.matplotlib.numpy这三个Python工具,以分形与计算机图像处理的经典算法为实例,通过程序和图像,来帮助读者一步步掌握Python绘图和数据可视化的方法和技巧,并 ...

  9. python 绘图介绍

    1. python 绘图介绍 2. 函数 import numpy as np import matplotlib.pyplot as plt t = np.arange(0.0, 3.0, 0.01 ...

  10. Python绘图

    1.二维绘图 a. 一维数据集 用 Numpy ndarray 作为数据传入 ply 1. import numpy as np import matplotlib as mpl import mat ...

随机推荐

  1. 第05组 Beta冲刺(1/4)

    第05组 Beta冲刺(1/4) 队名:天码行空 组长博客连接 作业博客连接 团队燃尽图(共享): GitHub当日代码/文档签入记录展示(共享): 组员情况: 组员1:卢欢(组长) 过去两天完成了哪 ...

  2. Echarts在同一网页按顺序展示多图

    Echarts Page:同一网页按顺序展示多图 from pyecharts import Page page = Page("") page.add(pie).add(frie ...

  3. Django 1.11 bootstrap样式文件无法加载问题解决

    先吐槽一波,多看官方教程,多找对应版本解决方法,多思考!... 在调试模式下面,打开页面无法加载bootstrap.min.css样式,解决思路如下: 查看settings文件INSTALL_APP配 ...

  4. Huffman树与Huffman编码

    1.Huffman树 今天复习Huffman树.依稀记得自己被Huffman树虐的经历.还记得是7月份,我刚开始看数据结构与算法,根本看不懂Huffman树的操作.后来我终于悟出了Huffman树是怎 ...

  5. Python常用经典案例

    Python循环语句: 函数: 异常处理:  类和继承: 相信初学Python的我们对于好多语句都还不熟悉,经常会遇到不知道以前c语言上面的语句转换成Python语句是怎么样的,会出现错误的情况,因此 ...

  6. 深入解析ES6中的promise

    作者 | Jeskson来源 | 达达前端小酒馆 什么是Promise Promise对象是用于表示一个异步操作的最终状态(完成或失败)以及其返回的值. 什么是同步,异步 同步任务会阻塞程序的执行,如 ...

  7. VS Code 安装与配置(使用MSYS2环境与mingw-w64 编译环境)

     更正了顺序,之前不知道怎么回事,内容顺序乱了 力求完美.详细,所以希望懂的人留言指点一下. 目前已经开始添加原理解释,希望大家能分享一些gcc gdb C语言等方面优秀链接 后续会慢慢增添内容,修正 ...

  8. 【Gamma】“北航社团帮”发布说明——小程序v3.0

    目录 Gamma版本新功能 小程序v3.0新功能 新功能列表 新功能展示 这一版修复的缺陷 Gamma版本的已知问题和限制 小程序端 网页端 运行.安装与发布 运行环境的要求 安装与发布 小程序 网页 ...

  9. ASP.NET Core WebApi构建API接口服务实战演练

    一.ASP.NET Core WebApi课程介绍 人生苦短,我用.NET Core!提到Api接口,一般会想到以前用到的WebService和WCF服务,这三个技术都是用来创建服务接口,只不过Web ...

  10. Python【每日一问】28

    问: [基础题]:求 1+2!+3!+...+20! 的和 [提高题]:两个乒乓球队进行比赛,各出三人.甲队为 a,b,c 三人,乙队为 x,y,z 三人.已抽签决定比赛名单. 有人向队员打听比赛的名 ...