https://datawhalechina.github.io/pms50/#/chapter3/chapter3 如果你想了解两个变量如何相互改变,那么最佳拟合线就是常用的方法. 下图显示了数据中各组之间最佳拟合线的差异. 要禁用分组并仅为整个数据集绘制一条最佳拟合线,请从下面的 sns.lmplot()调用中删除 hue ='cyl'参数. 导入所需要的库 # 导入numpy库 import numpy as np # 导入pandas库 import pandas as pd # 导入m…
矩阵图 https://datawhalechina.github.io/pms50/#/chapter9/chapter9 导入所需要的库 import numpy as np # 导入numpy库 import pandas as pd # 导入pandas库 import matplotlib as mpl # 导入matplotlib库 import matplotlib.pyplot as plt import seaborn as sns # 导入seaborn库 %matplotl…
https://datawhalechina.github.io/pms50/#/chapter6/chapter6 边缘直方图 (Marginal Histogram) 边缘直方图具有沿 X 和 Y 轴变量的直方图. 这用于可视化 X 和 Y 之间的关系以及单独的 X 和 Y 的单变量分布. 这种图经常用于探索性数据分析(EDA). 导入所需要的库 # 导入numpy库 import numpy as np # 导入pandas库 import pandas as pd # 导入matplot…
排序 (Ranking) 包点图 (Dot Plot) 包点图表传达了项目的排名顺序,并且由于它沿水平轴对齐,因此您可以更容易地看到点彼此之间的距离. https://datawhalechina.github.io/pms50/#/chapter17/chapter17 导入所需要的库 import numpy as np # 导入numpy库 import pandas as pd # 导入pandas库 import matplotlib as mpl # 导入matplotlib库 im…
https://datawhalechina.github.io/pms50/#/chapter5/chapter5 计数图 (Counts Plot) 避免点重叠问题的另一个选择是增加点的大小,这取决于该点中有多少点. 因此,点的大小越大,其周围的点的集中度越高. 导入所需要的库 import numpy as np # 导入pandas库 import pandas as pd # 导入matplotlib库 import matplotlib as mpl import matplotli…
数据可视化实例分析 作者:白宁超 2017年7月19日09:09:07 摘要:数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息.但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂.为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察.然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,…
排序 (Ranking) 棒棒糖图 (Lollipop Chart) 棒棒糖图表以一种视觉上令人愉悦的方式提供与有序条形图类似的目的. https://datawhalechina.github.io/pms50/#/chapter16/chapter16 导入所需要的库 import numpy as np # 导入numpy库 import pandas as pd # 导入pandas库 import matplotlib as mpl # 导入matplotlib库 import mat…
第五章:高性能并行计算 一个反复被提及的反对使用Python进行高性能数值计算的言论是这种语言是动态解释型的,速度太慢.一种编译型低级语言,如C,能提供比它快几个数量级的运算速度.我们在第三章--使用IPython进行数值计算中已经引入了向量化这一概念表示了对这种观点的反对.NumPy 数组的运算速度甚至可以和C一样快,因为低速的Python循环可以使用快速的C循环替代.尽管有时会出现一些复杂的算法不能进行向量化或很难向量化,幸运的是我们还有其他的解决方案而不用丢弃所有的Python代码用C重写…
https://datawhalechina.github.io/pms50/#/chapter2/chapter2 关联 (Correlation) 关联图表用于可视化2个或更多变量之间的关系. 也就是说,一个变量如何相对于另一个变化. 带边界的气泡图 有时,您希望在边界内显示一组点以强调其重要性. 在这个例子中,你从数据框中获取记录,并用下面代码中描述的 encircle() 来使边界显示出来. 导入所需要的库 # 导入numpy库 import numpy as np # 导入pandas…
关联 (Correlation) 关联图表用于可视化2个或更多变量之间的关系. 也就是说,一个变量如何相对于另一个变化. 散点图(Scatter plot) 散点图是用于研究两个变量之间关系的经典的和基本的图表. 如果数据中有多个组,则可能需要以不同颜色可视化每个组. 在 matplotlib 中,您可以使用 plt.scatterplot() 方便地执行此操作. 导入需要的模块库 import numpy as np # 导入numpy库 import pandas as pd # 导入pan…