简易的Pandas之路

任何使用Python数据的人都会熟悉Pandas包。Pandas是大多数行和列格式数据的go-to包。如果你没有Pandas,请确保在终端中使用pip install安装:

pip install pandas

现在,让我们看看Pandas包中的默认方法可以做些什么:



以下内容写给不知道上面发生了什么的新手:

任何Pandas数据帧都有一个.descripe()返回上面的输出的方法。但是,此方法中没有注意到分类变量。在上面的示例中,输出中完全省略了“ method ”列。

让我们看看能不能解决这个问题。


Pandas分析



如果我告诉你仅用3行Python就可以产生以下统计信息,你会怎么想?但其实,如果不计算imports的话,总体上只用1行就够。

  • 要点:类型,唯一值,缺失值
  • 分位数统计信息:例如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
  • 描述性统计数据:例如平均值,众数,标准偏差,总和,中位数绝对偏差,变异系数,峰度,偏度
  • 常用值
  • 直方图
  • 高相关变量Spearman,Pearson和Kendall矩阵的相关性突出显示
  • 缺失值矩阵,计数,热图和缺失值树状图

(功能列表直接来自Pandas Profiling GitHub)

好吧,我们可以使用Pandas Profiling软件包!要安装Pandas Profiling软件包,只需在终端中使用pip install即可:

pip install pandas_profiling

经验丰富的数据分析人员可能会因为这些数据的松散甚至乍一看之下的“华而不实”而嗤之以鼻,但这对于快速获得数据的第一手印象肯定是有用的:

我们首先看到的是概述,其中提供了关于数据和变量的一些非常高级的统计信息,以及变量之间的高相关性、高偏态性的警告等。

但这还不算什么。向下滚动我们会发现报告有多个部分,如果只是简单地用图片展示这个1行程序的输出是不足以完全呈现这些内容的,所以我制作了一个gif:



我强烈建议大家自己去探索一下这个包的特性,毕竟,这里提到的只是一行代码,在将来 的数据分析中,这个包可能会对你非常有用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()

原文链接:https://towardsdatascience.com/exploring-your-data-with-just-1-line-of-python-4b35ce21a82d



以上信息来源于网络,由“京东云开发者社区”公众号编辑整理,不代表京东云立场。

点击“京东云”了解京东云数据工厂产品

欢迎点击“链接”了解更多精彩内容

用一行Python进行数据收集探索的更多相关文章

  1. 第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)

    第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection) Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数 ...

  2. 如何用 Python 和 API 收集与分析网络数据?

    摘自 https://www.jianshu.com/p/d52020f0c247 本文以一款阿里云市场历史天气查询产品为例,为你逐步介绍如何用 Python 调用 API 收集.分析与可视化数据.希 ...

  3. 数据挖掘(二)用python实现数据探索:汇总统计和可视化

    今天我们来讲一讲有关数据探索的问题.其实这个概念还蛮容易理解的,就是我们刚拿到数据之后对数据进行的一个探索的过程,旨在了解数据的属性与分布,发现数据一些明显的规律,这样的话一方面有助于我们进行数据预处 ...

  4. 三十三 Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)

    Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数值. 该机制叫做数据收集器(Stats Collector),可以通过 Crawler API 的属性 stats ...

  5. 探索 OpenStack 之(17):计量模块 Ceilometer 中的数据收集机制

    本文将阐述 Ceilometer 中的数据收集机制.Ceilometer 使用三种机制来收集数据: Notifications:Ceilometer 接收 OpenStack 其它服务发出的 noti ...

  6. 网站统计中的数据收集原理及实现(share)

    转载自:http://blog.codinglabs.org/articles/how-web-analytics-data-collection-system-work.html 网站数据统计分析工 ...

  7. 使用nginx lua实现网站统计中的数据收集

    导读网站数据统计分析工具是各网站站长和运营人员经常使用的一种工具,常用的有 谷歌分析.百度统计和腾讯分析等等.所有这些统计分析工具的第一步都是网站访问数据的收集.目前主流的数据收集方式基本都是基于ja ...

  8. python和数据科学(Anaconda)

    Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...

  9. 用 Python 排序数据的多种方法

    用 Python 排序数据的多种方法 目录 [Python HOWTOs系列]排序 Python 列表有内置就地排序的方法 list.sort(),此外还有一个内置的 sorted() 函数将一个可迭 ...

随机推荐

  1. Oracle IF-ELSE条件判断结构

    关于条件判断的几个函数: 一.IF-ELSE 判断语句1.IF 语法 IF 表达式 THEN ... END IF; 输入账号名 kiki 以登陆账号 declare v_name ):='& ...

  2. list实体数据分组

    比如查询获取了60000条数据进行批量插入数据库,一次直接插入6万可能不是很好,可以将6万条数据按照5000分成几组,每组批量插入5000条 List<T> list = new List ...

  3. window下mysql-proxy简单使用

    mysql-proxy是mysql官方提供的mysql中间件服务,上游可接入若干个mysql-client,后端可连接若干个mysql-server.它使用mysql协议,任何使用mysql-clie ...

  4. Spark 集群 任务提交模式

    Spark 集群的模式及提交任务的方式 本文大致的内容图 Spark 集群的两种模式: Standalone 模式 Standalone-client 任务提交方式 提交命令 ./spark-subm ...

  5. spring boot 实战教程

    二八法则 - get more with less Java.spring经过多年的发展,各种技术纷繁芜杂,初学者往往不知道该从何下手.其实开发技术的世界也符合二八法则,80%的场景中只有20%的技术 ...

  6. PyCharm下创建并运行我们的第一个Django项目

    PyCharm下创建并运行我们的第一个Django项目 准备工作: 假设读者已经安装好python 2x或3x,以及安装好Django,以及Pycharm 1. 创建一个新的工程 第一次运行Pycha ...

  7. GS 原理及破解 《0day安全》

    1.原理: 在main函数之前,会调用__security_init_cookie函数(win10,vs2017,release,x86): 进入__security_init_cookie函数内部: ...

  8. TD信息通(无课表)使用体验

    首先,在注册账户的时候,TD信息通还是比较严谨的.用户名字符数.密码字符数.邮箱格式等都有要求,我认为,这对App的长远发展来说,是很重要的一个细节.而且,在登陆之前,会有一项关于是否自动登陆的选择, ...

  9. 编程入门-Eclipse快捷键的使用

    编程入门-Eclipse快捷键的使用 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.设置代码的自动补全 1>.查看默认的补全的提示符(如下图所示,依次点击"wi ...

  10. PHP ~ 通过程序删除图片,同时删除数据库中的图片数据 和 图片文件

    删除单张图片 <?php         require_once '../../conn.php';              //连接数据库         $ID = $_GET['ID' ...