用一行Python进行数据收集探索

京东云技术新知 2024-09-02 00:57:58 原文

简易的Pandas之路

任何使用Python数据的人都会熟悉Pandas包。Pandas是大多数行和列格式数据的go-to包。如果你没有Pandas，请确保在终端中使用pip install安装：

pip install pandas

现在，让我们看看Pandas包中的默认方法可以做些什么：

以下内容写给不知道上面发生了什么的新手：

任何Pandas数据帧都有一个.descripe（）返回上面的输出的方法。但是，此方法中没有注意到分类变量。在上面的示例中，输出中完全省略了“ method ”列。

让我们看看能不能解决这个问题。

Pandas分析

如果我告诉你仅用3行Python就可以产生以下统计信息，你会怎么想？但其实，如果不计算imports的话，总体上只用1行就够。

要点：类型，唯一值，缺失值
分位数统计信息：例如最小值，Q1，中位数，Q3，最大值，范围，四分位数范围
描述性统计数据：例如平均值，众数，标准偏差，总和，中位数绝对偏差，变异系数，峰度，偏度
常用值
直方图
高相关变量Spearman，Pearson和Kendall矩阵的相关性突出显示
缺失值矩阵，计数，热图和缺失值树状图

（功能列表直接来自Pandas Profiling GitHub）

好吧，我们可以使用Pandas Profiling软件包！要安装Pandas Profiling软件包，只需在终端中使用pip install即可：

pip install pandas_profiling

经验丰富的数据分析人员可能会因为这些数据的松散甚至乍一看之下的“华而不实”而嗤之以鼻，但这对于快速获得数据的第一手印象肯定是有用的：

我们首先看到的是概述，其中提供了关于数据和变量的一些非常高级的统计信息，以及变量之间的高相关性、高偏态性的警告等。

但这还不算什么。向下滚动我们会发现报告有多个部分，如果只是简单地用图片展示这个1行程序的输出是不足以完全呈现这些内容的，所以我制作了一个gif：

我强烈建议大家自己去探索一下这个包的特性，毕竟，这里提到的只是一行代码，在将来的数据分析中，这个包可能会对你非常有用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()

原文链接：https://towardsdatascience.com/exploring-your-data-with-just-1-line-of-python-4b35ce21a82d

以上信息来源于网络，由“京东云开发者社区”公众号编辑整理，不代表京东云立场。

点击“京东云”了解京东云数据工厂产品

欢迎点击“链接”了解更多精彩内容

用一行Python进行数据收集探索的更多相关文章

第三百五十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection) Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数 ...
如何用 Python 和 API 收集与分析网络数据？
摘自 https://www.jianshu.com/p/d52020f0c247 本文以一款阿里云市场历史天气查询产品为例,为你逐步介绍如何用 Python 调用 API 收集.分析与可视化数据.希 ...
数据挖掘（二）用python实现数据探索：汇总统计和可视化
今天我们来讲一讲有关数据探索的问题.其实这个概念还蛮容易理解的,就是我们刚拿到数据之后对数据进行的一个探索的过程,旨在了解数据的属性与分布,发现数据一些明显的规律,这样的话一方面有助于我们进行数据预处 ...
三十三 Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数值. 该机制叫做数据收集器(Stats Collector),可以通过 Crawler API 的属性 stats ...
探索 OpenStack 之（17）：计量模块 Ceilometer 中的数据收集机制
本文将阐述 Ceilometer 中的数据收集机制.Ceilometer 使用三种机制来收集数据: Notifications:Ceilometer 接收 OpenStack 其它服务发出的 noti ...
网站统计中的数据收集原理及实现（share）
转载自:http://blog.codinglabs.org/articles/how-web-analytics-data-collection-system-work.html 网站数据统计分析工 ...
使用nginx lua实现网站统计中的数据收集
导读网站数据统计分析工具是各网站站长和运营人员经常使用的一种工具,常用的有谷歌分析.百度统计和腾讯分析等等.所有这些统计分析工具的第一步都是网站访问数据的收集.目前主流的数据收集方式基本都是基于ja ...
python和数据科学(Anaconda)
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...
用 Python 排序数据的多种方法
用 Python 排序数据的多种方法目录 [Python HOWTOs系列]排序 Python 列表有内置就地排序的方法 list.sort(),此外还有一个内置的 sorted() 函数将一个可迭 ...

随机推荐

【CS224n-2019学习笔记】Lecture 1: Introduction and Word Vectors
附上斯坦福cs224n-2019链接:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/ 文章目录 1.课程简单介绍 1.1 本 ...
RabbitMQ整合Spring Booot【消费者补偿幂等问题】
如果消费者运行时候报错了 package com.toov5.msg.SMS; import org.springframework.amqp.rabbit.annotation.RabbitHa ...
Swift Json解析基础
func JSONToData(obj:Any) -> Data { //先判断是否可以转换 if !JSONSerialization.isValidJSONObject(obj) { ret ...
超级简单一分钟实现react-native屏幕适配
今天因为react-native的style只能给width和height设置数字没有react上的vw和vh 因为之前经常用vh vw 感觉不适应找到了一个新的方法使用Demension模块 ...
图解HTTP阅读笔记2
TCP协议:三次握手,C端——>SYN——>S端: S端——>SYN/ACK——>C端: C端——>ACK——>S端. 特点:字节流服务,把大块数据分割成以报文段为 ...
Linux-课后练习（第二章命令）20200217-2
PHP表单处理、会话管理、文件上传、文件处理、执行函数（10.8 第十六天）
表单处理服务器接收用户发过来的数据方式: $_GET 接收用户以GET方式发过来的数据 $_POST 接收用户以POST方式发过来的数据 $_COOKIE 接收用户COOKIE $_REQUEST ...
UVA - 1645 Count （统计有根树）（dp）
题意:输入n(n <=1000),统计有多少个n结点的有根树,使得每个深度中所有结点的子结点数相同.输出数目除以109+7的余数. 分析: 1.dp[i],i个结点的有根树个数 2.假设n=7, ...
Ubuntu 14.04 搭建 ftp
一.安装ftp服务器vsftpd $sudo apt-get update $sudo apt-get install vsftpd ftp服务器使用21端口,安装成功之后查看是否打开21端口 $ s ...
opencv 矩阵操作
OpenCv矩阵操作有很多函数有mask,代表掩码,如果某位mask是0,那么对应的src的那一位就不计算,mask要和矩阵/ROI/的大小相等大多数函数支持ROI,如果图像ROI被设置,那么只处 ...