Pandas | 26 疏离数据

当任何匹配特定值的数据(NaN/缺失值，尽管可以选择任何值)被省略时，稀疏对象被“压缩”。一个特殊的SparseIndex对象跟踪数据被“稀疏”的地方。这将在一个例子中更有意义。所有的标准Pandas数据结构都应用了to_sparse方法 -

import pandas as pd

import numpy as np

ts = pd.Series(np.random.randn(10))

ts[2:-2] = np.nan

sts = ts.to_sparse()

print (sts)

输出结果：

0   -0.391926

1   -1.774880

2         NaN

3         NaN

4         NaN

5         NaN

6         NaN

7         NaN

8    0.642988

9   -0.373698

dtype: float64

BlockIndex

Block locations: array([0, 8])

Block lengths: array([2, 2])

为了内存效率的原因，所以需要稀疏对象的存在。

现在假设有一个大的NA DataFrame并执行下面的代码 -

import pandas as pd

import numpy as np

df = pd.DataFrame(np.random.randn(10000, 4))

df.ix[:9998] = np.nan

sdf = df.to_sparse()

print (sdf.density)

输出结果：

0.0001

通过调用to_dense可以将任何稀疏对象转换回标准密集形式 -

import pandas as pd

import numpy as np

ts = pd.Series(np.random.randn(10))

ts[2:-2] = np.nan

sts = ts.to_sparse()

print (sts.to_dense())

输出结果：

0   -0.275846

1    1.172722

2         NaN

3         NaN

4         NaN

5         NaN

6         NaN

7         NaN

8   -0.612009

9   -1.413996

dtype: float64

稀疏Dtypes

稀疏数据应该具有与其密集表示相同的dtype。目前，支持float64，int64和booldtypes。取决于原始的dtype，fill_value默认值的更改 -

float64 − np.nan
int64 − 0
bool − False

执行下面的代码来理解相同的内容 -

import pandas as pd

import numpy as np

s = pd.Series([1, np.nan, np.nan])

print (s)

print ("=============================")

s.to_sparse()

print (s)

输出结果：

0    1.0

1    NaN

2    NaN

dtype: float64

=============================

0    1.0

1    NaN

2    NaN

dtype: float64

Pandas | 26 疏离数据的更多相关文章

[数据清洗]-使用 Pandas 清洗“脏”数据
概要准备工作检查数据处理缺失数据添加默认值删除不完整的行删除不完整的列规范化数据类型必要的转换重命名列名保存结果更多资源 Pandas 是 Python 中很流行的类库,使用它可 ...
[数据清洗]- Pandas 清洗“脏”数据（二）
概要了解数据分析数据问题清洗数据整合代码了解数据在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的.我们尝试去理解数据的列/行.记录.数据格式.语义错误.缺失的条目以及错误的 ...
[数据清洗]- Pandas 清洗“脏”数据（三）
预览数据这次我们使用 Artworks.csv ,我们选取 100 行数据来完成本次内容.具体步骤: 导入 Pandas 读取 csv 数据到 DataFrame(要确保数据已经下载到指定路径) D ...
Python利用pandas处理Excel数据的应用
Python利用pandas处理Excel数据的应用最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做 ...
Pandas学习1 --- 数据载入
import numpy as np import pandas as pd 数据加载首先,我们需要将收集的数据加载到内存中,才能进行进一步的操作.pandas提供了非常多的读取数据的函数,分别应用 ...
[数据清洗]-Pandas 清洗“脏”数据（一）
概要准备工作检查数据处理缺失数据添加默认值删除不完整的行删除不完整的列规范化数据类型必要的转换重命名列名保存结果更多资源 Pandas 是 Python 中很流行的类库,使用它可 ...
【python基础】利用pandas处理Excel数据
参考:https://www.cnblogs.com/liulinghua90/p/9935642.html 一.安装第三方库xlrd和pandas 1:pandas依赖处理Excel的xlrd模块, ...
Python3 Pandas的DataFrame数据的增、删、改、查
Python3 Pandas的DataFrame数据的增.删.改.查一.DataFrame数据准备增.删.改.查的方法有很多很多种,这里只展示出常用的几种. 参数inplace默认为False,只 ...
Pandas透视表处理数据（转）
手把手教你用Pandas透视表处理数据(附学习资料) 2018-01-06 数据派THU 来源:伯乐在线 - PyPer 本文共2203字,建议阅读5分钟.本文重点解释pandas中的函数pivot ...

随机推荐

[转帖]linux基础知识大纲
linux基础知识大纲 https://blog.csdn.net/CSDN___LYY/article/details/80810403 1.Linux操作系统概述Linux操作系统的发展过程.创始 ...
Rider中Winform开发支持预览（5）
1.Rider .netCore3.0 winform设计器支持预览,这点vs目前还不支持. 2.不过winform下控件选择工具栏都是没有图标的
TensorFlow的数据读取机制
一.tensorflow读取机制图解首先需要思考的一个问题是,什么是数据读取?以图像数据为例,读取的过程可以用下图来表示假设我们的硬盘中有一个图片数据集0001.jpg,0002.jpg,0003 ...
前端学习：HTML的学习总结（图解）
.html 文件代码笔记前端学习:HTML的学习总结(图解) HTML简介 HTML基本标签 HTML表单标签 HTML内联框架标签和其他
html 图片滚动代码
我自己也在用的,网页常用!分享出来最简单易懂源码  <div id=butong_net_top style=overflow:hidden;hei ...
在 Windows 上的 Visual Studio 中使用 Python
地址:https://docs.microsoft.com/zh-cn/visualstudio/python/tutorial-working-with-python-in-visual-studi ...
【python】ConnectionRefusedError: [WinError 10061]
在测试接口过程中,由于各种原因服务端返回:10061,由于目标计算机积极拒绝,无法连接. 图一图二造成这种返回结果的可能原因:1.代码问题2.本机代理设置问题3.本地防火墙或者安全卫士之类的设置问 ...
第一篇 Scrum 冲刺博客
一.各个成员在 Alpha 阶段认领的任务姓名 Alpha 阶段认领的任务林剑峰用户信息页面:完成用户信息的上传石竞贤发布信息页面:完成用户图片上传云存储的功能,并且把发布信息上传到云数据库 ...
eclipse 将原工作空间配置导入新建工作空间
相信各位小伙伴使用eclipse开发的时候经常会遇到新建工作空间的时候, 但是每次新建工作空间之后都要重新配置空间.安装插件等等笔者曾经对此问题很是绝望. . . 后发现新建的工作空间可以导入其他工 ...
spring mybatis错误问题该怎么解决
1.org.apache.ibatis.exceptions.PersistenceExc org.apache.ibatis.exceptions.PersistenceException: ### ...

Pandas | 26 疏离数据

稀疏Dtypes

Pandas | 26 疏离数据的更多相关文章

随机推荐

热门专题