pandas的基本功能(一)】的更多相关文章

第16天pandas的基本功能(一) 灵活的二进制操作 体现在2个方面 支持一维和二维之间的广播 支持缺失值数据处理 四则运算支持广播 +add - sub *mul /div divmod()分区和模运算(返回商和余数2个结果) 案例:a,b=divmod(一维矩阵) 空值处理 矩阵中空值用NaN代替 NaN+值=NaN np(numpy).nan表示空值 填充空值: fillna(value=值) np.nan == np.nan 结果为False 如果a矩阵和b矩阵中有空值 那么 a ==…
Select rows from a DataFrame based on values in a column -pandas 筛选 https://stackoverflow.com/questions/17071871/select-rows-from-a-dataframe-based-on-values-in-a-column-in-pandas pandas的筛选功能,跟excel的筛选功能类似,但是功能更强大. 在SQL数据中, 我们可以用这样的语句: select * from…
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 pandas发展了如此多年,所包含的功能已经覆盖了大部分数据清洗.分析场景,但仍然有着相当一部分的应用场景pandas中尚存空白亦或是现阶段的操作方式不够简洁方便. 今天我要给大家介绍的Python库pyjanitor就内置了诸多功能方法,可以在兼容pandas中数据框等数据结构的同时为pandas补充更多功能.它是对R中著名的数据清洗包j…
Pandas有两个主要的数据结构:Series和DataFrame. Series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签构成.来看下它的使用过程 In [1]: from pandas import Series,DataFrame In [2]: import pandas as pd In [3]: obj=Series([4,7,-5,3]) In [5]: obj Out[5]: 0    4 1    7 2   -5 3    3 dtype: int64…
Series 和 DataFrame还未构建完成的朋友可以参考我的上一篇博文:https://www.cnblogs.com/zry-yt/p/11794941.html 当我们构建好了 Series 和 DataFrame 之后,我们会经常使用哪些功能呢?引用上一章节中的场景,我们有一些用户的的信息,并将它们存储到了 DataFrame 中.因为大多数情况下 DataFrame 比 Series 更为常用,所以这里以 DataFrame 举例说明,但实际上很多常用功能对于 Series 也适用…
日期功能扩展了时间序列,在财务数据分析中起主要作用.在处理日期数据的同时,我们经常会遇到以下情况 - 生成日期序列 将日期序列转换为不同的频率 创建一个日期范围 通过指定周期和频率,使用date.range()函数就可以创建日期序列. 默认情况下,范围的频率是天.参考以下示例代码 - import pandas as pd datelist = pd.date_range('2020/11/21', periods=5) print(datelist) 输出结果: DatetimeIndex([…
到目前为止,我们了解了三种Pandas数据结构以及如何创建它们.接下来将主要关注数据帧(DataFrame)对象,因为它在实时数据处理中非常重要,并且还讨论其他数据结构. 一.系列基本功能 编号 属性或方法 描述 1 axes 返回行轴标签列表. 2 dtype 返回对象的数据类型(dtype). 3 empty 如果系列为空,则返回True. 4 ndim 返回底层数据的维数,默认定义:1. 5 size 返回基础数据中的元素数. 6 values 将系列作为ndarray返回. 7 head…
list like replace method dict like replace method regex expression import pandas as pd import numpy as np s = pd.Series([0,1,2,3,4]) s.replace(0,5) # single value to replace 0 5 1 1 2 2 3 3 4 4 dtype: int64 df = pd.DataFrame({'A':[0,1,2,3,4], "B"…
一:改变索引 reindex方法对于Series直接索引,对于DataFrame既可以改变行索引,也可以改变列索引,还可以两个一起改变. 1)对于Series In [2]: seri = pd.Series([4.5,7.2,-5.3,3.6],index = ['d','b','a','c']) In [3]: seri Out[3]: d 4.5 b 7.2 a -5.3 c 3.6 dtype: float64 In [4]: seri1 = seri.reindex(['a','b',…
一.重新索引 (1)reindex方式 obj = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4]) print(obj) obj.reindex(range(6), method='ffill')#使用ffill可以实现前向值填充 print(obj) 对于DataFrame,reindex只传递一个序列时,会重新索引结果的行. frame = pd.DataFrame(np.arange(9).reshape((3, 3)),i…