序列(Series)是由一组数据(各种NumPy数据类型),以及一组与之相关的数据标签(索引)组成,序列不要求数据类型是相同的。

序列是一个一维数组,只有一个维度(或称作轴)是行(row),在访问序列时,只需要设置一个索引。pandas自动为序列创建了一个从0开始到N-1的序号,称作行的下标,行的位置。可以显式设置index参数,为每行设置标签,pandas把标签称作索引。用户可以通过索引、也可以通过位置来访问Series对象中的元素。

序列可以看作是索引到数据值的一个映射,一个索引对应一个数据值,这种结构就是有序的字典。

一,创建序列

序列的构造函数定义是:

pandas.Series(data=None, index=None, dtype=None, name=None, copy=False)

构造函数的参数:

  • data:传递给序列的数据,可以是ndarray、list或字典
  • index:设置轴的索引,索引值的个数与data参数的长度相同。如果没有设置index参数,那么默认值是 np.arange(n),或者 RangeIndex (0, 1, 2, …, n)。
  • dtype:设置序列元素的数据类型,如果没有设置,那么将推断数据类型
  • name:序列是一个多行的结构,name是序列的名称
  • copy:复制数据,默认值是false

索引的下标是自动生成的,从0开始,加1递增。对于序列的data,可以通过序列的属性values来访问;对于序列的索引,可以通过序列的属性index来访问。

1,使用ndarray或list创建序列

使用ndarray的一维数组,或者list来构造序列,序列包含两部分:索引和序列值,如下所示

>>> data=np.array(['a','b']) # data=['a','b']
>>> sd=pd.Series(data)
0 a
1 b
dtype: object

分析序列的输出:

最左侧的0和1是行索引,a和b是数据值。

在构造序列时,如果没有传递index参数,默认情况下,pandas分配了从 0 到  len(data)-1  的索引。

显式传递index参数

在构造函数中传递自定义的索引列表,索引的长度必须和data的长度相同,如下所示:

>>> sd=pd.Series(data,index=[101,102])
101 a
102 b
dtype: object

显式设置序列的name和index的name

序列是一维数组,只有一个维度,那就是row,在序列中为Index命名就是设置行轴的名称。

>>> sd=pd.Series(data=['a','b'],index=pd.Index([101,102],name='idx_name'),name='series_name')
idx_name
101 a
102 b
Name: series_name, dtype: object

序列看起来像多行一列的数据集,但是他们之间有本质的区别,多行一列是二维数组,有行名称和列名称,需要使用两个索引值来访问单个cell的数据,而序列只需要一个索引就可以访问元素值。

3,从字典构造序列

通过字典来创建Series,字典的key作为序列的索引标签,value作为对应Key的数据值:

>>> sdata = {'b': 12, 'a': 13}
>>> spd.Series(sdata)
b 12
a 13
dtype: int64

通过字典构建的序列,索引是标签(字符类型)。

二,序列的属性

序列对象包含的属性:

  • index:序列的索引
  • shape:序列的形状,表示各个维度的数量
  • array:把序列的数据值转换为Pandas数组
  • values:把序列的数据值转换为numpy数组
  • dtype:序列元素的数据类型
  • hasnan:序列是否包含nan
  • is_unique:序列的元素是否是唯一的

1,序列的索引

>>> sd.index
Int64Index([101, 102], dtype='int64', name='idx_name')

2,序列的shape

>>> sd.shape
(2,)

3,序列的PandasArray或ndarray数组

>>> sd.array
<PandasArray>
['a', 'b']
Length: 2, dtype: object
>>> sd.values
array(['a', 'b'], dtype=object)

三,序列数据的转换

转换序列数据值的类型:

Series.astype(self, dtype, copy=True, errors='raise', **kwargs)

把序列转换为NumPy数组:

Series.to_numpy(self, dtype=None, copy=False)

把序列转换为list:

Series.to_list(self)

四,访问序列的元素

序列元素的访问,可以通过索引和行标签,索引标签是在构造函数中通过index参数传递或构造的,而索引值(也可以称作序列的下标)是默认生成的,第一个元素的下标值是0,依次加1递增。

1,通过索引来访问序列

对于序列,通过索引来访问序列元素的格式是:Sereis[index],索引可以是整数,也可以是字符类型的标签:

>>> sd[102]
'b'

通过属性来访问序列的元素值

2,at和iat属性,用于访问序列的单个元素值

at属性通过索引访问单个序列值

>>> sd.at[102]
'b'

iat属性表示通过位置访问序列的单个元素值:

>>> sd.iat[0]
'a'

3,loc和iloc,通过序列的位置来访问元素

iloc:基于整数位置的索引,用于按位置选择序列元素

  • 单个位置索引,比如sd.iloc[1]
  • 位置索引的列表,比如 sd.iloc[[0,1]]
  • 整数序列,比如,sd.iloc[0:2]
  • 布尔值数组,sd.iloc[[True, False, True, False]]

loc:通过索引标签和布尔值数组来选择序列的元素

举个例子,通过整数位置来选择序列的元素:

>>> sd.iloc[0:2]
idx_name
101 a
102 b
Name: series_name, dtype: object

举个例子,通过索引的标签来选择序列的元素:

>>> sd.loc[[101,102]]
idx_name
101 a
102 b
Name: series_name, dtype: object

4,通过位置掩码(布尔索引数组)来访问序列的元素

在上面的例子中,[101,102] 称作索引数组,如果索引数据的元素类型是布尔类型,并且索引数组的元素数量和序列相同,那么把这种索引数组称作位置掩码。当位置为True时,表示选择该元素;当位置为False,表示不选择该元素。

>>> sd.loc[[True,False]]
idx_name
101 a
Name: series_name, dtype: object

5,获得懒惰迭代器

可以通过序列的__iter__()函数获得值的迭代器,也可以通过items()或iteritems()函数获得包含索引和值的元组的迭代器:

Series.__iter__(self)    #Return an iterator of the values.
Series.items(self) #Lazily iterate over (index, value) tuples.
Series.iteritems(self) #Lazily iterate over (index, value) tuples.

例如,通过items()函数获得序列的迭代器,并通过for循环来打印序列的值

>>> for t in sd.items():
... print(t)
...
('b', 12)
('a', 13)
('d', 14)
('c', 10)

五,序列的条件索引

按照条件选择序列的特定行,可以使用序列的loc或iloc属性,并使用布尔索引来筛选序列的数据行:

>>> sd.loc[sd>12]
a 13
d 14
dtype: int64

也可以使用逻辑表达式对条件进行组合计算:

>>> sd.loc[(sd>12) & (sd<14)]
a 13
dtype: int64
>>> sd.loc[(sd>12) | (sd<14)]
b 12
a 13
d 14
c 10
dtype: int64

注意,必须用小括号把两个逻辑表达式括起来,不然会报错:

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

查看序列的逻辑表达式的值:

>>> (sd>12) & (sd<14)
b False
a True
d False
c False
dtype: bool

六,序列的基本操作

1,删除元素的元素

根据行标签删除制定的元素

Series.drop(self, labels=None)

2,对序列元素执行条件查询

如果序列元素的值满足cond条件,返回other的值;如果不满足,返回元素的值。

Series.where(self, cond, other=nan, inplace=False)

3,把序列追加到一个序列末尾

把to_append序列追加到序列的末尾,设置ignore_index表示忽略原始序列的索引,重新创建一个索引:

Series.append(self, to_append, ignore_index=False, verify_integrity=False)

4,重索引

重索引是指按照新的索引对序列的元素进行重新排列,如果某个索引值不存在,就形成一个空洞,默认情况下,在空洞处插入缺失值:

Series.reindex(self, index=None, **kwargs)

参数 **kwargs 表示数据不固定的参数,其中有:

method:表示插补缺失值的方法,有效值有{None, ‘backfill’/’bfill’, ‘pad’/’ffill’, ‘nearest’}

  • None 表示插入缺失值nan
  • ‘backfill’/’bfill’:表示使用空洞之后的最近的有效值来填充
  • ‘pad’/’ffill’:表示使用空洞之前的最近的有效值来填充
  • ‘nearest’:表示使用最靠近空洞的有效值来填充

fill_value:填充的值,默认值是nan

参考文档:

pandas Series

pandas 学习 第2篇:Series -(创建,属性,转换和索引)的更多相关文章

  1. pandas 学习 第8篇:Index 对象 - (创建、转换、排序)

    Index对象负责管理轴标签.轴名称等元数据,是一个不可修改的.有序的.可以索引的ndarry对象.在构建Sereis或DataFrame时,所用到的任何数据或者array-like的标签,都会转换为 ...

  2. pandas 学习 第6篇:DataFrame - 数据处理(长宽格式、透视表)

    长宽格式的转换 宽格式是指:一列或多列作为标识变量(id_vars),其他变量作为度量变量(value_vars),直观上看,这种格式的数据比较宽,举个列子,列名是:id1.id2.var1.var2 ...

  3. pandas 学习 第3篇:Series - 数据处理(应用、分组、滚动、扩展、指数加权移动平均)

    序列内置一些函数,用于循环对序列的元素执行操作. 一,应用和转换函数 应用apply 对序列的各个元素应用函数: Series.apply(self, func, convert_dtype=True ...

  4. pandas 学习 第1篇:pandas基础 - 数据结构和数据类型

    pandas是基于NumPy构建的模块,含有使数据分析更快更简单的操作工具和数据结构,是数据分析必不可少的五个包之一.pandas包含序列Series和数据框DataFrame两种最主要数据结构,索引 ...

  5. Pandas 学习 第9篇:DataFrame - 数据的输入输出

    常用的数据存储介质是数据库和csv文件,pandas模块包含了相应的API对数据进行输入和输出: 对于格式化的平面文件:read_table() 对于csv文件:read_csv().to_csv() ...

  6. pandas 学习 第14篇:索引和选择数据

    数据框和序列结构中都有轴标签,轴标签的信息存储在Index对象中,轴标签的最重要的作用是: 唯一标识数据,用于定位数据 用于数据对齐 获取和设置数据集的子集. 本文重点关注如何对序列(Series)和 ...

  7. pandas 学习 第5篇:DataFrame - 访问数据框

    数据框是用于存储数据的二维结构,分为行和列,一行和一列的交叉位置是一个cell,该cell的位置是由行索引和列索引共同确定的.可以通过at/iat,或loc/iloc属性来访问数据框的元素,该属性后跟 ...

  8. pandas 学习 第十一篇:处理缺失值

    Pandas中的缺失值是指nan.None和NaT.如果需要把inf 和 -inf视为缺失值,需要设置 pandas的选项: pandas.options.mode.use_inf_as_na = T ...

  9. pandas 学习 第7篇:DataFrame - 数据处理(应用、操作索引、重命名、合并)

    DataFrame的这些操作和Series很相似,这里简单介绍一下. 一,应用和应用映射 apply()函数对每个轴应用一个函数,applymap()函数对每个元素应用一个函数: DataFrame. ...

随机推荐

  1. SpringBoot:CORS处理跨域请求的三种方式

    一.跨域背景 1.1 何为跨域? Url的一般格式: 协议 + 域名(子域名 + 主域名) + 端口号 + 资源地址 示例: https://www.dustyblog.cn:8080/say/Hel ...

  2. Winform中怎样在工具类中对窗体中多个控件进行操作(赋值)

    场景 需求是在窗体加载完成后掉用工具类的方法,工具类中获取窗体的多个控件对象进行赋值. 注: 博客主页: https://blog.csdn.net/badao_liumang_qizhi 关注公众号 ...

  3. 平时代码中用不到设计模式?Are you kidding me?

    引子 平时我是个反应非常慢的人.有多慢呢?大概是两年前有次团队内部开会时,我听到同学说平时代码中用不到设计模式,我当时没有回答.两年后我终于反应过来了:“Are you kidding me?我每天都 ...

  4. Java开发人员必备十大工具

    Java世界中存在着很多工具,从著名的IDE(例如Eclipse,NetBeans和IntelliJ IDEA)到JVM profiling和监视工具(例如JConsole,VisualVM,Ecli ...

  5. 使用Navicat Premium 比较PostgreSql数据库 dev环境与test环境差异

    Navicat Premium 功能很强大,支持不同数据库客户端的连接,并且使用工具可以生成两个库差异的sql脚本,方便dev与test环境表结构同步,具体操作方法如下 单击运行,实现两个库中模式表结 ...

  6. Bootstrap Bootstrap表格插件bootstrap-table配置与应用小结

    Bootstrap表格插件bootstrap-table配置与应用小结   by:授客 QQ:1033553122 1.   测试环境 win7 JQuery-3.2.1.min.js 下载地址: h ...

  7. 使用vue在开发中的一些小问题--利用环境变量做一些常量的定义

    1.集中式的环境配置: (1)使用vue-cli基本上不用去处理什么,只需要在config文件夹下的文件中配置写既可: module.exports = merge(prodEnv, { NODE_E ...

  8. IT 常用的网址

    IT 常用的网址 将图片转换成网络图片的网址:https://sm.ms/ 生成 ico 图标: http://www.bitbug.net/ 动画特效: https://daneden.github ...

  9. html-css___table属性(设置细线边框)

    border-collapse 属性设置表格的边框是否被合并为一个单一的边框 //设置table实线边框 table,td{ /*边框合并*/ border-collapse: collapse; b ...

  10. SQL Server关于AlwaysOn的理解

    (一)SQL Server-AlwaysOn 技术:SQL Server AlwaysOn 即“全面的高可用性和灾难恢复解决方案” 1.数据库级可用性-只读副本:SQL Server 2012-4个, ...