Pandas Series和DataFrame的基本概念

1，创建Series

1.1，通过iterable创建Series

Series接收参数是Iterable，不能是Iterator

pd.Series(Iterable)

可以多加一个index参数，index可以接收Iterator或者Iterable：

>>> pd.Series(('a', 'b'), index=iter(range(2)))

0    a

1    b

dtype: object

1.2，通过字典创建Series

key是索引：

>>> pd.Series({'a':1, 'b':2})

a    1

b    2

dtype: int64

2，Series常用方法

s = pd.Series([1, 2, 3], index=list('abc'))

Series也能像字典那样遍历：

for index, value in s.items():

    print(index, value, end=';')  # a 1;b 2;c 3;

和字典一样，Series的in测试默认是index操作，如果想对values操作需加上values：

print('a' in s)   # True

print(1 in s.values)  # True

获取series的values组成的列表：

print(s.tolist())   # [1, 2, 3]

3，创建DataFrame

3.1，通过iterable组成的列表创建DataFrame

[it1, it2, ..., itN]，每个it是一行数据，缺省的index, columns是从0开始的int

>>> pd.DataFrame([(1, 2, 3), [4, 5, 6], range(3, 6), 'abc'])

   0  1  2

0  1  2  3

1  4  5  6

2  3  4  5

3  a  b  c

it长度不等时会自动用NaN或者None填充：

>>> pd.DataFrame([(1, 2), [4, 5], range(3, 6), 'abc'])

   0  1     2

0  1  2  None

1  4  5  None

2  3  4     5

3  a  b     c

>>> pd.DataFrame([(1, 2, 3), [4, 5, 6], range(3, 6), 'ab'])

   0  1    2

0  1  2  3.0

1  4  5  6.0

2  3  4  5.0

3  a  b  NaN

指定index和columns：

>>> pd.DataFrame([(1, 2, 3), [4, 5, 6], range(3, 6), 'abc'], index=range(4), columns=list('ABC'))

   A  B  C

1  1  2  3

2  4  5  6

3  3  4  5

4  a  b  c

3.2，通过numpy矩阵创建DataFrame

np_data = np.random.random((3, 4))

np_data = np.arange(12).reshape(3, 4)

np_data = np.ones((3, 4))

df = pd.DataFrame(np_data)

3.3，通过“一键多值”创建DataFrame

创建dataframe，键是列名：

>>> pd.DataFrame({'a':[1, 2, 3], 'b': [4, 5, 6]})

   a  b

0  1  4

1  2  5

2  3  6

可以设置index：

>>> pd.DataFrame({'a':[1, 2, 3], 'b': [4, 5, 6]}, index=list('456'))

   a  b

4  1  4

5  2  5

6  3  6

创建df时更改columns会出问题：

>>> pd.DataFrame({'a':[1, 2, 3], 'b': [4, 5, 6]}, columns=list('AB'))

Empty DataFrame

Columns: [A, B]

Index: []

这种创建方法可以看做是按列创建df，需要事先建很多列表，最后一次性赋给df

3.4，通过“字典列表”创建DataFrame

pd.DataFrame([{'a':1 , 'b': 4},  {'a':2 , 'b': 5},  {'a':3 , 'b': 6}])

   a  b

0  1  4

1  2  5

2  3  6

这种方法只需要创建一个列表，然后不停往该列表里添加字典即可，推荐！

3.5，df.loc，df.iloc，df.ix等逐行/逐单元格创建DataFrame

事先创建好dataframe，然后用dfdf.loc，df.iloc，df.ix逐行逐单元格增加数据，例如：

df = pd.DataFrame()

for index, item in enumerate(zip('abcde', range(5))):

    df.loc[index, 'A'] = item[0]

    df.loc[index, 'B'] = item[1]

效率非常低，不推荐

4，SettingWithCopyWarning

对DataFrame的弱引用对象进行拷贝进行赋值会触发SettingWithCopyWarning。

通过bool序列筛选拿到的是dataframe的弱引用对象。对弱引用对象进行修改时，不会影响到原来的dataframe。

>>>df = pd.DataFrame(np.arange(16).reshape(4, 4), columns=list('ABCD'))

>>>df1 = df[df['B'] > 2]

>>>df1.is_copy

<weakref at 0x08B5F6C0; to 'DataFrame' at 0x00CC5070>

>>>df1['A'] = 0

SettingWithCopyWarning:

A value is trying to be set on a copy of a slice from a DataFrame.

Try using .loc[row_indexer,col_indexer] = value instead

>>>df1  # df1会改变

   A   B   C   D

1  0   5   6   7

2  0   9  10  11

3  0  13  14  15

>>>df  # df不会改变

    A   B   C   D

0   0   1   2   3

1   4   5   6   7

2   8   9  10  11

3  12  13  14  15

df1是df的弱引用拷贝，对df1进行赋值会触发SettingWithCopyWarning。

如果df1 = df.copy()不会触发该警告。

另外，如果是获取一个列，则拿到的是视图，并不是弱引用，对该视图进行的修改会反映到源dataframe：

>>>df = pd.DataFrame(np.arange(12).reshape(3, 4), columns=list('ABCD'))

>>>a = df['A']

>>>a.loc[1] = 55

>>>a

    A  B   C   D

0   0  1   2   3

1  55  5   6   7

2   8  9  10  11

Pandas Series和DataFrame的基本概念的更多相关文章

Pandas Series 与 DataFrame 数据创建
>>> import pandas as pd >>> import numpy as np >>> print(np.__version__), ...
pandas Series和dataframe
DataFrame是一个表格型数据结构,与Series不同的是,DataFrame可以含有一组或者有序的列,每列可以使不同的值的类型,它可以被看做成Series的字典.
pandas数组(pandas Series)-(2)
pandas Series 比 numpy array 要强大很多,体现在很多方面首先, pandas Series 有一些方法,比如: describe 方法可以给出 Series 的一些分析数据 ...
pandas-21 Series和Dataframe的画图方法
pandas-21 Series和Dataframe的画图方法 ### 前言在pandas中,无论是series还是dataframe都内置了.plot()方法,可以结合plt.show()进行很方 ...
02. Pandas 1|数据结构Series、Dataframe
1."一维数组"Series Pandas数据结构Series:基本概念及创建 s.index . s.values # Series 数据结构 # Series 是带有标签的一 ...
Pandas中Series和DataFrame的索引
在对Series对象和DataFrame对象进行索引的时候要明确这么一个概念:是使用下标进行索引,还是使用关键字进行索引.比如list进行索引的时候使用的是下标,而dict索引的时候使用的是关键字. ...
Python数据分析-Pandas（Series与DataFrame）
Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...
pandas学习series和dataframe基础
PANDAS 的使用一.什么是pandas? 1.python Data Analysis Library 或pandas 是基于numpy的一种工具,该工具是为了解决数据分析人物而创建的. 2.p ...
利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
一.reindex() 方法:重新索引针对 Series 重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...

随机推荐

Leetcode: Encode and Decode TinyURL
Note: This is a companion problem to the System Design problem: Design TinyURL. TinyURL is a URL sho ...
IP地址数据库 | 手机号段归属地数据库 | 行政区划省市区数据库
2019年4月最新版 IP地址数据库 (全球版·国内版·国外版·掩码版·英文版) 全球旗舰版 454267行国内精华版 244379行演示 https://www.qqzeng.com/ip ...
setoolkit 制作钓鱼网页
由于是在虚拟机下实验,仅做示范下载地址 git clone https://github.com/trustedsec/social-engineer-toolkit/ 终端输入setoolkit启 ...
写好shell脚本
转载自https://mp.weixin.qq.com/s/f3xDHZ7dCQr7sHJ9KDvuyQ 1.提供--help标记安装在系统上的二进制文件通常带有man帮助文档,但对于脚本来说就不一 ...
信步漫谈之Redis—Linux下环境搭建
一.环境 Linux 系统:Suse11(SLES-11-SP3-DVD-x86_64-GM-DVD1)Redis 安装包:redis-4.0.11.tar.gz 下载地址:http://d ...
sqlserver可将字符转成数字再进行sum，如果varchar类型中存放的都是数字
sqlserver语法: select sum(cast(score as int)) as score from 表名; 注意:int是整型,在实际操作中根据自己需要的类型转换.
flask框架----整合Flask中的目录结构
一.SQLAlchemy-Utils 由于sqlalchemy中没有提供choice方法,所以借助SQLAlchemy-Utils组件提供的choice方法 import datetime from ...
UML类图新手入门级介绍（转）
首先,看动物矩形框,它代表一个类(Class).类图分三层,第一层显示类的名称,如果是抽象类,则就用斜体显示.第二层是类的特性,通常就是字段和属性.第三层是类的操作,通常是方法或行为.前面的符号,+ ...
[c/c++] programming之路（27）、union共用体
共用体时刻只有一个变量,结构体变量同时并存一.创建共用体的三种形式 #include<stdio.h> #include<stdlib.h> #include<stri ...
EF框架和Ado.Net的使用比较
1.性能上(运行效率) Ado.Net的性能更高些,直接使用SQLHelper的Command.Connection等命令通过写SQL语句对数据库进行操作.(EF的实体模型,性能上肯定要损失些!!) ...

Pandas Series和DataFrame的基本概念

Pandas Series和DataFrame的基本概念的更多相关文章

随机推荐

热门专题