pandas-Notes2

#coding = utf-8

import pandas as pd

import numpy as np

import  matplotlib as plt

dates = pd.date_range('20170601', periods=6)

# make a random 6*4 matrix

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

print df

# statistic basics. exclude missing data in general

# mean. mean of cols as default

print df.mean()

'''

A   -0.640908

B   -0.216183

C    0.316962

D   -0.634263

dtype: float64

'''

# mean of rows

print df.mean(1)

# move down

s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)

#print s

'''

2017-06-01    NaN

2017-06-02    NaN

2017-06-03    1.0

2017-06-04    3.0

2017-06-05    5.0

2017-06-06    NaN

Freq: D, dtype: float64

'''

# df-s. pandas will make Series into DataFrame

# df will change

print df

print df.sub(s, axis='index')

# cumulate by rows. default is by cols

print df.apply(np.cumsum, axis=1)

# apply lambda

print df.apply(lambda x: x.max() - x.min())

s = pd.Series(np.random.randint(0, 7, size=10))

# there are duplicate values

# value_counts behaves like histogram

print s.value_counts()

# string methods

# s.str.lower() means to lowercase

print df

# first 3 rows. index by rows in default

print df[:3]

# concat. use list as parameter

pieces = [df[:3], df[4:]]

print pd.concat(pieces)

# join.

left = pd.DataFrame({'key':['1', '2'], 'lvar':['leftVar1', 'leftVar2']})

right = pd.DataFrame({'key':['1', '2'], 'rvar':['rightVar1', 'rightVar2']})

print left

print right

# merge by same key value

print pd.merge(left, right, on='key')

'''

  key      lvar       rvar

0   1  leftVar1  rightVar1

1   2  leftVar2  rightVar2

'''

# append. add a row to the tail

# ignore_index = False, the index will be appended too. If True, then all index will be 0...n (int)

print df.append(df.iloc[3], ignore_index=False)

# group

df1 = pd.DataFrame({'A' : ['f', 'b', 'f', 'f', 'b'],

                    'B' : ['1', '2', '2', '1', '2'],

                    'C' : np.random.randn(5)})

# use sum()

print df1.groupby(['A', 'B']).sum()

# stack unstack means transformation between matrix and DataFrame

# pivot_table means group by index and cols, use values. if there's function, execute it

# pivot_table(df, values='D', index=['A', 'B'], columnes=['C'])

# time series for time

# categoricals

# declare as category

s1 = pd.Series(['A', 'B', 'B', 'C', 'A', 'E']).astype("category")

# set category. Must same number of unique levels

s1.cat.categories = ["good", "bad", 'A', 'B']

print s1

# df.sort_values(by="categoryName")

# df.groupby("categoryName").size()

# plot

df2 = pd.DataFrame(np.random.randn(1000, 4), columns=['A','B','C','D'])

df2 = df2.cumsum()

# four lines, four colors. with legend.

df2.plot()

#plt.pyplot.show()

# file in & out

df2.to_csv("df2.csv")

df3 = pd.read_csv("df2.csv")

print df3.head(3)

#df2.to_hdf("df2.h5", 'df')

#pd.read_hdf('df2.h5', 'df')

# need module openpyxl...

df2.to_excel('df2.xlsx', sheet_name='sheet1')

pd.read_excel('df2.xlsx', 'sheet1', index_col=None, na_values=['NA'])

pandas-Notes2的更多相关文章

pandas基础-Python3
未完 for examples: example 1: # Code based on Python 3.x # _*_ coding: utf-8 _*_ # __Author: "LEM ...
10 Minutes to pandas
摘要一.创建对象二.查看数据三.选择和设置四.缺失值处理五.相关操作六.聚合七.重排(Reshaping) 八.时间序列九.Categorical类型十.画图十一 ...
利用Python进行数据分析(15) pandas基础: 字符串操作
字符串对象方法 split()方法拆分字符串: strip()方法去掉空白符和换行符: split()结合strip()使用: "+"符号可以将多个字符串连接起来: join( ...
利用Python进行数据分析(10) pandas基础: 处理缺失数据
数据不完整在数据分析的过程中很常见. pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据. pandas使用isnull()和notnull()函数来判断缺失情况. 对于缺失数据一般处理 ...
利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
利用Python进行数据分析(9) pandas基础: 汇总统计和计算
pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索 ...
利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
一.reindex() 方法:重新索引针对 Series 重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...
利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...
pandas.DataFrame对行和列求和及添加新行和列
导入模块: from pandas import DataFrame import pandas as pd import numpy as np 生成DataFrame数据 df = DataFra ...
pandas.DataFrame排除特定行
使用Python进行数据分析时,经常要使用到的一个数据结构就是pandas的DataFrame 如果我们想要像Excel的筛选那样,只要其中的一行或某几行,可以使用isin()方法,将需要的行的值以列 ...

随机推荐

GPIO的翻转操作方法
STM32在进行IO翻转操作的时候可以使用以下方法:以PE.5为例 GPIO_WriteBit(GPIOE,GPIO_Pin_5,(BitAction)(1-(GPIO_ReadOutputDataB ...
从一个LocalDateTime引发的疑问
一公司有同事部署出错,然后查日志,找时间,从k8s得到的时间是 2017-06-16T09:38:48.580 +0000,然后他就纳闷了,因为他根本不会在9点部署好吧,而且9点大多数程序员都没开 ...
UIcollectionView 实现轮番图
UICollectionView 用作轮番图的实现,demo 地址:https://github.com/SummerHH/YJCYCleCollectionVIew #import <UIKi ...
【持续更新】Java 字符串相关问题
区别 String s1="xxx" 与 String s2=new String("xxx") 的区别 equals() 和 == 的区别单引号与双引号的区 ...
【Java】 jar解压与压缩
jar解压与压缩命令格式:jar {c t x u f }[ v m e 0 M i ][-C 目录]文件名 # 解压,到当前目录 jar -xvf source.jar # 打包,不进行压缩 ja ...
sql问题：备份集中的数据库备份与现有的 '办公系统' 数据库不同
解决方法:把备份的数据库从原有的地方先分离,再拷贝一份,在需要还原的服务器上附加到数据库中,在根数据库上点击“还原数据库”,选择需要还原的数据库名称,以及还原的bak备份文件,在选择“选项”,勾选上“ ...
dataset datatable datacolums datarow
DataSet 表示数据在内存中的缓存. 属性 Tables 获取包含在 DataSet 中的表的集合. ds.Tables["sjxx"] DataTable 表示内存中数据的 ...
SqlServer中提示和报错信息的翻译
有时候遇到SqlServer一些报错需要上网查找解决方法,一些比较生僻的问题汉语搜索往往得不到想要的,就要使用英文在外网搜索.之前都是自己尝试翻译,或者使用错误码,或者找个英文版的数据库重现问题.有时 ...
Modelsim与Simulink协同仿真
当使用硬件描述语言(HDL)完成电路设计时,往往需要编写Testbench对所设计的电路进行仿真验证,测试设计电路的功能是否与预期的目标相符.而编写Testbench难度之大,这时可以借助交互式图形化 ...
认识CoreData—初识CoreData
http://www.cocoachina.com/ios/20160729/17245.html 这段时间公司一直比较忙,和组里小伙伴一起把公司项目按照之前逻辑重写了一下.由于项目比较大,还要兼顾之 ...

pandas-Notes2

pandas-Notes2的更多相关文章

随机推荐

热门专题