1. from pandas import DataFrame
  2. import numpy as np
  3. import pandas as pd
  4.  
  5. t={
  6. "age": [, , np.nan, , np.nan, ],
  7. "city": ["BeiJing", "ShangHai", "GuangZhou", "ShenZhen", 'BeiJing', "ShangHai"],
  8. "sex": [None, "male", "female", "male", np.nan, "unknown"],
  9. "birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"],
  10. "score":[,,,,,],
  11. "naem":['sdf','aa','bb','tt','ere','tt'],
  12. "name":['sdf 11','aa 22','bb 33','tt 44','ere 55','tt 66']
  13. }
  14.  
  15. df =DataFrame(t)
  16. cc=df.isnull().sum() #每列none的个数,不是count(),count()求出来的值不对呦
  17. print(df[df.age.notnull()]) # isnull()
  18. df.dropna() #删除none所在行
  19. df1=df['score']
  20. df1.index=['a','b','c','d','e','f'] # 为series定义新的索引
  21. df1.name='aiyou'
  22. print(df1[df1<]) # 对 series 进行过滤
  23. print(df1[['a','c']]) # 获取两个元素
  24. print((df1[:])) # 对series切片
  25. print((df1+)) # series 给每个元素加2
  26. print(df1.to_frame()) #series 变成 dataframe
  27. print(df1['a']) # 可以将series当做dict使用,series的index就是dict的key
  28. print(df.loc[[,],['age']]) # 查询指定的行和列
  29. # 访问行用loc 或 iloc
  30. print(df[(df.age>)&(df.age<)])
  31. print(df[(df.age>)&(df.age<)][['age']])# 查询特定的行和列
  32. print(df.count()) # 非空的个数
  33. print(df.sum()) # 非空的个数
  34. del df['naem'] #删除一列
  35. print(df.pop('naem')) # 删除一列,返回值是删除的这列,原来的df发生了变化
  36. print(df.drop('age',axis=))# 删除一列,返回值是后的结果,原来的df没发生变化
  37. print(df[['age','score']])
  38. # print(s6+s7) s6和s7是两个series,s6中不存在g索引,s7中不存在e索引,所以数据运算会产生两个缺失值NaN
  39. clonedf=df.assign(age_add_one = df["age"] + ) #在克隆df的同时再加上一列 如果想要保证原有的 DataFrame 不改变的话,我们可以通过 assign 方法来创建新的一列
  40. print(clonedf)
  41.  
  42. df['age_code']= np.where(df["age"] >, , ) # 根据某列的值,产生新的一列
  43. df['age']=np.where(df['age']<df['score'],df['score'],df['age'])
  44. print(type(df[['age']])) # DataFram
  45. print(type(df['age'])) # Series
  46. print(df.shape)
  47. print(df.head()) # 查看前两行数据
  48. print(df.tail())
  49. print(df['age'].value_counts()) # 获取某列中每个值出现的次数
  50. print(df.sort_index(ascending=False)) # 按索引排序
  51. print(df.sort_values(by=['age','age_code'])) #按值排序
  52. print(df['age'].idxmax()) #获取最大值的索引
  53. print(df['age'].idxmin()) # 获取最小值的索引
  54. '''
  55. map 是 Series 中特有的方法,通过它可以对 Series 中的每个元素实现转换
  56. apply 方法既支持 Series,也支持 DataFrame,在对 Series 操作时会作用到每个值上,在对 DataFrame 操作时会作用到整行或整列(通过 axis 参数控制)。
  57. applymap 方法针对于 DataFrame,它作用于 DataFrame 中的每个元素,它对 DataFrame 的效果类似于 apply 对 Series 的效果
  58. '''
  59. df['age'] = df['age'].combine_first(df['score']) # 利用另一列的值填补此列的None
  60. print(df.rename(index={: "tom", : "bob"})) #修改索引
  61. print(df.rename(columns={"age": "Age", "city": "City", "sex": "Sex"})) #修改列名
  62. print(df["age"].astype(float)) # 转换数据类型
  63. print(pd.to_numeric(df.age, errors="ignore")) # errors='raise',这意味着强转失败后直接抛出异常,设置 errors='coerce' 可以在强转失败时将有问题的元素赋值为 pd.NaT(对于datetime和timedelta)或 np.nan(数字)。设置 errors='ignore' 可以在强转失败时返回原有的数据
  64. print(df.age.nlargest()) # 获取最大的n个值或最小值的n个值,我们可以使用 nlargest 和 nsmallest 方法来完成,这比先进行排序,再使用 head(n) 方法快得多
  65. df["birth"] = pd.to_datetime(df.birth) # 把数据类型转成时间
  66. print(df.city.str.upper()) # print(df.city.str.len()) user_info.city.str.replace(" ", "_") str 方法的使用
  67. print(df.name.str.split(' ').str.get()) # 对字段进行分割
  68. df[['name1','name2']]=df.name.str.split(' ', expand=True) # 根据一列生成两列
  69. print(df[df.city.str.contains("Zh")]) # 是否包含某个关键字
  70. print(df.dropna(axis=, how="any", subset=["city", "sex"])) # thresh=,会在一行/列中至少有 个非空值时将其保留。
  71. df.age.fillna()
  72. print(df.replace({"age": , "birth": pd.Timestamp("1978-08-08")}, np.nan)) # 将age列为40的替换成nan,将birth列为1978--08的替换成nan
  73. print(df.city.replace(r'\s+', np.nan, regex=True))

窗口函数:
df2.rolling(window=2, on="date", min_periods=1).sum() #计算每两条记录的和
df2.expanding(min_periods=1)["turnover"].sum() #累加和的计算,turnover为列名
df2.rolling(window=2, min_periods=1)["turnover"].agg([np.sum, np.mean]) #同时计算出多个统计值用agg

转换时区:

  1. ts=pd.date_range("2018-6-26 07:00:00", periods=8)
    print(ts)
    ts_utc = ts.tz_localize('UTC')
    print(ts_utc)
    ts_ea=ts_utc.tz_convert('US/Eastern')
    print(ts_ea)
  1.  

pandas 常用方法使用示例的更多相关文章

  1. C#/WPF/WinForm/.NET程序代码实现软件程序开机自动启动的两种常用方法的示例与源码下载带详细注释-源码代码-注册表方式-启动目录快捷方式

    C#/WPF/WinForm/.NET程序代码实现软件程序开机自动启动的两种常用方法的示例与源码下载带详细注释-源码代码-注册表方式-启动目录快捷方式 C#实现自动启动的方法-两种方法 源码下载地址: ...

  2. Spring JDBC常用方法详细示例

    Spring JDBC使用简单,代码简洁明了,非常适合快速开发的小型项目.下面对开发中常用的增删改查等方法逐一示例说明使用方法 1 环境准备 启动MySQL, 创建一个名为test的数据库 创建Mav ...

  3. numpy&pandas补充常用示例

    Numpy [数组切片] In [115]: a = np.arange(12).reshape((3,4)) In [116]: a Out[116]: array([[ 0, 1, 2, 3], ...

  4. Pandas常用方法

    数据处理很多需要用到pandas,有两个基本类型:Series表示一维数据,DataFrame表示多维.以下是一些常用方法的整理: pandas.Series 创建 Series pandas.Ser ...

  5. Date和Calendar时间操作常用方法及示例

    package test; import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date; /** ...

  6. Mockito常用方法及示例

    Mockit是一个开源mock框架,官网:http://mockito.org/,源码:https://github.com/mockito/mockito 要使用Mockit,首先需要在我们工程中引 ...

  7. python大数据初探--pandas,numpy代码示例

    import pandas as pd import numpy as np dates = pd.date_range(',periods=6) dates import pandas as pd ...

  8. Pandas常用方法手册

    关键缩写和包导入 在这个速查手册中,我们使用如下缩写: df:任意的Pandas DataFrame对象 同时我们需要做如下的引入: import pandas as pd 导入数据 pd.read_ ...

  9. pandas常用方法总结

    In [49]: frame2 Out[49]: year state pop debt one 2000 Ohio 1.5 NaN two 2001 Ohio 1.7 NaN three 2002 ...

随机推荐

  1. Spring boot + mybatis + mysql代码生成器

    引入依赖: 在pom文件最下边: <build> <plugins> <!--逆向工程--> <plugin> <groupId>org.m ...

  2. tp3.2 如何比较两个字段

    使用exp if ($_GET['owe_property'] || $_GET['owe_property'] !== NULL) { if ((int)$_GET['owe_property'] ...

  3. 01-Windows Server 2012的配置与部署

    一. 背景 这里以阿里云Windows Server 2012系统的服务器为主,介绍服务器的配置以及.Net程序的发布顺序,在后续的项目管理文章中,会介绍<运维手册>的写法. 二. 步骤 ...

  4. vue 项目不显示样式 排版错乱

    vue中的css 样式都在index.html中 看这里是否有导入css

  5. 在Grafana使用普罗米修斯

    aaarticlea/svg+xml;base64,PD94bWwgdmVyc2lvbj0iMS4wIiBlbmNvZGluZz0idXRmLTgiPz4KPCEtLSBHZW5lcmF0b3I6IE ...

  6. Python 入门(2):数据类型

    一 Number(数字) 1.1 数字类型的创建 a = 10 b = a b = 5 print(a) 10 print(b) 5 1.2 Number 类型转换 a = 5.2 b = 5 c = ...

  7. Hive drop table,create table没有反应处理方法

    Hive drop table时没有反应,于是强制中断. 解决之法,对其进行补充. mysql> show variables like 'char%';第一步:进入mysql,输入:show ...

  8. Python使用队列实现Josephus问题

    Josephus问题,在这个古老的问题中,N个深陷绝境的人一致同意通过以下方式减少生存的人数.他们围坐一圈(位置记为0~N-1)并从第一个人报数,报到M的人会被杀死, 知道最后一个人留下来.传说中Jo ...

  9. golang 网络编程之如何正确关闭tcp连接以及管理它的生命周期

    欢迎访问我的个人网站获取更佳阅读排版 golang 网络编程之如何正确关闭tcp连接以及管理它的生命周期 | yoko blog (https://pengrl.com/p/47401/) 本篇文章部 ...

  10. vuex的Store简单使用过程

    介绍 Store的代码结构一般由State.Getters.Mutation.Actions这四种组成,也可以理解Store是一个容器,Store里面的状态与单纯的全局变量是不一样的,无法直接改变st ...