pandas part I:

# 总结:

  • DataFrame.loc[0:5] 一共6行数据,而切片[0:5]只有5个数据
  • 在对df的行数据删除后,有些index已缺失,此时用 iloc[]来按照位置索引
  • 取指定行 food_info.loc[[2,5,10]],传入list
  • 取指定列 zinc_copper = food_info[["Zinc_(mg)", "Copper_(mg)"]]
  • 取指定后缀名的列:
  • col_names = food_info.columns.tolist()
  • gram_columns = []
  • for c in col_names:
  •   if c.endswith("(g)"):
  •     gram_columns.append(c)
  • food_info.sort_values("Sodium_(mg)", inplace=True)  #默认升序,可以用 ascending=False来降序

pandas part II:

  • 根据age_is_null = titanic_survival["Age"].isnull(), 返回索引,
  • 根据索引的True,False,来获取null的集合: age_null_true = age[age_is_null]
  • 如果某列中有nan,任何运算结果都是nan
  • 取 good_ages = titanic_survival["Age"][age_is_null == False]
  • correct_mean_age = sum(good_ages) / len(good_ages)
  • 但是缺失数据的表很普遍,于是pandas用correct_mean_age = titanic_survival["Age"].mean()来解决nan问题
  • 按要求选取指定行:pclass_rows = titanic_survival[titanic_survival["Pclass"] == this_class]
  • 对指定行的某列进行运算: pclass_fares_mean = pclass_rows["Fare"].mean()
  • 数据透视表: 默认aggfunc为np.mean
  • passenger_survival = titanic_survival.pivot_table(index="Pclass", values="Survived", aggfunc=np.mean)
  • 多列透视表:values传入一个list
  • port_stats = titanic_survival.pivot_table(index="Embarked", values=["Fare","Survived"], aggfunc=np.sum)
  • 去掉有nan的列: titanic_survival.dropna(axis=1) #age canbin embark
  • 去掉指定列中有nan的行 : titanic_survival.dropna(axis=0,subset=["Age", "Sex"])
  • 取指定index行的某列的一个数据: titanic_survival.loc[83,"Age"]
  • 对所有列数据应用函数:
    def not_null_count(column):
      column_null = pd.isnull(column)
      null = column[column_null]
      return len(null)

    column_null_count = titanic_survival.apply(not_null_count)

pandas part III:

  • 获取Series的值 fandango['FILM'].values
  • 取某一列为另一列的索引:series_custom = Series(fandango['RottenTomatoes'].values , index=fandango['FILM'].values)
  • 用series_name限制条件series_greater_than_50 = series_custom[series_custom > 50]
  • 取到所有列的类型:types = fandango_films.dtypes
  • types[types.values == 'float64'].index 本质上是从types 回到 索引上
  • deviations = fandango_films[float_columns].apply(lambda x: np.std(x)) 对所有float类型数据应用方差
  • groupby将一列中的元素进行分组,idxmax取出对应列group的最大索引位置,score_series=df.groupby("ID")["m_score"].idxmax()
  • df.groupby(df['class1'])['data1'] == df['data1'].groupby(df['class1']) 是一个整体,要取出数据,则.idxmax()等操作
  • df.groupby(df['class1'])['data1']  :   <pandas.core.groupby.SeriesGroupBy object at 0x000001F1CEDF0AC8>

pandas小结的更多相关文章

  1. pandas用法小结

    前言 个人感觉网上对pandas的总结感觉不够详尽细致,在这里我对pandas做个相对细致的小结吧,在数据分析与人工智能方面会有所涉及到的东西在这里都说说吧,也是对自己学习的一种小结! pandas用 ...

  2. python4delphi import lxml pandas 出错的小结

    环境: 1.win10 64位 2.delphi xe8 3.python2.7 4.python4delphi  (svn 2015-03-21 发布的83版本号) 5.lxml 3.4.4(通过p ...

  3. python中pandas里面的dataframe数据的筛选小结

    pandas大家用的都很多,像我这种用的不够熟练,也不够多的就只能做做笔记,尽量留下点东西吧. 筛选行: a. 按照列的条件筛选 df = pandas.DataFrame(...) # suppos ...

  4. pandas replace函数使用小结

    http://blog.csdn.net/kancy110/article/details/72719340

  5. scikit-learn随机森林调参小结

    在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结.本文就从实践的角度对RF做一个总结.重点讲述scikit-learn中RF的调参注 ...

  6. scikit-learn 梯度提升树(GBDT)调参小结

    在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...

  7. 用scikit-learn和pandas学习Ridge回归

    本文将用一个例子来讲述怎么用scikit-learn和pandas来学习Ridge回归. 1. Ridge回归的损失函数 在我的另外一遍讲线性回归的文章中,对Ridge回归做了一些介绍,以及什么时候适 ...

  8. pandas 对数据帧DataFrame中数据的索引及切片操作

    1.创建数据帧 index是行索引,即每一行的名字:columns是列索引,即每一列的名字.建立数据帧时行索引和列索引都需要以列表的形式传入. import pandas as pd df = pd. ...

  9. 第三周 数据分析之概要 Pandas库入门

    Pandas库介绍: Pandas库引用:Pandas是Python第三方库,提供高性能易用数据类型和分析工具 import pandas as pd Pandas基于NumPy实现,常与NumPy和 ...

随机推荐

  1. JQuery点击table获取点击行的数据

    $(function () {var TaskType = '';$("#data_table tr:gt(0)").click(function () { TaskType = ...

  2. 【阿里云IoT+YF3300】1.时代大背景下的阿里云IoT物联网的现状和未来

    “未来十到二十年,大家基本已经形成了一个共识,那便是新格局的奠定将由 AI 和物联网技术来支撑.放眼国内,在这些互联网巨头之中,未来真正成为竞争对手厮杀的,阿里和华为是首当其冲,在这两个领域双方分别暗 ...

  3. laravel 遍历循环

    @foreach($xxx as $k=>$y) {{$y->id}} @endforeach

  4. Levenberg-Marquardt

    c++ opencv L-M源码 http://www.shenlejun.cn/article/show.asp?id=97 什么是最优化,可分为几大类? 答:Levenberg-Marquardt ...

  5. 进击python第一篇:相遇

    1.第一句Python代码 在 当前目录下创建 hello.py 文件,内容如下: print "hello,world!" 执行 hello.py 文件,即: python he ...

  6. java面试基础问题

    1.一个".java"源文件中是否可以包括多个类(不是内部类)?有什么限制? 可以有多个类,但只能有一个public的类,并且public的类名必须与文件名相一致. 2.Java有 ...

  7. nginx和uwsgi的区别和作用

    Django+uwsgi+nginx nginx和uwsgi的区别和作用: 1, nginx是对外的服务器,外部浏览器通过url访问nginx, uwsgi是对内的服务器,主要用来处理动态请求. 2, ...

  8. 关于css中父元素与子元素之间margin-top的问题

    之前在使用经常遇到下面的问题: html: <div class="top"> <div class="one">I'm the fir ...

  9. python转换已转义的字符串

    python转换已转义的字符串 有时我们可能会获取得以下这样的字符串: >>> a = '{\\"name\\":\\"michael\\"} ...

  10. oop典型应用,代码。

    遍历获得一个实体类的所有属性名,以及该类的所有属性的值.//先定义一个类: public class User{ public string name { get; set; } public str ...