pandas小结

pandas part I:

# 总结：

DataFrame.loc[0:5] 一共6行数据，而切片[0:5]只有5个数据
在对df的行数据删除后，有些index已缺失，此时用 iloc[]来按照位置索引
取指定行 food_info.loc[[2,5,10]]，传入list
取指定列 zinc_copper = food_info[["Zinc_(mg)", "Copper_(mg)"]]
取指定后缀名的列：
col_names = food_info.columns.tolist()
gram_columns = []
for c in col_names:
　　if c.endswith("(g)"):
　　　　gram_columns.append(c)

food_info.sort_values("Sodium_(mg)", inplace=True) #默认升序，可以用 ascending=False来降序

pandas part II:

根据age_is_null = titanic_survival["Age"].isnull(), 返回索引，
根据索引的True,False，来获取null的集合： age_null_true = age[age_is_null]
如果某列中有nan,任何运算结果都是nan
取 good_ages = titanic_survival["Age"][age_is_null == False]
correct_mean_age = sum(good_ages) / len(good_ages)
但是缺失数据的表很普遍，于是pandas用correct_mean_age = titanic_survival["Age"].mean()来解决nan问题
按要求选取指定行：pclass_rows = titanic_survival[titanic_survival["Pclass"] == this_class]
对指定行的某列进行运算： pclass_fares_mean = pclass_rows["Fare"].mean()
数据透视表：默认aggfunc为np.mean
passenger_survival = titanic_survival.pivot_table(index="Pclass", values="Survived", aggfunc=np.mean)
多列透视表：values传入一个list
port_stats = titanic_survival.pivot_table(index="Embarked", values=["Fare","Survived"], aggfunc=np.sum)
去掉有nan的列： titanic_survival.dropna(axis=1) #age canbin embark
去掉指定列中有nan的行： titanic_survival.dropna(axis=0,subset=["Age", "Sex"])
取指定index行的某列的一个数据： titanic_survival.loc[83,"Age"]
对所有列数据应用函数：
def not_null_count(column):
　　column_null = pd.isnull(column)
　　null = column[column_null]
　　return len(null)

column_null_count = titanic_survival.apply(not_null_count)

pandas part III:

获取Series的值 fandango['FILM'].values
取某一列为另一列的索引：series_custom = Series(fandango['RottenTomatoes'].values , index=fandango['FILM'].values)
用series_name限制条件series_greater_than_50 = series_custom[series_custom > 50]

取到所有列的类型：types = fandango_films.dtypes
types[types.values == 'float64'].index 本质上是从types 回到索引上
deviations = fandango_films[float_columns].apply(lambda x: np.std(x)) 对所有float类型数据应用方差
groupby将一列中的元素进行分组，idxmax取出对应列group的最大索引位置，score_series=df.groupby("ID")["m_score"].idxmax()
df.groupby(df['class1'])['data1'] == df['data1'].groupby(df['class1']) 是一个整体，要取出数据，则.idxmax()等操作
df.groupby(df['class1'])['data1'] ： <pandas.core.groupby.SeriesGroupBy object at 0x000001F1CEDF0AC8>

pandas小结的更多相关文章

pandas用法小结
前言个人感觉网上对pandas的总结感觉不够详尽细致,在这里我对pandas做个相对细致的小结吧,在数据分析与人工智能方面会有所涉及到的东西在这里都说说吧,也是对自己学习的一种小结! pandas用 ...
python4delphi import lxml pandas 出错的小结
环境: 1.win10 64位 2.delphi xe8 3.python2.7 4.python4delphi (svn 2015-03-21 发布的83版本号) 5.lxml 3.4.4(通过p ...
python中pandas里面的dataframe数据的筛选小结
pandas大家用的都很多,像我这种用的不够熟练,也不够多的就只能做做笔记,尽量留下点东西吧. 筛选行: a. 按照列的条件筛选 df = pandas.DataFrame(...) # suppos ...
pandas replace函数使用小结
http://blog.csdn.net/kancy110/article/details/72719340
scikit-learn随机森林调参小结
在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结.本文就从实践的角度对RF做一个总结.重点讲述scikit-learn中RF的调参注 ...
scikit-learn 梯度提升树(GBDT)调参小结
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
用scikit-learn和pandas学习Ridge回归
本文将用一个例子来讲述怎么用scikit-learn和pandas来学习Ridge回归. 1. Ridge回归的损失函数在我的另外一遍讲线性回归的文章中,对Ridge回归做了一些介绍,以及什么时候适 ...
pandas 对数据帧DataFrame中数据的索引及切片操作
1.创建数据帧 index是行索引,即每一行的名字:columns是列索引,即每一列的名字.建立数据帧时行索引和列索引都需要以列表的形式传入. import pandas as pd df = pd. ...
第三周数据分析之概要 Pandas库入门
Pandas库介绍: Pandas库引用:Pandas是Python第三方库,提供高性能易用数据类型和分析工具 import pandas as pd Pandas基于NumPy实现,常与NumPy和 ...

随机推荐

POJ - 1321 棋盘问题 dfs分层搜索（n皇后变式）
棋盘问题 Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 47960 Accepted: 23210 Descriptio ...
c#静态多态性与动态多态性
C# 多态性多态性意味着有多重形式.在面向对象编程范式中,多态性往往表现为"一个接口,多个功能". 多态性可以是静态的或动态的.在静态多态性中,函数的响应是在编译时发生的.在动态 ...
数据结构关于AOV与AOE网的区别
AOV网,顶点表示活动,弧表示活动间的优先关系的有向图. 即如果a->b,那么a是b的先决条件. AOE网,边表示活动,是一个带权的有向无环图, 其中顶点表示事件,弧表示活动,权表示活动持续时间 ...
[Xcode 实际操作]二、视图与手势-(1)UIView视图的基本使用
目录:[Swift]Xcode实际操作本文将演示在视图控制器的根视图里添加两个视图对象. import UIKit class ViewController: UIViewController { ...
PHP在cli模式下传参说明
命令行下输入php -help会列出所有可用的参数,如下截图: -a 代表以交互式模式运行: -c 指定ph.ini -n 不使用任何php.ini配置 -d foo[=bar] 定义一个INI实体, ...
native-echarts 在安卓上无法显示出来
1.native-echarts 的配置是百度echarts 2.模拟器上试了很多次都显示不出来(具体不清楚,我的是这样) 3.真机测试可以显示图表,以下是配置: a.将node_modules\na ...
bzoj1660:[Usaco2006 Nov]badhair乱头发节
Description 农民John的某 N 头奶牛 (1 <= N <= 80,000) 正在过乱头发节!由于每头牛都意识到自己凌乱不堪的发型, FJ 希望统计出能够看到其他牛的头发的 ...
TopCoder9915（期望dp）
1.还是逆向. 2.状态是还剩红i黑j张时的期望,这样从0,0往R,B推.注意因为是逆着的,所以到了某一步发现期望为负时直接f[i][j]归零,意义是这之后(在递推中算是这之前)的都不摸了,到这就停( ...
YII报错笔记：<pre>PHP Notice 'yii\base\ErrorException' with message 'Uninitialized string offset: 0' in /my/test/project/iot/vendor/yiisoft/yii2/base/Model.php:778
YII常见报错笔记报错返回的代码如下: <pre>PHP Notice 'yii\base\ErrorException' with message 'Uninitialized str ...
轻松把玩HttpClient之配置ssl，采用绕过证书验证实现https
上篇文章说道httpclient不能直接访问https的资源,这次就来模拟一下环境,然后配置https测试一下.在前面的文章中,分享了一篇自己生成并在tomcat中配置ssl的文章<Tomcat ...

pandas小结

pandas小结的更多相关文章

随机推荐

热门专题