1.第一步读入泰坦尼克号数据集 import pandas as pd data = pd.read_csv(r".\Narrativedata.csv" ,index_col=0 )#index_col=0将第0列作为索引,不写则认为第0列为特征 data.head() 2.通过df的loc的函数从df中取出一列的数据,该数据格式为  : <class 'pandas.core.series.Series'> age1=data.loc[:,"Age"…
Series与DataFrame对比学习 文章为本人原创,未经同意请勿转载,http://www.cnblogs.com/smallcrystal/ Series:构建的方法,一组数组(列表或元组),利用Series(),自动生成索引.或Series(字典),值只有一列,无列索引,只有行索引 属性: .index..values   .name   .index.name   .values.name >> data={'state':['ohio','ohio','ohio','nev','…
之前已经学过DataFrame与DataFrame相加,Series与Series相加,这篇介绍下DataFrame与Series的相加: import pandas as pd s = pd.Series([1, 2, 3, 4]) df = pd.DataFrame({ 0: [10, 20, 30, 40], 1: [50, 60, 70, 80], 2: [90, 100, 110, 120], 3: [130, 140, 150, 160] }) print df + s 0 1 2…
在SQL语言中去重是一件相当简单的事情,面对一个表(也可以称之为DataFrame)我们对数据进行去重只需要GROUP BY 就好. select custId,applyNo from tmp.online_service_startloan group by custId,applyNo 1.DataFrame去重 但是对于pandas的DataFrame格式就比较麻烦,我看了其他博客优化了如下三种方案. 我们先引入数据集: import pandas as pd data=pd.read_…
https://stackoverflow.com/questions/14808945/check-if-variable-is-dataframe Use the built-in isinstance() function. import pandas as pd def f(var): if isinstance(var, pd.DataFrame): print "do stuff"  …
未经同意请勿转载http://www.cnblogs.com/smallcrystal/ 前文已经详细介绍DataFrame与Series两种数据结构,下面介绍DataFrame与Series的数据基本手段 一.pandas两种数据结构的index是不可修改的,pandas对象的一个重要方法是reindex >>> f lie     pop state  year suoyin a       1.5  ohio  2000 b       1.3  ohio  2001 c    …
一.功能 删除集合中的整行或整列: 二.格式 df.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise') labels:指示标签,表示行标或列标: axis = 0:默认取 0,表示删除集合的行: axis = 1:删除集合中的列: index:删除行: columns:删除列: level:针对有两级行标或列标的集合:如下图,集合有两级行标: level =…
更多大数据分析.建模等内容请关注公众号<bigdatamodeling> ################################### 排序 ######################################## from pandas import DataFrame, Series ##### Series按索引排序 sort_index方法 返回新对象 obj = Series([1, 3, 2, 5, 6], index=list('dabce')) obj.sor…
定义: DataFrame是二维的.大小可变的.成分混合的.具有标签化坐标轴(行和列)的表数据结构.基于行和列标签进行计算.可以被看作是为序列对象(Series)提供的类似字典的一个容器,是pandas中主要的数据结构. 形式: class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) 参数含义: data : numpy ndarray(多维数组)(结构化或同质化的), dict(字典…
''' [课程2.] 数值计算和统计基础 常用数学.统计方法 ''' # 基本参数:axis.skipna import numpy as np import pandas as pd df = pd.DataFrame({,,,np.nan,], ,,np.nan,,], ,,,'j','k']}, index = ['a','b','c','d','e']) print(df) print(df['key1'].dtype,df['key2'].dtype,df['key3'].dtype)…