官方文档链接http://pandas.pydata.org/pandas-docs/stable/dsintro.html 数据结构介绍 我们将以一个快速的.非全面的pandas的基础数据结构概述来开始.应用在所有对象的数据类型.索引和轴标签/对齐等的基础操作.首先我们需要向你的命名空间引入numpy和pandas. In [1]: import numpy as np In [2]: import pandas as pd 有个宗旨需要牢记:数据对齐是内在的.标签和数据间的链接不会被轻易改变
本节介绍Series和DataFrame中的数据的基本手段 重新索引 pandas对象的一个重要方法就是reindex,作用是创建一个适应新索引的新对象 ''' Created on 2016-8-10 @author: xuzhengzhu ''' ''' Created on 2016-8-10 @author: xuzhengzhu ''' from pandas import * print "--------------obj result:-----------------"
1.DataFrame中某一列的值衍生为新的特征 #将LBL1特征的值衍生为one-hot形式的新特征 piao=df_train_log.LBL1.value_counts().index #先构造一个临时的df df_tmp=pd.DataFrame({'USRID':df_train_log.drop_duplicates('USRID').USRID.values}) #将所有的新特征列都置为0 for i in piao: df_tmp['PIAO_'+i]=0 #进行分组便利,有这个