pandas常用操作】的更多相关文章

  1.构造数据 In [1]: import pandas as pd data=pd.DataFrame({'group':['a','a','a','b','b','b','c','c','c'], 'data':[4,1,2,2,3,5,3,5,5]}) data Out[1]:     group data 0 a 4 1 a 1 2 a 2 3 b 2 4 b 3 5 b 5 6 c 3 7 c 5 8 c 5   2.排序 In [2]: data.sort_values(by=[…
原文链接:https://www.cnblogs.com/Yanjy-OnlyOne/p/11195621.html 一文看懂pandas的透视表pivot_table 一.概述 1.1 什么是透视表? 透视表是一种可以对数据动态排布并且分类汇总的表格格式.或许大多数人都在Excel使用过数据透视表,也体会到它的强大功能,而在pandas中它被称作pivot_table. 1.2 为什么要使用pivot_table? 灵活性高,可以随意定制你的分析计算要求 脉络清晰易于理解数据 操作性强,报表神…
DataFrame结构排序 备注:group列降序,data列升序. 合并相同项 查找相同项 添加一列,值是其他列的值进行相关操作后的值 删除列 Series结构替换值 一组值按照范围归类 归类后每类的计数 设置每类的标签 DataFrame结构中空值操作 是否为空值 按行或列判断是否有空值 为空值填充指定值…
1. 使用 drop_duplicates 去重 1.1 初始化数据 df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack', np.nan], 'stu_age': [16, 16, 15, np.nan, 21]}) stu_name stu_age 0 Nancy 17.0 1 Tony 16.0 2 Tony 16.0 3 Jack 21.0 4 Jack NaN 1.2 对一列去重 df_clean = df.drop…
1. 删除指定行 new_df = df.drop(index='行索引') new_df = df.drop('行索引', axis='index') new_df = df.drop('行索引', axis=0) 2. 删除指定的多行 new_df = df.drop(index=['行索引1', '行索引2']) new_df = df.drop(['行索引1', '行索引2'], axis='index') new_df = df.drop(['行索引1', '行索引2'], axis=…
df.duplicated() 参数详解: subset:检测重复的数据范围.默认为数据集的所有列,可指定特定数据列: keep: 标记哪个重复数据,默认为'first'.1.'first':标记重复数据第一次出现为True;'last':标记重复数据最后一次出现为True:False:标记所有重复数据为True. import pandas as pd #构造数据(数据集来自pandas官网 df = pd.DataFrame({ 'brand': ['Yum Yum', 'Yum Yum',…
concat函数基本介绍: 功能:基于同一轴将多个数据集合并 pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False) 参数详解:objs:待合并的所有数据集,一般为列表list,list中的元素为series或dataframeaxis:合并时参考的轴,axis=0为基于行合并:axis=…
删除某列: concatdfs.drop('Unnamed: 0',axis=1) 打印所有列名: .columns…
初始化测试数据 df = pd.DataFrame({'stu_name': ['Nancy', 'Tony', 'Tim', 'Jack', 'Lucy'], 'stu_age': [17, 16, 16, 21, 19]}) stu_name stu_age 0 Nancy 17 1 Tony 16 2 Tim 16 3 Jack 21 4 Lucy 19 1. 直接增加一列 df['new_column'] = '-' stu_name stu_age new_column 0 Nancy…
loc与iloc功能介绍:数据切片.通过索引来提取数据集中相应的行数据or列数据(可以是多行or多列) 总结: 不同:1. loc函数通过调用index名称的具体值来取数据2. iloc函数通过行序号来取数据3. 取多行数据时iloc不包含末尾4. 对数据进行筛选使用loc函数,当使用loc函数时,如果index不具有特定意义,而且重复,那么提取的数据需要进一步处理,可用.reset_index()函数重置index相同:1. []中无逗号时,默认取行 举例说明: #构建数据集 df1=pd.D…