数据分析入门——pandas数据处理

【数据分析入门——pandas数据处理】的更多相关文章

数据分析入门——pandas数据处理

1,处理重复数据使用duplicated检测重复的行,返回一个series,如果不是第一次出现,也就是有重复行的时候,则为True: 对应的,可以使用drop_duplicates来删除重复的行: 以上两个方法,都不能有重复的列! 2.map函数:列处理 map() 是一个Series的函数,DataFrame结构中没有map().map()将一个自定义函数应用于Series结构中的每个元素(elements). 传入一个拉姆达表达式: 可以通过不存在的列名,利用map映射新增一列:(当然,此…

数据分析入门——pandas之Series

一.介绍 Pandas是一个开源的,BSD许可的库(基于numpy),为Python编程语言提供高性能,易于使用的数据结构和数据分析工具. 官方中文文档:https://www.pypandas.cn/docs/ 本次演示使用数据来自github:https://github.com/jakevdp/PythonDataScienceHandbook/tree/master/notebooks/data 二.快速入门 1.导入 2.重点数据结构主要是series和dataframe 所以一般情…

数据分析入门——Pandas类库基础知识

使用python进行数据分析时,经常会用Pandas类库处理数据,将数据转换成我们需要的格式.Pandas中的有两个数据结构和处理数据相关,分别是Series和DataFrame. Series Series是一种类似于一维数组的对象,它有两个属性,value和index索引.可以像数组那样通过索引访问对应的值,它和数组有点类似也是python中的dict有点类似,数组中的索引只能是数字,而Series的索引既可以是数字类型也可以是字符类型. 创建Series对象最简单的方式是通过list序列…

数据分析入门——pandas之DataFrame基本概念

一.介绍数据帧(DataFrame)是二维数据结构,即数据以行和列的表格方式排列. 可以看作是Series的二维拓展,但是df有行列索引:index.column 推荐参考:https://www.jianshu.com/p/c534e83d2f4b 二.快速入门 1.打开csv 发现报错,原因是路径中\User的\u和转义符号冲突了,我们使用字符串中的知识,添加r开头表示不转义即可: 它包含的是行列索引和值values,value对应的就是二维的ndarray了 2.创建df 1.通过字典来…

数据分析入门——pandas之数据合并

主要分为:级联:pd.concat.pd.append 合并:pd.merge 一.numpy级联的回顾详细参考numpy章节 https://www.cnblogs.com/jiangbei/p/11287238.html 二.pd中concat函数 1.简单级联和numpy的级联类似,默认增加行数,通过axis(默认为0)来控制在pandas中,如果行和列不一致,但是shape相同,会级联成一个更大的df,不对应的值会填充NaN. 并且,级联可以重复: 可以通过ignore_in…

数据分析入门——pandas之DataFrame多层/多级索引与聚合操作

一.行多层索引 1.隐式创建在构造函数中给index.colunms等多个数组实现(datafarme与series都可以) df的多级索引创建方法类似: 2.显式创建pd.MultiIndex 其中.from_arrays为类似上面的参数,推荐使用简单的from_product函数(会自动进行交叉): 二.列多层索引列多层索引同理: 三.多层索引操作与切片 1.Series多层索引使用中括号和loc效果完全一样: 切片,只切第一级索引,与之前一致,需要指定某些指定行时,可以通过iloc…

数据分析入门——pandas之DataFrame数据丢失

一.数据丢失分类 1)nd中分为两种:None和np.nan(NaN) 其中,None是python中的对象,是一个object:而nan是一个float类型两种不同的类型,运算速度也是不同的 2)pandas中两种都视作NaN(np.nan) 二.数据丢失处理通过控制columns来创建有NaN的数据: 通过loc切片赋值来处理部分NaN数据: 1.与空相关的方法检测: isnull()和notnull() 如何检测df中哪些行中存在空行? df.isnull().any(axis=1)…

数据分析入门——pandas之合并函数merge

merge有点类似SQL中的join,可以将不同数据集按照某些字段进行合并,得到新的数据集 1.参数一览表: 2.一对一连接:默认情况下,会按照相同字段的进行连接例如有相同字段emp的两个df,merge的时候就会根据emp进行连接,且根据参数知道,默认是内连接: 使用默认的不是很明了,通常情况下,我们推荐使用on明确连接条件,这和SQL里写ON是类似的: 3.多对一合并 4.多对多连接(交叉连接) 5.key的规范化也就是上面介绍的,通过on来指定连接的key,明了且规范并且,合并的…

Python数据分析入门之pandas基础总结

Pandas--"大熊猫"基础 Series Series: pandas的长枪(数据表中的一列或一行,观测向量,一维数组...) Series1 = pd.Series(np.random.randn(4)) print Series1,type(Series1) print Series1.index print Series1.values 输出结果: 0 -0.676256 1 0.533014 2 -0.935212 3 -0.940822 dtype: float64 &l…

利用python进行数据分析之pandas入门

转自https://zhuanlan.zhihu.com/p/26100976 目录: 5.1 pandas 的数据结构介绍5.1.1 Series5.1.2 DataFrame5.1.3索引对象5.2基本功能 5.2.1重新索引5.2.2丢弃指定轴上的项5.2.3索引.选取和过滤5.2.4算术运算和数据对齐5.2.4.1在算术方法中填充值5.2.4.2 DataFrame和Series之间的运算5.2.5函数应用和映射5.2.6排序和排名5.2.7带有重复的轴索引5.3汇总和计算描述性统计5.…