python中数据分析常用函数整理
一. apply函数
作用:对 DataFrame 的某行/列应用函数之后,Apply 返回一些值。函数既可以使用默认的,也可以自定义。注意:在第二个输出中应用 head() 函数,因为它包含了很多行。
#创建一个新函数
def num_missing(x):
return sum(x.isnull()) #应用每一列
print "Missing values per column:"
print data.apply(num_missing, axis=0) #axis=0 defines that function is to be applied on each column #应用每一行
print "\nMissing values per row:"
print data.apply(num_missing, axis=1).head() #axis=1 defines that function is to be applied on each row
二. loc函数
作用:选择属性子集
subSalesDf=salesDf.loc[0:4,'购药时间':'销售数量']
三. rename函数
作用:列重命名
colNameDict = {'购药时间':'销售时间'} #将‘购药时间’改为‘销售时间’
salesDf.rename(columns = colNameDict,inplace=True)
四. dropna函数
作用:删除缺失值,how='any'意为在给定的任何一列中有缺失值就删除
salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any') #删除列(销售时间,社保卡号)中为空的行
五. pd.to_datetime函数
作用:字符串类型的数据转换成日期格式。传入的格式是原始数据的日期格式——format='%Y-%m-%d'固定写法:Y表示年、m表示月、d表示日。
salesDf.loc[:,'销售时间']=pd.to_datetime(salesDf.loc[:,'销售时间'],
format='%Y-%m-%d',
errors='coerce')
errors='coerce': 如果原始数据不符合日期的格式,转换后的值为空值NaT。所以转换之后我们还要运行一次删除空值的代码,因为不符合格式的日期被转变为了空值需要删除。
salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')
六. pd.sort_values
作用:对数据进行排序,by表示按那几列进行排序,ascending=True 表示升序排列,ascending=False表示降序排列
salesDf=salesDf.sort_values(by='销售时间', #按销售日期进行升序排列
ascending=True)
七. reset_index函数
作用:生成从0到N按顺序的索引值
salesDf=salesDf.reset_index(drop=True)
八. describe函数
作用:查看数据框中所有数据每列的描述统计信息:(count:总数,mean:平均数,std:标准差,min:最小值,25%:下四分位数,50%:中位数,75%:上四分位数,max:最大值)
salesDf.describe()
九. 删除异常值
作用:假设最小值出现了小于0的情况,分析应该是记录过程中出现错误所致。
第一步:设置查询条件,这一步返回True和false
querySer=salesDf.loc[:,'销售数量']>0
第二步:应用查询条件
salesDf=salesDf.loc[querySer,:]
十. drop_duplicates函数
作用:将重复的数据删除,同一个人发生的所有消费算作一次消费,根据列名(销售时间,社区卡号),如果这两个列值同时相同,只保留1条
kpi1_Df=salesDf.drop_duplicates(
subset=['销售时间', '社保卡号']
)
十一. groupby
作用:根据某一列分组
gb=groupDf.groupby(groupDf.index.month)
对分组后的数据应用函数
mounthDf=gb.sum()
十二. 不适=使用for循环的列表生成器
作用:当一个列表中的元素是由另外一个列表中对应元素经过运算得到时,可以省去for循环,适用一行代码生成模型
x = [2,3,4,5]
out = [item*2 for item in x]
print(out)
十三. Lambda 表达式
作用:不使用def关键字,也没有return。Lambda 表达式创造的函数和普通的 def 构建的函数没什么不同,只不过函数体只有单独一个表达式而已。
double=lambda x: x*2 #double是函数名,x是参数
print(double(3))
十四. map 和 filter 函数
1. map
作用:可以与Lambda表达式同时使用,map() 函数接收一个列表,和一个函数(可以是Lambda表达式),它对列表里的每个元素调用一个函数进行处理,再将结果放进一个新列表里。
result=list(map(double,x))
print(result)
2. filter
作用:它接收一个列表,和一个规则函数,在对列表里的每个元素调用这个规则函数之后,它把所有返回值为假的元素从列表中剔除,然后返回这个过滤后的子列表。
result2=list(filter(lambda a:a>4,x))
十五. arrange 函数
作用:arange() 函数按照指定的步长返回一个等差数列。除开始和结束值之外,你还可以自定义步长和数据类型。请注意,给定的结束值参数是不会被包含在结果内的。
result= np.arange(start,stop,step)
十六. linspace 函数
作用:将给定区间进行若干等分以后的等分点组成的数列。所以你传入的参数包括开始值、结束值,以及具体多少等分。linspace() 将这个区间进行等分后,把开始值、结束值和每个等分点都放进一个 NumPy 数组里。这在做数据可视化以及绘制坐标轴的时候都很有用。
result4=np.linspace(2.0,3.0,num=5)
十七. 矩阵合并函数
1.Concat
作用:把一个或多个数据表按行(或列)的方向简单堆叠起来(看你传入的 axis 参数是 0 还是 1 咯)。
2. merge
作用:merge() 将会以用户指定的某个名字相同的列为主键进行对齐,把两个或多个数据表融合到一起。
3. join
join()和 merge() 很相似,只不过 join() 是按数据表的索引进行对齐,而不是按某一个相同的列。当某个表缺少某个索引的时候,对应的值为空(NaN)。
十八. pivot_table 函数
作用:它能帮你对一个数据表进行格式化,并输出一个像 Excel 工作表一样的表格。实际使用中,透视表将根据一个或多个键对数据进行分组统计,将函数传入参数 aggfunc 中,数据将会按你指定的函数进行统计,并将结果分配到表格中。
pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')
python中数据分析常用函数整理的更多相关文章
- Python 学习:常用函数整理
整理Python中常用的函数 一,把字符串形式的list转换为list 使用ast模块中的literal_eval函数来实现,把字符串形式的list转换为Python的基础类型list from as ...
- python中math常用函数
python中math的使用 import math #先导入math包 1 三角函数 print math.pi #打印pi的值 3.14159265359 print math.radians(1 ...
- Python中关于Lambda函数的使用总结
lambda表达式是一种匿名函数,对应python中的自定义函数def,是定义某个函数时比较高级的一种写法.作为python初学者,本文整理了lambda的一些基本用法和特点. lambda和def的 ...
- 思迈特软件Smartbi:Excel数据分析常用函数汇总!
多传统行业的数据分析师只要求掌握Excel即可,会SPSS/SAS是加分项.即使在挖掘满街走,Python不如狗的互联网数据分析界,Excel也是不可替代的. Excel是我们工作中经常使用的一种工具 ...
- NiosII常用函数整理
NiosII常用函数整理 IO操作函数函数原型:IORD(BASE, REGNUM) 输入参数:BASE为寄存器的基地址,REGNUM为寄存器的偏移量函数说明:从基地址为BASE的设备中读取寄存器中偏 ...
- Python中的map()函数和reduce()函数的用法
Python中的map()函数和reduce()函数的用法 这篇文章主要介绍了Python中的map()函数和reduce()函数的用法,代码基于Python2.x版本,需要的朋友可以参考下 Py ...
- 举例详解Python中的split()函数的使用方法
这篇文章主要介绍了举例详解Python中的split()函数的使用方法,split()函数的使用是Python学习当中的基础知识,通常用于将字符串切片并转换为列表,需要的朋友可以参考下 函数:sp ...
- python中的生成器函数是如何工作的?
以下内容基于python3.4 1. python中的普通函数是怎么运行的? 当一个python函数在执行时,它会在相应的python栈帧上运行,栈帧表示程序运行时函数调用栈中的某一帧.想要获得某个函 ...
- pandas 常用函数整理
pandas常用函数整理,作为个人笔记. 仅标记函数大概用途做索引用,具体使用方式请参照pandas官方技术文档. 约定 from pandas import Series, DataFrame im ...
随机推荐
- 2018-2019赛季最后的随想/$\rm{NOIP2018}$游记·启示录
他看着眼前的屏幕,静静地发呆. 他不知道迎接他的将会是什么,后天的\(\rm{NOIp}\)终究是个谜. 刚刚给机房里其他人讲完期望的他,打心底觉得自己没有讲好,但效果似乎还可以. "希望别 ...
- 1549: Navigition Problem (几何计算+模拟 细节较多)
1549: Navigition Problem Submit Page Summary Time Limit: 1 Sec Memory Limit: 256 Mb Su ...
- 通过条件注解@Conditional细粒度的选择bean实例
在进行spring进行开发时,当某个接口有多种实现方式并且我们只想让一种生效时,比如声明如下一个接口和两个实现: public interface LanggageService { String s ...
- Altium Ddesigner 栅格 含义
栅格分为可视栅格(Visible Grid).捕获栅格(snap grid).元件放置捕获栅格(Component Grid).电气栅格(Electrical Grid). 可视栅格:就是编辑过程中看 ...
- 数据结构基础(1)--数组C语言实现--动态内存分配
数据结构基础(1)--数组C语言实现--动态内存分配 基本思想:数组是最常用的数据结构,在内存中连续存储,可以静态初始化(int a[2]={1,2}),可以动态初始化 malloc(). 难点就是数 ...
- c语言指针篇
不保证绝对正确,学习中所记录的一些笔记罢了,可能随着经历的增多,逐渐的完善, 不要完全相信我所记录的内容,可能因为编译协议版本的不同出现不同的结果. 也可能我写的根本就是错的,请相信自己动手得出来的结 ...
- 用NI的数据采集卡实现简单电子测试之1——USB-6009简介
本文从本人的163博客搬迁至此. 几年以来,一直担任学校“虚拟仪器”课程教师.以前上课都以介绍LabVIEW编程为主,硬件实验一直没有开展.这次借“西部高校实力提升工程”的机会,学院采购了一批NI的数 ...
- Linux下查看Mysql数据库端口的方法
mysql 默认的端口是 3306,但是如果在安装的时候,修改了mysql的默认端口的话,可以采用以下方式查看 第一种方法: 直接查看数据库的配置文件 在/etc/mysql/my.cnf(Linux ...
- python基础学习1-日志信息
#!/usr/bin/env python # -*- coding:utf-8 -*- 日志 import logging # 5个级别的日志 DEBUG INFO WARNING ERROR ...
- 关于DP和背包
听说过动态规划(DP)的同学应该都知道有背包问题的存在. 首先我们来了解一下动态规划 基本思想: 动态规划算法通常用于求解具有某种最优性质的问题. 在这类问题中, 可能会有很多可行解.每一个解都对应于 ...