Pandas 数据筛选,去重结合group by 需求 今小伙伴有一个Excel表, 是部门里的小伙9月份打卡记录, 关键字段如下: 姓名, 工号, 日期, 打卡方式, 时间, 详细位置, IP地址.... 脱敏数据: 姓名 工号 日期 方式 时间 ... 小赵 123 2019-09-01 GPS 08:37:50 .... 小赵 123 2019-09-01 GPS 18:10:50 ... 小陈 124 2019-09-01 GPS 08:47:30 ... 小陈 124 2019-09-…
数据转换 移除重复数据 import pandas as pd import numpy as np from pandas import Series data = pd.DataFrame( {'k1':['one']*3+['two']*4, 'k2':[1,1,2,3,3,4,4]}) data k1 k2 0 one 1 1 one 1 2 one 2 3 two 3 4 two 3 5 two 4 6 two 4 duplicated方法返回一个布尔型Series,表示各行是否是重复…
pandas学习(常用数学统计方法总结.读取或保存数据.缺省值和异常值处理) 目录 常用数学统计方法总结 读取或保存数据 缺省值和异常值处理 常用数学统计方法总结 count 计算非NA值的数量 describe 针对Series或DataFrame列计算统计 min/max/sum 计算最小值 最大值 总和 argmin argmax 计算能够获取到最小值和最大值的索引位置(整数) idxmin idxmax 计算能够获取到最小值和最大值的索引值 quantile 计算样本的分位数(0到1)…
pandas数据操作 字符串方法 Series对象在其str属性中配备了一组字符串处理方法,可以很容易的应用到数组中的每个元素 t = pd.Series(['a_b_c_d','c_d_e',np.nan,'f_g_h']) t t.str.cat(['A','B','C','D'],sep=',') #拼接字符串 t.str.split('_') #切分字符串 t.str.get(0) #获取指定位置的字符串 t.str.replace("_", ".") #替…
Pandas数据统计函数 汇总类统计 唯一去重和按值计数 相关系数和协方差 0.读取csv数据 1.汇总类统计 2.唯一去重和按值计数 2.1 唯一性去重 一般不用于数值列,而是枚举.分类列 2.2 按值计数 3.相关系数和协方差 用途(超级厉害): 两只股票,是不是同涨同跌?程度多大?正相关还是负相关? 产品销量的波动,跟哪些因素正相关.负相关,程度有多大? 来自知乎,对于两个变量X.Y: 协方差:衡量同向反向程度,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高:如果协方差为负…
Pandas数据特征分析 数据的排序 将一组数据通过摘要(有损地提取数据特征的过程)的方式,可以获得基本统计(含排序).分布/累计统计.数据特征(相关性.周期性等).数据挖掘(形成知识). .sort_index()方法在指定轴上根据索引进行排序,默认升序 .sort_index(axis=0, ascending=True) In [1]: import pandas as pd In [2]: import numpy as np In [3]: b = pd.DataFrame(np.ar…
需求产生的背景: 数据库里建库时插入了字典数据,可是这个字典数据,有一些是不准确的,所以就需要把一些固定的数据查出来替换掉. 问题解决逻辑: 大体逻辑是,首先把固定需要替换的字符串提取出来,赋值给变量. 然后在用update 语句更新用REPLACE替换的数据. 下面代码: declare @pacsIp varchar(30)  --定义一个临时变量,用来存储需要替换的字符串 SELECT @pacsIp = ( SUBSTRING ( popedom_URL , charindex('//'…
http://blog.csdn.net/pipisorry/article/details/52208727 数据输入输出 数据pickling pandas数据pickling比保存和读取csv文件要快2-3倍(lz测试不准,差不多这么多). ltu_df.to_pickle(os.path.join(CWD, 'middlewares/ltu_df')) ltu_df = pd.read_pickle(os.path.join(CWD, 'middlewares/ltu_df')) [re…
对DataTable里面的数据进行去重 DataTable dt = new DataTable(); dt.Columns.Add("Id", typeof(int)); dt.Columns.Add("Nu", typeof(int)); Random r = new Random(DateTime.Now.Millisecond); //DataTable 去重 ; i < ; i++) { dt.Rows.Add(r.Next(, ),); } dt.…
Pandas数据排序 .sort_index() 在指定轴上根据索引进行排序,索引排序后内容会跟随排序 b = pd.DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b']) b b.sort_index() b.sort_index(ascending=False) b.sort_index(axis=0, ascending=False) #按行标排序,ascending:False为降序 b.sort_index(axis=…