Python Dataframe 分组排序和 Modin

鸿燕藏锋 2024-10-30 21:33:36 原文

Python Dataframe 分组排序和 Modin

1、按照其中一列进行排序

在dataframe中，按照其中的一列排序：比如q值倒排

(1)rank方法

data['new_rank'] = data.groupby('house_code')['q_score_new'].rank(ascending=False, method='dense')

(2)sort_values方法

data.sort_values(['q_score_new'], ascending=False).groupby(['house_code']).cumcount() + 1

2、按照其中多列进行排序

在dataframe中，按照其中的多列排序：比如q值倒排、经纪人ucid正排

sort_values方法

(1)dsort_values方法ata.sort_values(['q_score_new', 'agent_ucid'], ascending=[ False, True]).groupby(['house_code']).cumcount() + 1 # 20多秒（100多万行数据集上）

(2)data = data.groupby('house_code').sort_values(by=['q_score_new', 'agent_ucid'], ascending=(False, True)).groupby('house_code').apply(f) # 200多秒（100多万行数据集上）

    def f(df):

        df['new_rank'] = range(1, len(df) + 1)

        return df

最终结果显示：第一种比第二种（）快10倍左右（在200万行数据集上），所以推荐第二种！！！

3、modin

(1)简介

Modin 是加州大学伯克利分校 RISELab 的一个早期项目，旨在促进分布式计算在数据科学领域的应用。它是一个多进程的数据帧（Dataframe）库，具有与 Pandas 相同的应用程序接口（API），使用户可以加速他们的 Pandas 工作流。

(2)原理

从本质上讲，Modin 所做的只是增加了 CPU 所有内核的利用率，从而提供了更好的性能。

(3)安装使用

Modin 是完全开源的，可以通过下面的 GitHub 链接获得：

https://github.com/modin-project/modin

我们可以使用如下所示的 PyPi 指令来安装 Modin：

pip install modin

在 Windows 环境下，Ray 是安装 Modin 所需的依赖之一。Windows 本身并不支持 Ray，所以为了安装它，用户需要使用 WSL（适用 Linux 的 Windows 子系统，适用Linux和mac）

(4)性能提升

pandas的内置函数（比如groupby等）因为优化的很好，所以和modin.pandas处理速度差不多，提升主要提现在数据读取上。通常，Modin 使用「read_csv」函数读取 2G 数据需要 2 秒，而读取 18G 数据大约需要不到 18 秒。

%%time

import pandas

pandas_csv_data = pandas.read_csv("../800MB.csv")

-----------------------------------------------------------------

CPU times: user 26.3 s, sys: 3.14 s, total: 29.4s

Wall time: 29.5 s

%%time

import modin.pandas

modin_csv_data = pd.read_csv("../750MB.csv")

-----------------------------------------------------------------

CPU times: user 76.7 ms, sys: 5.08 ms, total: 81.8 ms

Wall time: 7.6 s

(5)未来

Modin 项目仍处于早期阶段，但对 Pandas 来说是一个非常有发展前景的补充。Modin 为用户处理所有的数据分区和重组任务，这样我们就可以集中精力处理工作流。Modin 的基本目标是让用户能够在小数据和大数据上使用相同的工具，而不用考虑改变 API 来适应不同的数据规模

Python Dataframe 分组排序和 Modin的更多相关文章

Python实现常用排序算法
Python实现常用排序算法冒泡排序思路: 它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来.走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完 ...
一条Sql语句分组排序并且限制显示的数据条数
如果我想得到这样一个结果集:分组排序,并且每组限定记录集的数量,用一条SQL语句能办到吗? 比如说,我想找出学生期末考试中,每科的前3名,并按成绩排序,只用一条SQL语句,该怎么写? 表[TScore ...
SQL语句分组排序，多表关联排序
SQL语句分组排序,多表关联排序总结几种常见的方法: 案例一: 在查询结果中按人数降序排列,若人数相同,则按课程号升序排列? 分析:单个表内的多个字段排序,一般可以直接用逗号分割实现. select ...
oracle 分组排序函数
项目开发中,我们有时会碰到需要分组排序来解决问题的情况:1.要求取出按field1分组后,并在每组中按照field2排序:2.亦或更加要求取出1中已经分组排序好的前多少行的数据这里通过一张表的示例和 ...
Python实现各种排序算法的代码示例总结
Python实现各种排序算法的代码示例总结作者:Donald Knuth 字体:[增加减小] 类型:转载时间:2015-12-11我要评论这篇文章主要介绍了Python实现各种排序算法的代码示 ...
oracle中分组排序函数用法 - 转
项目开发中,我们有时会碰到需要分组排序来解决问题的情况,如:1.要求取出按field1分组后,并在每组中按照field2排序:2.亦或更加要求取出1中已经分组排序好的前多少行的数据这里通过一张表的示 ...
List对象分组排序算法
场景: List里面的对象是订单的节点,比如我们快递的物流状态,这个是需要有序的,所以需要根据订单号进行分组排序. import java.util.ArrayList; import java.ut ...
js分组排序算法, OrderBy
由于项目中需要对数据进行分组排序,类似于sql中 order by column1,column2.... 实现的关键是分组排序,第一个column1,排序完成之后,对其分组,然后按照column ...
MYSQL-实现ORACLE- row_number() over(partition by ) 分组排序功能
MYSQL-实现ORACLE- row_number() over(partition by ) 分组排序功能由于MYSQL没有提供类似ORACLE中OVER()这样丰富的分析函数. 所以在MYSQ ...

随机推荐

Codeforces Round #602 (Div. 2, based on Technocup 2020 Elimination Round 3) D2. Optimal Subsequences (Hard Version) 数据结构贪心
D2. Optimal Subsequences (Hard Version) This is the harder version of the problem. In this version, ...
centos安装nodejs并配置生产环境，基于pm2
安装nodejs和yarn的命令: curl --silent --location https://dl.yarnpkg.com/rpm/yarn.repo | sudo tee /etc/yum. ...
Pytorch的tensor数据类型
基本类型 torch.Tensor是一种包含单一数据类型元素的多维矩阵. Torch定义了七种CPU tensor类型和八种GPU tensor类型: Data tyoe CPU tensor GPU ...
Unity Settings Deamon crash in 16.04 every time after boot
安装ubuntu 16.04的时候,出现这样一个错误: unity-settings-deamon crashed with SIGSEGV in up_exported_dae (can't rea ...
多网卡做team
简明的说,就是把多个物理网卡绑定成一个逻辑上的网卡,以增加带宽,或者实现主备功能,增加硬件冗余,以实现更高的系统稳定性,目前主要有bond和team两种做法,而bond主要是针对双网卡的情况来说,而t ...
如何将Javaweb工程的访问协议由http改为https及通过域名访问?
将javaweb工程的http访问协议更改为https,需要做一下几部操作: 通过jre生成证书调整tomcat的配置调整工程的web.xm配置具体详细过程如下: 一.生成证书打开cmd切换到 ...
PyCharm 2017: Remote debugging using remote interpreter doesn't work
I set up a remote interpreter and verified that I can run a script using the remote interpreter. Con ...
Docker - 快速入门(一)
概念下面这三个概念一开始可能不好理解,等大家跟着博客把例子做完了,再回头来看应该就能理解了. docker image # docker镜像镜像就是一个只读的模板.镜像可以用来创建Docker容 ...
winform批量更新数据_长时间的执行会导致界面卡死
前言:使用winform触发一个事件后执行的代码,如果耗时非常长,则会导致窗口界面假死! 本人最近通过winform窗体执行一项:需要批量更新一批数据库的数据的操作的任务时,由于数据量达到百万级别, ...
Python爬取十四万条书籍信息告诉你哪本网络小说更好看
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: TM0831 PS:如有需要Python学习资料的小伙伴可以加点击 ...