pandas、spark计算相关性系数速度对比

相关性计算有三种算法：pearson、spearman，kenall。

在pandas库中，对一个Dataframe，可以直接计算这三个算法的相关系数correlation，方法为：data.corr()

底层是依赖scipy库的算法。

为了提升计算速度，使用spark平台来加速执行。

比较了pandas，spark并发scipy算法，spark mllib库的计算速度。

总体来说，spark mllib速度最快，其次是spark并发，pandas速度最慢。

corr执行速度测试结果

时间单位：秒

数据大小	corr算法	pandas	spark + scipy	spark mllib	备注
1000*3600	pearsonr	203	170	37	pyspark
1000*3600	pearsonr	203	50	没有计算	spark scipy计算一半
1000*3600	pearsonr	203	125	37	client模式
1000*3600	pearsonr	202	157	38	client模式
1000*3600	spearmanr	1386	6418	37	client模式
1000*3600	spearmanr	1327	6392	38	client模式
1000*3600	kendall	4326	398	无此算法	client模式
1000*3600	kendall	4239	346	无此算法	client模式
1000*1000	spearmanr	127	294	12	client 模式
1000*1000	spearmanr	98	513	5.55	client 模式
1000*360	spearmanr	13	150	没有计算	160秒，列表推导式 res = [st.spearmanr(data.iloc[:, i], data.iloc[:, j])[0] for i in range(N) for j in range(N)]
1000*360	kendall	40	45	无此算法	116秒，列表推导式 res = [st.kendall(data.iloc[:, i], data.iloc[:, j])[0] for i in range(N) for j in range(N)]

说明：spearmanr 算法在spark scipy组合下执行速度较慢，需要再对比分析，感觉存在问题的。

三种算法脚本如下：

pandas 脚本



import numpy as np

import pandas as pd

import time

C = 1000

N = 3600

data = pd.DataFrame(np.random.randn(C * N).reshape(C, -1))

print("============================ {}".format(data.shape))

print("start pandas corr ---{} ".format(time.time()))

start = time.time()

# {'pearson', 'kendall', 'spearman'}

res = data.corr(method='pearson')

end_1 = time.time()

res = data.corr(method='spearman')

end_2 = time.time()

res = data.corr(method='kendall')

end_3 = time.time()

print("pandas pearson count {} total cost : {}".format(len(res), end_1 - start))

print("pandas spearman count {} total cost : {}".format(len(res), end_2 - end_1))

print("pandas kendall count {} total cost : {}".format(len(res), end_3 - end_2))

spark scipy脚本

from pyspark import SparkContext

sc = SparkContext()

import numpy as np

import pandas as pd

from scipy import stats as st

import time

# t1 = st.kendalltau(x, y)

# t2 = st.spearmanr(x, y)

# t3 = st.pearsonr(x, y)

C = 1000

N = 3600

data = pd.DataFrame(np.random.randn(C * N).reshape(C, -1))

def pearsonr(n):

    x = data.iloc[:, n]

    res = [st.pearsonr(x, data.iloc[:, i])[0] for i in range(data.shape[1])]

    return res

def spearmanr(n):

    x = data.iloc[:, n]

    res = [st.spearmanr(x, data.iloc[:, i])[0] for i in range(data.shape[1])]

    return res

def kendalltau(n):

    x = data.iloc[:, n]

    res = [st.kendalltau(x, data.iloc[:, i])[0] for i in range(data.shape[1])]

    return res

start = time.time()

res = sc.parallelize(np.arange(N)).map(lambda x: pearsonr(x)).collect()

# res = sc.parallelize(np.arange(N)).map(lambda x: spearmanr(x)).collect()

# res = sc.parallelize(np.arange(N)).map(lambda x: kendalltau(x)).collect()

end = time.time()

print("pearsonr count {} total cost : {}".format(len(res), end - start))

print("spearmanr count {} total cost : {}".format(len(res), end - start))

print("kendalltau count {} total cost : {}".format(len(res), end - start))

# 纯python算法

s = time.time()

res = [st.spearmanr(data.iloc[:, i], data.iloc[:, j])[0] for i in range(N) for j in range(N)]

end = time.time()

print(end-s)

start = time.time()

dd = sc.parallelize(res).map(lambda x: st.spearmanr(data.iloc[:, x[0]], data.iloc[:, x[1]])).collect()

end = time.time()

print(end-start)

start = time.time()

dd = sc.parallelize(res).map(lambda x: st.kendalltau(data.iloc[:, x[0]], data.iloc[:, x[1]])).collect()

end = time.time()

print(end-start)

spark mllib脚本

from pyspark import SparkContext

sc = SparkContext()

from pyspark.mllib.stat import Statistics

import time

import numpy as np

L = 1000

N = 3600

t = [np.random.randn(N) for i in range(L)]

data = sc.parallelize(t)

start = time.time()

res = Statistics.corr(data, method="pearson")  # spearman  pearson

end = time.time()

print("pearson : ", end-start)

start = time.time()

res = Statistics.corr(data, method="spearman")  # spearman  pearson

end = time.time()

print("spearman: ", end-start)

pandas、spark计算相关性系数速度对比的更多相关文章

相关性系数及其python实现
参考文献: 1.python 皮尔森相关系数 https://www.cnblogs.com/lxnz/p/7098954.html 2.统计学之三大相关性系数(pearson.spearman.ke ...
统计学三大相关性系数：pearson，spearman，kendall
目录 person correlation coefficient(皮尔森相关性系数-r) spearman correlation coefficient(斯皮尔曼相关性系数-p) kendall ...
Spark计算模型
[TOC] Spark计算模型 Spark程序模型一个经典的示例模型 SparkContext中的textFile函数从HDFS读取日志文件,输出变量file var file = sc.textF ...
spark计算两个DataFrame的差集、交集、合集
spark 计算两个dataframe 的差集.交集.合集,只选择某一列来对比比较好.新建两个 dataframe : import org.apache.spark.{SparkConf, Spar ...
【原创 Hadoop&Spark 动手实践 7】Spark 计算引擎剖析与动手实践
[原创 Hadoop&Spark 动手实践 7]Spark计算引擎剖析与动手实践目标: 1. 理解Spark计算引擎的理论知识 2. 动手实践更深入的理解Spark计算引擎的细节 3. 通过 ...
【Spark深入学习 -13】Spark计算引擎剖析
----本节内容------- 1.遗留问题解答 2.Spark核心概念 2.1 RDD及RDD操作 2.2 Transformation和Action 2.3 Spark程序架构 2.4 Spark ...
Java进行spark计算
首先在Linux环境安装spark: 可以从如下地址下载最新版本的spark: https://spark.apache.org/downloads.html 这个下载下来后是个tgz的压缩包,解压后 ...
【Python学习笔记】使用Python计算皮尔逊相关系数
源代码不记得是哪里获取的了,侵删.此处博客仅作为自己笔记学习. def multipl(a,b): sumofab=0.0 for i in range(len(a)): temp=a[i]*b[i] ...
Pandas统计计算和描述
Pandas统计计算和描述示例代码: import numpy as np import pandas as pd df_obj = pd.DataFrame(np.random.randn(5,4 ...
相关性系数缺点与证明 k阶矩
相关性系数 https://baike.baidu.com/item/相关系数/3109424?fr=aladdin 缺点需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关, ...

随机推荐

Docker部署Node应用简单实践
简介: 本文将从零至一,介绍如何在云服务器上通过 Docker 容器运行一个简单的Node应用. 前言本文将从零至一,介绍如何在云服务器上通过 Docker 容器运行一个简单的Node应用.本文假设 ...
一文读懂容器存储接口 CSI
简介: 在<一文读懂 K8s 持久化存储流程>一文我们重点介绍了 K8s 内部的存储流程,以及 PV.PVC.StorageClass.Kubelet 等之间的调用关系.接下来本文将将重点 ...
好代码实践：基于Redis的轻量级分布式均衡消费队列
简介: 好代码,给人第一个印象的感觉,就像一篇好文章一样,读起来朗朗上口.不同的文章有不同的风格体裁,不同的代码也有不同的编程风格要求.Python有严格的缩进,像诗歌一样工整对仗:C语言面向过程像散 ...
【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新
简介:本文翻译自 Altinity 针对 ClickHouse 的系列技术文章.面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB级的数据规模,简单的架构,被 ...
当设计模式遇上 Hooks
简介: 数据结构与设计模式能够指导我们在开发复杂系统中寻得一条清晰的道路,既然都说 Hooks 难以维护,那就尝试让「神」来拯救这混乱的局面.对于「设计模式是否有助于我们写出更优雅的 Hooks 」 ...
WPF 框架开发 ColumnDefinition 和 RowDefinition 的代码在哪
我的 VisualStudio 在更新到 2022 就构建不通过 WPF 仓库,提示我在 Grid 的代码里面找不到 ColumnDefinitionCollection 和 RowDefinitio ...
WPF 列表控件数据源绑定多个数据集合方法
在 WPF 用的多的列表控件如 ListBox 或 ListView 等,本文告诉大家在这些列表控件上进行绑定多个数据集合来源的多个实现方法.如有一个显示动物列表的控件,需要绑定的数据来源是阿猫和阿狗 ...
netcore5下ocelot网关简单使用
1.新建aspnetcoremvc项目,带home控制器的就可以了,测试用能启动就行,代码无需做任何更改. 2.新建空的aspnetcoremvc项目,做如下更改: 1.. 2.. 3.. 4.. ...
.NET CORE 完美支持AOT 的 ORM SqlSugar 教程
1.AOT适合产场 Aot适合工具类型的项目使用,优点禁止反编 ,第一次启动快,业务型项目或者反射多的项目不适合用AOT AOT更新记录: 实实在在经过实践的AOT ORM 5.1.4.117 +支持 ...
blazor中的PageTitle输出keywords和description，自定义组件
在blazor的PageTitle中不具备输出keywords和description的功能,而如果直接使用<mate>标签,输出中文时会变成乱码,所以我给大家推介下面的代码解君愁: 1 ...

pandas、spark计算相关性系数速度对比

pandas、spark计算相关性系数速度对比

corr执行速度测试结果

pandas 脚本

spark scipy脚本

spark mllib脚本

pandas、spark计算相关性系数速度对比的更多相关文章

随机推荐

热门专题