cython并行性能-计算滚动求和 rolling function

cython通过编译为C程序提高性能有很多例子，通过OpenMP并行的性能没那么多。

今天尝试了一下似乎gcc对parallelism reduction优化的很厉害，加上OpenMP并行可以提高20倍性能（相对于pandas rolling），这不是简单的2 core带来的性能提高。

滚动求和 rolling sum的例子

最简单的实现pandas.rolling，通过操作numpy array，速度也还算能接受。

# test_para.py

import numpy as np

#import pyximport; pyximport.install(reload_support=True, setup_args={"include_dirs":np.get_include()})

import timeit

import pandas as pd

import para.cpara as cpara

X = -1 + 2*np.random.rand(100000)

ss = pd.Series(X)

ss.rolling(100).apply(np.sum,raw=True)

print('==============')

print('multi thread')

start_time = timeit.default_timer()

sum_cython=pd.Series(cpara.window_sum(X, 100))

print(timeit.default_timer() - start_time)

print('single thread')

start_time = timeit.default_timer()

sum_pandas=ss.rolling(100).apply(np.sum,raw=True)

print(timeit.default_timer() - start_time)

print(np.max(np.abs(sum_cython - sum_pandas)))

cython源文件

# cpara.pyx

cimport cython

import numpy as np

from cython.parallel import prange,parallel

cimport numpy as cnp

from libc.stdlib cimport malloc

@cython.boundscheck(False)

def window_sum(cnp.ndarray[double, ndim=1] arr, int window):

    cdef h = np.zeros_like(arr)

    cdef int imax = arr.shape[0]

    cdef double *buffer = <double *>malloc(imax * sizeof(double))

    cdef double result = 0.0

    cdef int i, j

    with nogil, parallel():

        for i in prange(imax, schedule='dynamic'):

            buffer[i] = 0.0

            if i >= window-1:

                for j in range(window):

                    buffer[i] += arr[i-j]

    for i in range(imax):

        if i < window -1:

            h[i] = np.nan

        else:

            h[i] = buffer[i]

    return h

setup.py中要加入openmp的编译链接参数

EXT = Extension("*",

                ["para/*.pyx"],

                define_macros=[('CYTHON_TRACE', CYTHON_DEBUG),

                               ('CYTHON_TRACE_NOGIL', CYTHON_DEBUG),

                               ('CYTHON_BINDING', CYTHON_DEBUG),

                               ("NPY_NO_DEPRECATED_API", "NPY_1_7_API_VERSION"),

                               ('CYTHON_FAST_PYCCALL', '1')],

                extra_compile_args = ["-fopenmp" ],

                extra_link_args=['-fopenmp'],

                include_dirs=[".", np.get_include()])

性能比较

%timeit pd.Series(cpara.window_sum(X, 100))

23.4 ms ± 325 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

%timeit ss.rolling(100).apply(np.sum,raw=True)

536 ms ± 3.96 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

536/23.4=22.9

测试环境：i3-7100U 2core 2T CPU, ubuntu 18.04 LTS

cython并行性能-计算滚动求和 rolling function的更多相关文章

easyui生成合并行,合计计算价格
easyui生成合并行,合计计算价格注:本文来源: 原创一:图样你效果图二:代码实现 1:datagrid 列展示: window.dataGrid = $("#dataGrid&qu ...
python cython c 性能对比
我们用以下方法计算百万以上float型数据的标准偏差,以估计各个方法的计算性能: 原始python numpy cython c(由cython调用) python 原始方法: # File: Std ...
ForkJoin、并行流计算、串行流计算对比
ForkJoin 什么是 ForkJoin ForkJoin 是一个把大任务拆分为多个小任务来分别计算的并行计算框架 ForkJoin 特点:工作窃取这里面维护的都是双端队列,因此但其中一个线程完成 ...
横向tab计算滚动位置
React横向滚动计算 class Footer extends React.Component { handleClick(e) { const offset = 150; // 指定偏移量 thi ...
.NET使用Task动态创建多任务多线程并行程序计算Redis集群keys计算
Task是一个很好用的多任务处理类,并且通过Task可以对任务进行很好的控制. 下面将通过代码实现Redis集群在使用IServer.keys时通过多任务对多个服务器示例进行并行计算,并对返回key做 ...
js滚动
有选择性的重复造一些轮子,未必是件坏事.Aaron的博客上加了一个悬浮菜单,貌似显得很高大上了.虽然这类小把戏也不是头一次见了,但是从未自己写过.今天就选择性的拿这个功能写一写.下面是这个轮子的开发过 ...
js的下拉刷新和上拉加载，基于iScroll v4.2.5
html部分 <div id="wrapper" style="height: 100%"> <div id="scroller&q ...
一个用于每一天JavaScript示例-使用缓存计算（memoization）为了提高应用程序性能
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content ...
[转] Performance_js中计算网站性能监控利器
1.Performance方法 Performance提供的方法可以灵活使用,获取到页面加载等标记的耗时情况. performance.now() //返回当前到页面打开时刻的耗时,精确到千分之一毫秒 ...
开源图计算框架GraphLab介绍
GraphLab介绍 GraphLab 是由CMU(卡内基梅隆大学)的Select 实验室在2010 年提出的一个基于图像处理模型的开源图计算框架.框架使用C++语言开发实现. 该框架是面向机器学习( ...

随机推荐

appium之安卓7.0环境搭建
appium 在安卓7.0的手机上运行上报错---------Failure [INSTALL_FAILED_ALREADY_EXISTS: Attempt to re-install io.appi ...
[USACO17JAN]Cow Dance Show S更新ing
这道题目是二分舞台大小,为什么能用二分呢?因为如果mid成立则mid~r都成立,如果mid不成立l~mid就都不成立,也就是严格单调,所以可以使用二分快速找到k. check函数的思路: 实现:在舞 ...
使用 shell 脚本拼接 srt 字幕文件 (srtcat)
背景前段时间迷上了做 B 站视频,主要是摩托车方面的知识分享.做的也比较粗糙,就是几张图片配上语音和字幕进行解说.尝试过自己解说,发现录制视频对节奏的要求还是比较高的,这里面水太深把握不住.好在以 ...
web自动化中如何使用cookie登录
做web自动化的时候,登录是关键的一步.但每次频繁的输入用户名.密码导致心态有些爆炸,所以使用cookie登录势在必行.下面是两种场景的cookie登录. 一. cookie登录1 这种是界面地址跳转 ...
python 操作 WhiteSpace 语言
python 操作 WhiteSpace语言目录 python 操作 WhiteSpace语言 1 WhiteSpace 简介 2 Python 操作栈流程 1 WhiteSpace 简介 Whit ...
Vue中v-model与:value的区别
v-model不可以加其他值 <input type="text" v-model="curAmount"> :value可以加单位 <in ...
XMLHttpRequest、Ajax、Fetch与Axios
1. 引言 XMLHttpRequest.Ajax.Fetch与Axios是网页前后端交互中常见到的名词参考MDN:Ajax - Web 开发者指南 | MDN (mozilla.org) Ajax ...
IntelliJ IDEA 程序运行的控制台乱码
参考:https://blog.csdn.net/zp357252539/article/details/124614007 上方导航栏"Run→Edit Configurations-&q ...
spring boot 跨域
spring boot提供了两种跨域配置方式 1.全局跨域 2.局部跨域全局跨域 package com.tons.config; import org.springframework.contex ...
Word16 供应链的管理论文office真题
1.课程的讲解之前,先来对题目进行分析,首先需要在考生文件夹下,将Wrod素材.docx文件另存为Word.docx,后续操作均基于此文件,否则不得分. 2.这一步非常的简单,打开下载素材文件,在[文 ...

cython并行性能-计算滚动求和 rolling function

cython并行性能-计算滚动求和 rolling function的更多相关文章

随机推荐

热门专题