Python的并行求和例子

先上一个例子，这段代码是为了评估一个预测模型写的，详细评价说明在

https://www.kaggle.com/c/how-much-did-it-rain/details/evaluation，

它的核心是要计算

在实际计算过程中，n很大（1126694），以至于单进程直接计算时间消耗巨大（14分10秒），

所以这里参考mapReduce的思想，尝试使用多进程的方式进行计算，即每个进程计算一部分n，最后将结果相加再计算C

代码如下：

import csv

import sys

import logging

import argparse

import numpy as np

import multiprocessing

import time

# configure logging

logger = logging.getLogger("example")

handler = logging.StreamHandler(sys.stderr)

handler.setFormatter(logging.Formatter(

    '%(asctime)s %(levelname)s %(name)s: %(message)s'))

logger.addHandler(handler)

logger.setLevel(logging.DEBUG)

def H(n, z):

    return (n-z) >= 0

def evaluate(args, start, end):

    '''handle range[start, end)'''

    logger.info("Started %d to %d" %(start, end))

    expReader = open('train_exp.csv','r')

    expReader.readline()

    for i in range(start):

        _ = expReader.readline()

    predFile = open(args.predict)

    for i in range(start+1):

        _ = predFile.readline()

    predReader = csv.reader(predFile, delimiter=',')

    squareErrorSum = 0

    totalLines = end - start

    for i, row in enumerate(predReader):

        if i == totalLines:

            logger.info("Completed %d to %d" %(start, end))

            break

        expId, exp = expReader.readline().strip().split(',')

        exp = float(exp)

        predId = row[0]

        row = np.array(row, dtype='float')

        #assert expId == predId

        #lineSum = 0

        for j in xrange(1,71):

            n = j - 1

            squareErrorSum += (row[j]-(n>=exp))**2

            #squareErrorSum += (row[j]-H(n,exp))**2

            #lineSum += (row[j]-H(n,exp))**2

    logger.info('SquareErrorSum %d to %d: %f' %(start, end, squareErrorSum))

    return squareErrorSum

def fileCmp(args):

    '''check number of lines in two files are same'''

    for count, line in enumerate(open('train_exp.csv')):

        pass

    expLines = count + 1 - 1 #discare header

    for count, line in enumerate(open(args.predict)):

        pass

    predictLines = count + 1 - 1

    print 'Lines(exp, predict):', expLines, predictLines

    assert expLines == predictLines

    evaluate.Lines = expLines

if __name__ == "__main__":

    # set up logger

    parser = argparse.ArgumentParser(description=__doc__)

    parser.add_argument('--predict',

                        help=("path to an predict probability file, this will "

                              "predict_changeTimePeriod.csv"))

    args = parser.parse_args()

    fileCmp(args)

    pool = multiprocessing.Pool(processes=multiprocessing.cpu_count())

    result = []

    blocks = multiprocessing.cpu_count()

    linesABlock = evaluate.Lines / blocks

    for i in xrange(blocks-1):

        result.append(pool.apply_async(evaluate, (args, i*linesABlock, (i+1)*linesABlock)))

    result.append(pool.apply_async(evaluate, (args, (i+1)*linesABlock, evaluate.Lines+1)))

    pool.close()

    pool.join()

    result = [res.get() for res in result]

    print result

    print 'evaluate.Lines', evaluate.Lines

    score = sum(result) / (70*evaluate.Lines)

    print "score:", score

这里是有几个CPU核心就分成几个进程进行计算，希望尽量榨干CPU的计算能力。实际上运行过程中CPU的占用率也一直是100%

测试后计算结果与单进程一致，计算时间缩短为6分27秒，只快了一倍。

提升没有想象中的大。

经过尝试直接用StringIO将原文件每个进程加载一份到内存在进行处理速度也没有进一步提升，结合CPU的100%占用率考虑看起来是因为计算能力还不够。

看来计算密集密集型的工作还是需要用C来写的：）

C的实现要比python快太多了，单线程只需要50秒就能搞定，详见：

http://www.cnblogs.com/instant7/p/4313649.html

Python的并行求和例子的更多相关文章

python实现并行爬虫
问题背景:指定爬虫depth.线程数, python实现并行爬虫思路: 单线程实现爬虫类Fetcher 多线程 threading.Thread去调Fet ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
【MPI】并行求和
比较简单的并行求和读入还是串行的而且无法处理线程数无法整除数据总长度的情况主要用到了MPI_Bcast MPI_Scatter MPI_Reduce typedef long long __in ...
快速掌握用python写并行程序
目录一.大数据时代的现状二.面对挑战的方法 2.1 并行计算 2.2 改用GPU处理计算密集型程序 3.3 分布式计算三.用python写并行程序 3.1 进程与线程 3.2 全局解释器锁GIL ...
Python,while循环小例子--猜拳游戏(三局二胜)
Python,while循环小例子--猜拳游戏(三局二胜) import random all_choice = ['石头', '剪刀', '布'] prompt = '''(0)石头 (1)剪刀 ( ...
python中并行遍历：zip和map-转
http://blog.sina.com.cn/s/blog_70e50f090101lat2.html 1.并行遍历:zip和map 内置的zip函数可以让我们使用for循环来并行使用多个序列.在基 ...
python之第一个例子hello world
python用缩进(四个空格,不是teble)来区分代码块 1. coding=utf-8 字符编码,支持汉字 #!/usr/bin/env python# coding=utf-8print ...
[Spark][Python]DataFrame where 操作例子
[Spark][Python]DataFrame中取出有限个记录的例子的继续 [15]: myDF=peopleDF.where("age>21") In [16]: m ...
[Spark][Python]DataFrame select 操作例子
[Spark][Python]DataFrame中取出有限个记录的例子的继续 In [4]: peopleDF.select("age")Out[4]: DataFrame[a ...

随机推荐

使用Google Thumbnails 压缩图片
背景说明:最近项目中需要用到一些图片文件的上传 ,但是有些图片很大,比如轮播图,大有的有几兆,这样加载一个首页都要很久,显然这样对用户体验是非常不友好的,对服务器资源将是一种浪费. 为了解决这个问题, ...
late_initcall 替换 module_init
今天在调试pwm驱动程序的时候,在__init函数中调用pwm_init后,则以太网不可用.pwm_init放在设备文件的open函数中,则系统正常运行. 这当中的区别就是硬件初始化函数pwm_ini ...
Django单表查询及其方法
单表查询前期准备首先新建一个test的python文件,然后再manage.py中导入main语句及其下面的复制到新文件中并导入django 写上django.setup() 就可以导入对应的m ...
Django：中间件与csrf
一.中间件什么是中间件中间件有什么用自定义中间件中间件应用场景二.csrf csrf token跨站请求伪造一.中间件什么是中间件中间件顾名思义,是介于request与response ...
Almost Acyclic Graph CodeForces - 915D （思维+拓扑排序判环）
Almost Acyclic Graph CodeForces - 915D time limit per test 1 second memory limit per test 256 megaby ...
自定义系统类加载器源码分析与forName方法底层剖析
基于上一次[https://www.cnblogs.com/webor2006/p/9240898.html]Launcher的分析继续,上次分析到了这: 接着创建应用类加载器,其创建过程其扩展类加载 ...
(转)再过半小时，你就能明白kafka的工作原理了
为什么需要消息队列周末无聊刷着手机,某宝网APP突然蹦出来一条消息“为了回馈老客户,女朋友买一送一,活动仅限今天!”.买一送一还有这种好事,那我可不能错过!忍不住立马点了去.于是选了两个最新款,下单 ...
python 单例与数据库连接池及相关选择
单例:专业用来处理连接多的问题(比如连接redis,zookeeper等),全局只有一个对象单例代码 def singleton(cls): instances = {} def _singleto ...
js中回调函数（callback)的一些理解
前言我个人在学习Node.js相关知识时遇到了回调函数这个概念,虽然之前已经在c,c++等编程语言中用到过它,但还一直未对其机制有深入了解,这次就来好好谈一下它. 概念理解百度对它的解释是回调函数 ...
P1198最大数——线段树点修改&&模板题
题目题目链接大意:维护一个数列,有两种操作: 查询操作Q L:查询当前数列中末尾L个数中的最大的数插入操作A n:将n加上t再对D取模,将所得值插入数列末尾解决方案由题意知,只有两种操作 ...

Python的并行求和例子

Python的并行求和例子的更多相关文章

随机推荐

热门专题