python的进程

由于GIL的存在,python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing,只需要定义一个函数,Python会完成其他所有事情。借助这个包,可以轻松完成从单进程到并发执行的转换。multiprocessing支持子进程、通信和共享数据、执行不同形式的同步,提供了Process、Queue、Pipe、Lock等组件。

  multiprocessing包是Python中的多进程管理包。与threading.Thread类似,它可以利用multiprocessing.Process对象来创建一个进程。该进程可以运行在Python程序内部编写的函数。该Process对象与Thread对象的用法相同,也有start(), run(), join()的方法。此外multiprocessing包中也有Lock/Event/Semaphore/Condition类 (这些对象可以像多线程那样,通过参数传递给各个进程),用以同步进程,其用法与threading包中的同名类一致。所以,multiprocessing的很大一部份与threading使用同一套API,只不过换到了多进程的情境。

但在使用这些共享API的时候,我们要注意以下几点:

  • 在UNIX平台上,当某个进程终结之后,该进程需要被其父进程调用wait,否则进程成为僵尸进程(Zombie)。所以,有必要对每个Process对象调用join()方法 (实际上等同于wait)。对于多线程来说,由于只有一个进程,所以不存在此必要性。
  • multiprocessing提供了threading包中没有的IPC(比如Pipe和Queue),效率上更高。应优先考虑Pipe和Queue,避免使用Lock/Event/Semaphore/Condition等同步方式 (因为它们占据的不是用户进程的资源)。
  • 多进程应该避免共享资源。在多线程中,我们可以比较容易地共享资源,比如使用全局变量或者传递参数。在多进程情况下,由于每个进程有自己独立的内存空间,以上方法并不合适。此时我们可以通过共享内存和Manager的方法来共享资源。但这样做提高了程序的复杂度,并因为同步的需要而降低了程序的效率。

Process.PID中保存有PID,如果进程还没有start(),则PID为None。

window系统下,需要注意的是要想启动一个子进程,必须加上那句if __name__ == "main",进程相关的要写在这句下面。

1.进程的调用

进程调用方式和线程一样,也分为直接调用和类方法调用:

直接调用:

from multiprocessing import Process
import os def func(num):
print ('我是%s'%num)
print('我的进程号',os.getpid()) if __name__ == '__main__':
L = []
for i in range(20):
p = Process(target=func,args=(i,))
L.append(p)
p.start() for l in L:
l.join() print('ending...')

类方法调用:

from multiprocessing import Process
import os class MyProcess(Process):
def __init__(self,num):
super(MyProcess,self).__init__()
self.num = num def run(self):
print('我是%s'%self.num)
print('父进程PID号是',os.getppid())
print('我的pid号是',self.pid) if __name__ == '__main__':
L = []
print('main',os.getpid())
for i in range(20):
p = MyProcess(i)
L.append(p)
p.start() for l in L:
l.join()

2.Process类

构造方法:
Process([group [, target [, name [, args [, kwargs]]]]])
  group: 线程组,目前还没有实现,库引用中提示必须是None;
  target: 要执行的方法;
  name: 进程名;
  args/kwargs: 要传入方法的参数。
实例方法:
  is_alive():返回进程是否在运行。
  join([timeout]):阻塞当前上下文环境的进程程,直到调用此方法的进程终止或到达指定的timeout(可选参数)。
  start():进程准备就绪,等待CPU调度
  run():strat()调用run方法,如果实例进程时未制定传入target,这star执行t默认run()方法。
  terminate():不管任务是否完成,立即停止工作进程
属性:
  authkey
  daemon:和线程的setDeamon功能一样
  exitcode(进程在运行时为None、如果为–N,表示被信号N结束)
  name:进程名字。
  pid:进程号。

3.进程通信

从一开始讲概念我们知道,线程之前是共享进程里面的数据集的,所以线程之间的通信是比较方便的,进程之前没有这个数据集,那应该怎么通信呢?回想之前的线程有线程队列,进程是不是也有进程的队列呢?那肯定是有的:

进程队列:

import multiprocessing

def Foo(q):
print(q.get())
print(q.get())
print(q.get()) if __name__ == '__main__':
L = []
queue = multiprocessing.Queue()
p = multiprocessing.Process(target=Foo,args=(queue,))
p.start() queue.put({'name:pengfy'})
queue.put([1,2,3,4,5])
queue.put('qaq') p.join() #注意join放的位置

这里主进程放置了3三元素到队列,子进程取到并打印出来了,这就是一次简单的进程间的通信,这里要注意join的位置。

进程管道:

管道Pipe()函数返回一个由管道连接的连接对象(类似socket通信里面的conn),默认情况下是双工(双向):

#管道,类似socket里面的conn
#
from multiprocessing import Process,Pipe def connect(conn): conn.send([12, {"name":"pengfy"}, 'hello'])
print(conn.recv())
conn.close()
print('son2', id(conn)) if __name__ == "__main__":
parent_conn,child_conn = Pipe() #双向管道
print('son1',id(child_conn))
p = Process(target=connect,args=(child_conn,))
p.start()
print(parent_conn.recv())
parent_conn.send('孩子你好')
p.join()

看打印的id不一样,说明用的不是一份数据,是复制过去的。Pipe()返回的两个连接对象代表管道的两端。 每个连接对象都有send()和recv()方法(以及其他方法)。 请注意,如果两个进程(或线程)同时尝试读取或写入管道的同一端,则管道中的数据可能会损坏。 当然,同时使用管道的不同端的进程不存在损坏的风险。

Manages

上面两种类型,都是数据的传输,其实用的比较多的还是Manages(注意大小写)。Manager()返回的管理器对象控制一个服务器进程,该进程保存Python对象并允许其他进程使用代理操作它们

例子里面只列举了几种数据类型,总共支持的有listdictNamespaceLockRLockSemaphoreBoundedSemaphoreConditionEventBarrierQueueValueArray.

4.进程同步

线程里面我们讲过线程同步,通过采用线程锁可以解决这个问题。那么进程有没有这个问题呢?肯定是有的,比如说:当进程共用一个资源时,需要同步,比如屏幕,不同步的话打印异常(用python2打印比较容易出现)

from multiprocessing import Process

def func(i):

    print('hello',i)

if __name__ == '__main__':
L = []
for i in range(10):
p = Process(target=func,args=(i,))
p.start()
L.append(p)
for l in L:
l.join()

像这种情况,在进程里面也有一把锁来控制:

# from multiprocessing import Process,Lock
#
# def func(lock,i):
# lock.acquire()
# print('hello',i)
# lock.release()
#
# # def func(lock,i):
# # with lock:
# # print('hello',i)
#
# if __name__ == '__main__':
# lock = Lock()
# L = []
# for i in range(10):
# p = Process(target=func,args=(lock,i,))
# p.start()
# L.append(p)
# for l in L:
# l.join()

这样怎么运行都不会出现上面那种情况了,不信可以试试。

5.进程池

进程池是什么?就是一个池子,因为开多个进程比较容易消耗资源,所以需要控制同时执行的进程时,就可以用进程池来控制,进程池内部维护一个进程序列,当使用时,则去进程池中获取一个进程,如果进程池序列中没有可供使用的进进程,那么程序就会等待,直到进程池中有可用进程为止。

进程池中有两个方法:

  • apply(同步接口,一般用不上)
  • apply_async

看个例子:

from multiprocessing import Process,Pool
import time,os def func(i):
time.sleep(1)
print(i)
print("son",os.getpid()) return "HELLO %s"%i def tag(arg): #默认带有一个参数,是上面那个子进程的返回值
print(arg) if __name__ == '__main__':
pool = Pool(5)
print("main pid", os.getpid())
for i in range(100):
# pool.apply(func=Foo, args=(i,)) #同步接口
# pool.apply_async(func=Foo, args=(i,)) # 回调函数: 就是某个动作或者函数执行成功后再去执行的函数,比如子进程运行完后都要打印log,就可以统一在回调函数里面操作 pool.apply_async(func=func, args=(i,), callback=tag) pool.close()
pool.join() # join与close调用顺序是固定的 print('end')

里面涉及到一个回调函数的概念,就是某个动作或者函数执行成功后再去执行的函数,这个例子里面看的不明显,就是在每个进程执行完,都会打印一个数,你完全可以加在你的子进程函数里面去打印嘛,为什么还有用进程函数?当你每个进程,要需要做同一件事情的时候,就可以用回调函数了,这样消耗更小。

进程的知识相对简单,线程和进程都说完了,还有内容吗?是的,还有一个协程的内容下一篇再说。

python进程和线程(五)的更多相关文章

  1. python进阶:Python进程、线程、队列、生产者/消费者模式、协程

    一.进程和线程的基本理解 1.进程 程序是由指令和数据组成的,编译为二进制格式后在硬盘存储,程序启动的过程是将二进制数据加载进内存,这个启动了的程序就称作进程(可简单理解为进行中的程序).例如打开一个 ...

  2. python 进程和线程(代码知识部分)

    二.代码知识部分 一 multiprocessing模块介绍: python中的多线程无法利用多核优势,如果想要充分地使用多核CPU的资源(os.cpu_count()查看),在python中大部分情 ...

  3. python 进程与线程(理论部分)

    一.理论部分 一 什么是进程 进程:正在进行的一个过程或者说一个任务.而负责执行任务则是cpu. 举例(单核+多道,实现多个进程的并发执行): egon在一个时间段内有很多任务要做:python备课的 ...

  4. Python 进程、线程、协程的介绍与使用

    一.必备的理论基础 二.操作系统发展史 三.进程理论 四.线程理论 五.协程 一.必备的理论基础 操作系统理论: 操作系统是一个协调\管理\控制计算机硬件资源与应用软件资源的控制程序 操作系统的两大功 ...

  5. python 进程和线程

    python中的进程.线程(threading.multiprocessing.Queue.subprocess) Python中的进程与线程 学习知识,我们不但要知其然,还是知其所以然.你做到了你就 ...

  6. Python进程、线程、协程

    进程和线程的解释 进程(process)和线程(thread)是操作系统的基本概念,计算机的核心是CPU,它承担了所有的计算任务: 单个CPU一次只能运行一个任务,代表单个CPU总是运行一个进程,其他 ...

  7. python进程、线程、协程(转载)

    python 线程与进程简介 进程与线程的历史 我们都知道计算机是由硬件和软件组成的.硬件中的CPU是计算机的核心,它承担计算机的所有任务. 操作系统是运行在硬件之上的软件,是计算机的管理者,它负责资 ...

  8. Python进程和线程

    引入进程和线程的概念及区别 1.线程的基本概念 概念 线程是进程中执行运算的最小单位,是进程中的一个实体,是被系统独立调度和分派的基本单位,线程自己不拥有系统资源,只拥有一点在运行中必不可少的资源,但 ...

  9. Python进程、线程、协程详解

    进程与线程的历史 我们都知道计算机是由硬件和软件组成的.硬件中的CPU是计算机的核心,它承担计算机的所有任务. 操作系统是运行在硬件之上的软件,是计算机的管理者,它负责资源的管理和分配.任务的调度. ...

  10. python——进程、线程、协程

    Python线程 Threading用于提供线程相关的操作,线程是应用程序中工作的最小单元. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 #!/usr/bin/env pytho ...

随机推荐

  1. 图形验证码知识点整理 Object.prototype.toString.call()等

    使用typeof bar === "object"检测”bar”是否为对象有什么缺点?如何避免?这是一个十分常见的问题,用 typeof 是否能准确判断一个对象变量,答案是否定的, ...

  2. javascript系列2 -- 闭包详解

    转发请标明来源:http://www.cnblogs.com/johnhou/p/javascript.html  请尊重笔者的劳动成果  --John Hou 今天我们从内存结构上来讲解下 java ...

  3. SSE图像算法优化系列十八:三次卷积插值的进一步SSE优化。

    本文是在学习https://blog.csdn.net/housisong/article/details/1452249一文的基础上对算法的理解和重新整理,再次非常感谢原文作者的深入分析以及分享. ...

  4. 理解Go Interface

    理解Go Interface 1 概述 Go语言中的接口很特别,而且提供了难以置信的一系列灵活性和抽象性.接口是一个自定义类型,它是一组方法的集合,要有方法为接口类型就被认为是该接口.从定义上来看,接 ...

  5. [USACO11JAN]大陆议会The Continental Cowngress_2-sat

    [USACO11JAN]大陆议会The Continental Cowngress_2-sat 题意: 由于对Farmer John的领导感到极其不悦,奶牛们退出了农场,组建了奶牛议会. 议会以“每头 ...

  6. iview 菜单数据的转换,动态加载

    <template> <div class="changePassword"> <i-Menu ref="leftMenu" :t ...

  7. input表单中嵌入百度地图

    在做项目开发中,常常会用到定位的操作,比如在做一些资产房产等方面的业务的时候,需要知道资产的具体位置,并将位置信息保存下来,这个时候我们可以使用form表单嵌入百度地图的方式来实现这个功能,下面请看详 ...

  8. 列表(list) ----python

    Python 列表(List) 序列是Python中最基本的数据结构.序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推. Python有6个序列的内置类型 ...

  9. CART决策树和随机森林

    CART 分裂规则 将现有节点的数据分裂成两个子集,计算每个子集的gini index 子集的Gini index: \(gini_{child}=\sum_{i=1}^K p_{ti} \sum_{ ...

  10. 死磕 java集合之PriorityQueue源码分析

    问题 (1)什么是优先级队列? (2)怎么实现一个优先级队列? (3)PriorityQueue是线程安全的吗? (4)PriorityQueue就有序的吗? 简介 优先级队列,是0个或多个元素的集合 ...