线程

线程基础知识

一个应用程序，可以多进程、也可以多线程.

一个python脚本，默认是单进程，单线程的。

I/O操作（音频、视频、显卡操作），不占用CPU，所以：

对于I/O密集型操作，不会占用CPU，使用多线程操作，能提高效率
对于计算密集型操作，由于占用CPU，使用多进程操作，能提高效率

python中有个全局解释器锁，叫GIL（全称Global Interpreter Lock），导致一个进程只能由一个线程让CPU去调度,但在java c#可以使用多个线程。

多线程，多进程的目的，是为了提高并发，I/O密集型用多线程，计算密集型，用多进程。

我们来看看怎么创建多线程：

def f1(args):

     print(args)

import threading

t=threading.Thread(target=f1,args=(123,))    #创建一个线程，target表示线程执行的目标，args表示参数

t.start()     #并不代表当前立即被执行,系统来决定

f1(111)

以上代码结果print顺序会随机！

更多的方法：

start 不代表当前线程并不会立即被执行，而是等待CPU调度,(准备就绪,等待调度)
setName 为线程设置名称
setDaemon(True) True表示主线程不等待子线程,执行完自己的任务后，自动关闭，子线程有可能未执行完毕。（默认情况下，主线程要等待子线程执行完毕后再关闭主线程）,(True:后台线程，主线程执行过程中，后台线程也在进行，主线程执行完毕后，后台线程不论成功与否，均停止;False:前台线程，主线程执行过程中，前台线程也在进行，主线程执行完毕后，等待前台线程也执行完成后，程序停止)
join(2) 如果不想让线程并发的操作，表示主线程到此等待，等待直到子线程执行完毕。如果加上参数，表示主线程在此最多等几秒。该方法使得多线程变得无意义
run 线程被cpu调度后自动执行线程对象的run方法

import time

def f1(args):

    time.sleep(5)

    print(args)

import threading

t1=threading.Thread(target=f1,args=(123,))

t1.setDaemon(True)  #表示主线程不等待子线程

t.start()     #并不代表当前被立即被执行,系统来决定

f1(111)

t.join(2) #表示主程序执行到此,等待...直到子线程执行完毕

print(222222)

print(333333)

下面看下run方法:

class MyThread(threading.Thread):

    def __init__(self,num):

        threading.Thread.__init__(self)

        self.num = num

    def run(self):#定义每个线程要运行的函数

        print("running on number:%s" %self.num)

        time.sleep(3)

if __name__ == '__main__':

    t1 = MyThread(1)

    t2 = MyThread(2)

    t1.start()

    t2.start()

线程的调用方式:

线程有两种调用方式:

简单的调用方式
自定义类的调用方式

简单调用方式:自定义一个继承threading.thread的子类,通过自定义类的对象调用

import threading

def f1(arg):

    print(arg)

t = threading.Thread(target=f1,args=(123,))

t.run()

自定义类的调用方式

import threading

def f2(arg):

    print(arg)

class MyThread(threading.Thread):

    def __init__(self,func,args):

        self.func=func

        self.args=args

        super(MyThread,self).__init__()

    def run(self):

        self.func(self.args)

obj=MyThread(f2,123)

obj.run()

线程锁

由于线程之间进行随机调度,并且每个线程可能只执行n条操作后,当多个线程同时修改同一条数据时,可能会出现脏数据:同一时刻只能允许指定的线程数执行操作.

python中的线程锁有Lock, RLock两种,其中RLock用的较多,因为支持多层嵌套的方式,Lock用的较少,不支持多层嵌套锁.

def func(l):

    global NUM

    #上锁

    l.acquire()

    NUM-=1

    time.sleep(2)

    print(NUM)

    #开锁

    l.release()

lock=threading.RLock() #放行几个线程出去执行

for i in range(30):

    t=threading.Thread(target=func,args=(lock,))

    t.start()

如果不使用线程锁,上面程序会有30个线程同时执行,结果为30个-20

信号量(互斥锁)

semaphore,同时允许指定数量的线程更改数据,比如厕所有3个坑，那最多只允许3个人上厕所，后面的人只能等里面有人出来了才能再进去。

import threading,time

NUM=10

def func(l):

    global NUM

    #上锁

    l.acquire()

    NUM-=1

    time.sleep(2)

    print(NUM)

    #开锁

    l.release()

lock=threading.BoundedSemaphore(3)  #放行几个线程出去执行

for i in range(30):

    t=threading.Thread(target=func,args=(lock,))

    t.start()

从上面两个代码对比,我们会发现,semaphore如果设置为1时,也可实现信号锁的功能.

事件(event)

python线程中的event主要用于让主线程控制其子线程的执行方式(有点类似交警控制红绿灯),event主要提供三个方法:set wait clear

事件处理的机制：全局定义了一个“Flag”，如果“Flag”值为 False，那么当程序执行 event.wait 方法时就会阻塞，如果“Flag”值为True，那么event.wait 方法时便不再阻塞。

clear:将'Flag'设置为False
set:将'Flag'设置为True

import threading

def func(i,e):

    print(i)

    e.wait()        #检测是什么灯

    print(i+100)

event=threading.Event()

for i in range(10):

    t = threading.Thread(target=func,args=(i,event))

    t.start()

event.clear() #默认是红灯

inp = input('>>>')

if inp == '1':

    event.set() #设置成绿灯

条件(condition)

使线程等待,当条件成立时,释放线程执行.

import threading

def func(i,con):

    print(i)

    con.acquire()   #配合,固定格式,线程hold住

    con.wait()

    print(i+100)

    con.release()

c=threading.Condition()

for i in range(10):

    t = threading.Thread(target=func,args=(i,c,))

    t.start()

while True:

    inp = input('>>>|')

    if inp == 'q':

        break

    c.acquire()     #以下都是固定格式

    c.notify(int(inp))

    c.release()

例子1中,写到函数func中的:c.acquire(),c.notify(args),c.release()是固定格式.

例子2:wait_for

import threading

def condition():

    ret=False

    r = input('>>|')

    if r == 'true':

        ret= True

    else:

        ret=False

    return ret

def func(i,con):

    print(i)

    con.acquire()   #配合,固定格式,线程hold住

    con.wait_for(condition)

    print(i+100)

    con.release()

c=threading.Condition()

for i in range(10):

    t = threading.Thread(target=func,args=(i,c,))

    t.start()

其中例子2中,con.acquire(),con.wait_for(condition)是固定格式配合使用,拦截线程,con.release()释放线程.

定时器(timer):

定时器,延迟多长时间(单位:秒)执行

import threading

def hello():

    print('hello,world!!')

t=threading.Timer(1,hello)

t.start()

线程池

python的线程池有两种实现方式,我们先来看一个比较简单的实现方式.

实现思路:

通过队列(先进先出队列,队列都是在内存中操作,进程退出,队列清空)来实现,线程池中没有线程时为阻塞状态.
自定义一个线程池类,构造方法时,创建一个指定元素数量的队列,队列中的元素为线程类
使用线程时,使用队列的get方法得到一个线程类,使用__call__方法创建一个线程,使用线程执行指定的程序
程序执行完成后,在队列中添加一个新的线程类

import threading,time,queue

class ThreadPool:

    def __init__(self,maxsize):

        self.maxsize=maxsize

        self._q=queue.Queue(maxsize)

        for i in range(maxsize):

            self._q.put(threading.Thread)

    def get_thread(self):

        return self._q.get()

    def add_thread(self):

        self._q.put(threading.Thread)

pool=ThreadPool(5)

def task(arg,p):

    print(arg)

    time.sleep(1)

    p.add_thread()

for i in range(100):

    t = pool.get_thread()   #线程池中没有线程为阻塞状态

    obj=t(target=task,args=(i,pool))

    obj.start()

此方式的缺点:没有将线程重复利用,要直到创建一个线程的耗时可能是一个线程执行的好几倍,所以有了第二种方式.

第二种方式是也是使用队列,但队列中的元素为为一个个(函数名,函数参数,)的元组,创建一个线程组成的列表,线程轮流去队列中取到元组,分解后执行函数,然后取下一个函数.

import queue

import threading

import contextlib

import time

StopEvent = object()

class ThreadPool(object):

    def __init__(self, max_num, max_task_num = None):

        if max_task_num:

            self.q = queue.Queue(max_task_num)

        else:

            self.q = queue.Queue()

        self.max_num = max_num

        self.cancel = False

        self.terminal = False

        self.generate_list = []

        self.free_list = []

    def run(self, func, args, callback=None):

        """

        线程池执行一个任务

        :param func: 任务函数

        :param args: 任务函数所需参数

        :param callback: 任务执行失败或成功后执行的回调函数，回调函数有两个参数1、任务函数执行状态；2、任务函数返回值（默认为None，即：不执行回调函数）

        :return: 如果线程池已经终止，则返回True否则None

        """

        if self.cancel:

            return

        if len(self.free_list) == 0 and len(self.generate_list) < self.max_num:

            self.generate_thread()

        w = (func, args, callback,)

        self.q.put(w)

    def generate_thread(self):

        """

        创建一个线程

        """

        t = threading.Thread(target=self.call)

        t.start()

    def call(self):

        """

        循环去获取任务函数并执行任务函数

        """

        current_thread = threading.currentThread

        self.generate_list.append(current_thread)

        event = self.q.get()

        while event != StopEvent:

            func, arguments, callback = event

            try:

                result = func(*arguments)

                success = True

            except Exception as e:

                success = False

                result = None

            if callback is not None:

                try:

                    callback(success, result)

                except Exception as e:

                    pass

            with self.worker_state(self.free_list, current_thread):

                if self.terminal:

                    event = StopEvent

                else:

                    event = self.q.get()

        else:

            self.generate_list.remove(current_thread)

    def close(self):

        """

        执行完所有的任务后，所有线程停止

        """

        self.cancel = True

        full_size = len(self.generate_list)

        while full_size:

            self.q.put(StopEvent)

            full_size -= 1

    def terminate(self):

        """

        无论是否还有任务，终止线程

        """

        self.terminal = True

        while self.generate_list:

            self.q.put(StopEvent)

        self.q.empty()

    @contextlib.contextmanager

    def worker_state(self, state_list, worker_thread):

        """

        用于记录线程中正在等待的线程数

        """

        state_list.append(worker_thread)

        try:

            yield

        finally:

            state_list.remove(worker_thread)

# How to use

pool = ThreadPool(5)

def callback(status, result):

    # status, execute action status

    # result, execute action return value

    pass

def action(i):

    print(i)

for i in range(30):

    ret = pool.run(action, (i,), callback)

time.sleep(5)

print(len(pool.generate_list), len(pool.free_list))

print(len(pool.generate_list), len(pool.free_list))

pool.close()

pool.terminate()

进程(multiprocessing)

进程与线程的使用方式基本雷同.比如start,daemon(用法略不同,意义相同),join,各种锁等等.

进程之间的数据共享

默认进程之间是无法进行共享的,看例子:

from multiprocessing import Process

li = []

def foo(i):

    li.append(i)

    print('say hi',li)

for i in range(10):

    p = Process(target=foo,args=(i,))

    p.start()

print('ending',li)

out:

say hi [0]

say hi [1]

say hi [2]

say hi [3]

say hi [4]

say hi [5]

say hi [6]

say hi [7]

ending []

say hi [8]

say hi [9]

那么如何让进程之间能够共享呢?

基本可分为三种方式:

from multiprocessing import queues 特殊的queues
from multiprocessing import Array 数组方式
from multiprocessing import Manager manager.dict

需要注意的是,他们都是multiprocessing中的模块

queues方式:

from multiprocessing import queues

from multiprocessing import Process

import multiprocessing

def foo(i,arg):

    arg.put(i)

    print('say hi',i,arg.qsize())

if __name__ == '__main__':

    li=queues.Queue(20,ctx=multiprocessing)

    for i in range(10):

        p=Process(target=foo,args=(i,li,))

        p.start()

Array方式,数组有个特性,必须初始化的时候指定数组的长度和元素类型:

from multiprocessing import Process

from multiprocessing import Array

def foo(i,arg):

    arg[i]=i+100

    for item in arg:

        print(item)

    print('======')

if __name__ == '__main__':

    li=Array('i',10)

    for i in range(10):

        p=Process(target=foo,args=(i,li,))

        p.start()

Array的类型对应表:

    'c': ctypes.c_char,  'u': ctypes.c_wchar,

    'b': ctypes.c_byte,  'B': ctypes.c_ubyte,

    'h': ctypes.c_short, 'H': ctypes.c_ushort,

    'i': ctypes.c_int,   'I': ctypes.c_uint,

    'l': ctypes.c_long,  'L': ctypes.c_ulong,

    'f': ctypes.c_float, 'd': ctypes.c_double

manager.dict 可实现数据共享

进程和进程之间如果想通讯,需要连接p.join()

from multiprocessing import Process

from multiprocessing import Manager

def foo(i,arg):

    arg[i]=i+100

    print(arg.values())

if __name__ == '__main__':

    obj=Manager()

    li=obj.dict()

    for i in range(10):

        p=Process(target=foo,args=(i,li,))

        p.start()

        p.join()

当创建进程时（非使用时），共享数据会被拿到子进程中，当进程中执行完毕后，再赋值给原值。

进程锁例子:

from multiprocessing import Process, Array, RLock

def Foo(lock,temp,i):

    """

    将第0个数加100

    """

    lock.acquire()

    temp[0] = 100+i

    for item in temp:

        print(i,'----->',item)

    lock.release()

lock = RLock()

temp = Array('i', [11, 22, 33, 44])

for i in range(20):

    p = Process(target=Foo,args=(lock,temp,i,))

    p.start()

进程池

进程池内部维护一个进程序列，当使用时，则去进程池中获取一个进程，如果进程池序列中没有可供使用的进程，那么程序就会等待，直到进程池中有可用进程为止。

进程池有两种方式:

apply 串行操作
异步操作apply_async

串行操作:

from multiprocessing import Pool

import time

def f1(arg):

    time.sleep(1)

    print(arg)

if __name__ == '__main__':

    pool=Pool(5)

    for i in range(30):

        pool.apply(func=f1,args=(i,))

异步操作:

from multiprocessing import Pool

import time

def f1(arg):

    time.sleep(1)

    print(arg)

if __name__ == '__main__':

    pool=Pool(5)

    for i in range(30):

        pool.apply_async(func=f1,args=(i,))

    pool.close() #所有任务执行完毕          #1

    time.sleep(1)

    #pool.terminate() #立即终止,不管是否有任务正在执行或者待执行     #2

    pool.join()

其中 #1 #2 二选一操作

pool.terminate 立即终止,不管是否有任务正在执行或者等待执行

pool.close 所有任务执行完毕后关闭

协程

原理:利用一个线程,分解一个线程成为多个微线程==>程序级别做的,与操作系统没有关系.

与线程进程的区别:线程和进程的操作是由程序触发系统接口，最后的执行者是系统；协程的操作则是程序员。

协程的适用场景:涉及到http的I/O请求,协程是高性能的代名词.所以,网络爬虫很多是使用协程方式.

协程存在的意义：对于多线程应用，CPU通过切片的方式来切换线程间的执行，线程切换时需要耗时（保存状态，下次继续）。协程，则只使用一个线程，在一个线程中规定某个代码块执行顺序。

协程的执行方式:打个比方,1个很牛逼的足球队员,前面一排并列的足球,从第一个足球踢出去,然后提出第二个第三个,等足球弹回起始位置时,足球员对此足球接住后再次剃出或者停住球,这个足球员就是协程

协程使用前提

使用前需要安装gevent第三方模块

pip3 install gevent

看下代码吧,自动切换,关键词gevent.spawn():



from gevent import monkey;monkey.patch_all()

import gevent

import requests

def f(url):

    print('GET: %s' % url)

    resp = requests.get(url)

    data = resp.text

    print('%d bytes received from %s.' % (len(data), url))

gevent.joinall([

        gevent.spawn(f, 'https://www.python.org/'),

        gevent.spawn(f, 'https://www.yahoo.com/'),

        gevent.spawn(f, 'https://github.com/'),

])

python基础之线程、进程、协程的更多相关文章

15.python并发编程(线程--进程--协程)
一.进程:1.定义:进程最小的资源单位,本质就是一个程序在一个数据集上的一次动态执行(运行)的过程2.组成:进程一般由程序,数据集,进程控制三部分组成:(1)程序:用来描述进程要完成哪些功能以及如何完 ...
学到了林海峰,武沛齐讲的Day34 完线程进程协程很重要
线程进程协程很重要 ...儿子满月回家办酒,学的有点慢,坚持
Python学习笔记整理总结【网络编程】【线程/进程/协程/IO多路模型/select/poll/epoll/selector】
一.socket(单链接) 1.socket:应用层与TCP/IP协议族通信的中间软件抽象层,它是一组接口.在设计模式中,Socket其实就是一个门面模式,它把复杂的TCP/IP协议族隐藏在Socke ...
文成小盆友python-num11－（1）线程进程协程
本节主要内容线程补充进程协程一.线程补充 1.两种使用方法这里主要涉及两种使用方法,一种为直接使用,一种为定义自己的类然后继承使用如下: 直接使用如下: import threading d ...
python 线程进程协程学习
转载自大神博客:http://www.cnblogs.com/aylin/p/5601969.html 仅供学习使用···· python 线程与进程简介进程与线程的历史我们都知道计算机是由硬件和 ...
python之并发编程(线程\进程\协程)
一.进程和线程 1.进程假如有两个程序A和B,程序A在执行到一半的过程中,需要读取大量的数据输入(I/O操作),而此时CPU只能静静地等待任务A读取完数据才能继续执行,这样就白白浪费了CPU资源.是 ...
python中线程进程协程
多线程:#线程的并发是利用cpu上下文的切换(是并发,不是并行)#多线程执行的顺序是无序的#多线程共享全局变量#线程是继承在进程里的,没有进程就没有线程#GIL全局解释器锁#只要在进行耗时的IO操作的 ...
python_21_线程+进程+协程
python_线程_进程_协程什么是线程? -- os能够进行运算调度的最小单位,被包含在进程之中,是一串指令的集合 -- 每个线程都是独立的,可以访问同一进程下所有的资源什么是进程? -- 每个 ...
线程&进程&协程
线程线程是应用程序中工作的最小单元,它被包含在进程之中,是进程中的实际运作单位.一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务.Threading用 ...
4月28日 python学习总结线程与协程
一. 异步与回调机制问题: 1.任务的返回值不能得到及时的处理,必须等到所有任务都运行完毕才能统一进行处理 2.解析的过程是串行执行的,如果解析一次需要花费2s,解析9次则需要花费18s 解决一: ...

随机推荐

msaa mrt load store action unity
unity buildin renderpipeline 和lightweight rp 对于开了msaa的rt 的load store action设置失效 buildin的时候set render ...
关于windows中 redis 闪退问题
就在刚刚,因为 Redis 闪退原因,搞了快半小时,电脑关机前还能用,关机后一打开就秒退,所以我先发个解决方案再继续码.. 按照步骤一步一步来 ( 设置 redis 密码看文章最后 ) 给你省个事,我 ...
MyBatis模糊查询和多条件查询
一.ISmbmsUserDao层 //根据姓名模糊查询 public List<Smbms> getUser(); //多条件查询 public List<Smbms> get ...
[ARIA] Accessible modal dialogs
Learn how to create a modal dialog with accessible keyboard and screen reader mechanics using the na ...
springboot启动时执行任务CommandLineRunner
# SpringBoot中CommandLineRunner的作用> 平常开发中有可能需要实现在项目启动后执行的功能,SpringBoot提供的一种简单的实现方案就是添加一个model并实现Co ...
Jquery Datepicker DateTimepicker
1.Datepicker http://jqueryui.com/datepicker/ 2.DateTimepicker jquery-ui-timepicker-addon.js http://w ...
Hdu CRB and Queries(整体二分)
CRB and Queries Time Limit: 6000 MS Memory Limit: 131072 K Problem Description There are N boys in C ...
linux系列（四）：mkdir命令
1.命令格式: mkdir [选项] 目录名 2.命令功能: 通过 mkdir 命令可以实现在指定位置创建以 DirName(指定的文件名)命名的文件夹或目录.要创建文件夹或目录的用户必须对所创建的文 ...
禁止打印调用（python）
原文 : https://cloud.tencent.com/developer/ask/188486 import os, sys class HiddenPrints: def __enter__ ...
Ubuntu16.04 安装 CUDA9.2（总结一些新手容易遇到的问题）
系统:Ubuntu16.04 64bit 显卡:Nvidia GEFORCE 940MX 驱动:NVIDIA-Linux-x86_64-396.18.run 软件:cuda_9.2.88_396.26 ...

python基础之线程、进程、协程

线程