Golang的channel使用以及并发同步技巧

在学习《The Go Programming Language》第八章并发单元的时候还是遭遇了不少问题，和值得总结思考和记录的地方。

做一个类似于unix du命令的工具。但是阉割了一些功能，这里应该只实现-c(统计total大小) 和-h(以human比较容易辨识的显示出来)的功能。

首先我们需要构造一个能够返回FileInfo信息数组的函数，我们把它取名为dirEntries:

func dirEntries(dir string) []os.FileInfo {

    entries, err := ioutil.ReadDir(dir)

    if err != nil {

        fmt.Fprintf(os.Stderr, "du: %v\n", err)

        return nil

    }

    return entries

}

传入一个路径字符串，然后使用ioutil.ReadDir解析这个路径下面的所有文件以及文件夹生成一个FileInfo的profile。

Fileinfo interface下面包含了：

type FileInfo interface {

    Name() string       // base name of the file

    Size() int64        // length in bytes for regular files; system-dependent for others

    Mode() FileMode     // file mode bits

    ModTime() time.Time // modification time

    IsDir() bool        // abbreviation for Mode().IsDir()

    Sys() interface{}   // underlying data source (can return nil)

}

多种方法，可以直接调用，其作用就是后面注释写的一样。

有了能够获取文件夹下面文件和文件夹的函数之后，我们需要一个调用方用来walk指定的目录：

// 入参是一个文件目录，一个INT64的只接收的单向channel

func walkDir(dir string, fileSizes chan<- int64) {

    for _, entry := range dirEntries(dir) {

        if entry.IsDir() {

            subdir := filepath.Join(dir, entry.Name())

            walkDir(subdir, fileSizes)

        } else {

            fileSizes <- entry.Size()

        }

    }

}

这里我们定义一个目录，然后需求传入一个单向接收channel用于在多goroutine中计算总共的文件大小。

使用range方法来遍历我们上面写的dirEntries的返回文件或文件夹，如果是文件夹则继续迭代。

如果不是则将文件大小存入放入fileSizes channel中。

搞定上面两个函数，我们来写主函数部分：

func main() {

    root := ""

    flag.StringVar(&root, "-p", ".", "input dir.")

    flag.Parse()

    fileSizes := make(chan int64)

    // 起一个goroutine去walk目录

    go func() {

        walkDir(root, fileSizes)

        // Walk完毕之后要关闭该channel下面使用range读取数据的时候才会有尽头

        close(fileSizes)

    }()

    var nfiles, nbytes int64

    for size := range fileSizes {

        nfiles++

        nbytes += size

    }

    fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

}

这里注意一点，因为起goroutine的walk函数，和下面同时在range遍历是在同步进行，如果下面range速度太快读到管道里面没有值了会阻塞住等待有数据继续进来之后读取，而不是会跳出。只有当close(fileSizes)这句执行到，显示关闭掉channel之后，才会跳出range循环并且这时已经读取完了所有的数据。这里有点像，close channel的时候给range发送了一个停止信号一样，感觉这个利用起来会比较有用？后续可能会再研究一下。

让我们继续来优化我们的程序，添加一个-v参数，打印出扫描文件的进度，当我们要扫描整个盘的时候，可能会花费大量的时间，我们需要知道进度如何了。

其实这个需求只需要很小的改动，让我们来重新改写一下main函数，用select多路复用来完成这个事情。

func main() {

    root := ""

    verbose := false

    tick := make(<-chan time.Time)

    var nfiles, nbytes int64

    flag.StringVar(&root, "p", ".", "input dir.")

    flag.BoolVar(&verbose, "v", false, "add verbose if you want")

    flag.Parse()

    if verbose {

        tick = time.Tick(500 * time.Millisecond)

    }

    fileSizes := make(chan int64)

    // 起一个goroutine去walk目录

    go func() {

        walkDir(root, fileSizes)

        // Walk完毕之后要关闭该channel下面使用range读取数据的时候才会有尽头

        close(fileSizes)

    }()

loop:

    for {

        select {

        case size, ok := <-fileSizes:

            if !ok {

                break loop

            }

            nfiles++

            nbytes += size

        case <-tick:

            fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

        }

    }

    fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

}

上面其实都差不多，这里我直接从loop那里开始说吧，遇到这个loop的时候我其实还蛮疑惑的，因为我在go语言保留关键字里面并没有看到他的身影，但是这里他的确是个关键字，和里面的break连用里面break后面跟上的loop 可以直接跳出到最外层loop包裹的循环，而不是break默认的只跳出一层循环。明白了这个道理之后，这个就不难理解了，当我们还在遍历文件的时候，select 会持续读取文件大小赋值给size，并且返回true给ok。如果我们开启了verbose，每隔500毫秒tick会收到来自time.Tick的消息。我们都知道select会在都准备好的情况下随机pick一个执行，所以这里也或快或慢的被打印进度(前提是同时收到信号，但是实际上这个发生速度可能在nm级别，凭感受很难感觉到谁先)。当最后都执行完毕后filesSizes channel会被上面的携程函数close()，当close之后，在读取完剩余数据后，fileSizes会返回给ok nil。就可以跳出循环。

看到这里可能会觉得有点绕，所以要尽可能的多理解一下，当然我们可以让这个du程序更快。可以注意到我们并没有在walkdir里面开启goroutines进行并发处理。下面我将尝试开启goroutine处理它们，并且用channel给他们加个锁控制一下goroutine的数量，在此之前我们先来看看现在完成了的代码：

package main

import (

    "fmt"

    "io/ioutil"

    "os"

    "path/filepath"

    "flag"

    "time"

)

// 入参是一个文件目录，一个INT64的只接收的单向channel

func walkDir(dir string, fileSizes chan<- int64) {

    for _, entry := range dirEntries(dir) {

        if entry.IsDir() {

            subdir := filepath.Join(dir, entry.Name())

            walkDir(subdir, fileSizes)

        } else {

            fileSizes <- entry.Size()

        }

    }

}

func dirEntries(dir string) []os.FileInfo {

    entries, err := ioutil.ReadDir(dir)

    if err != nil {

        fmt.Fprintf(os.Stderr, "du: %v\n", err)

        return nil

    }

    return entries

}

func main() {

    t1 := time.Now()

    root := ""

    verbose := false

    tick := make(<-chan time.Time)

    var nfiles, nbytes int64

    flag.StringVar(&root, "p", ".", "input dir.")

    flag.BoolVar(&verbose, "v", false, "add verbose if you want")

    flag.Parse()

    if verbose {

        tick = time.Tick(500 * time.Millisecond)

    }

    fileSizes := make(chan int64)

    // 起一个goroutine去walk目录

    go func() {

        walkDir(root, fileSizes)

        // Walk完毕之后要关闭该channel下面使用range读取数据的时候才会有尽头

        close(fileSizes)

    }()

loop:

    for {

        select {

        case size, ok := <-fileSizes:

            if !ok {

                break loop

            }

            nfiles++

            nbytes += size

        case <-tick:

            fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

        }

    }

    fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

    fmt.Println(time.Since(t1))

}

观察上面代码可以看出我们并不能直接在这个代码的基础上直接给walkDir加上goroutine，这样会导致channel直接被关闭，然后啥也没跑就结束了。

我们需要让主goroutine等待其他goroutine都完成之后再结束，所以主goroutine需要在这里阻塞住，等到得到可以结束的信号之后再结束。

我们可以使用sync.WaitGroup 来对仍旧活跃的walkDir调用进行计数。等到数量为0的时候就算我们可以结束了。

sync.WaitGroup提供了三个方法：

　　Add：添加或减少goroutine的数量。

　　Done：相当于Add(-1)。

　　Wait：阻塞住等待WaitGroup数量变成0.

明白这个道理之后我们改写了一下代码，让它使用sync.WaitGroup来支持同步，最后当所有goroutine都结束之后，关闭channel完成任务。

package main

import (

    "fmt"

    "io/ioutil"

    "os"

    "path/filepath"

    "flag"

    "time"

    "sync"

)

// 入参是一个文件目录，一个INT64的只接收的单向channel

func walkDir(dir string, fileSizes chan<- int64, n *sync.WaitGroup) {

    defer n.Done()

    for _, entry := range dirEntries(dir) {

        if entry.IsDir() {

            n.Add(1)

            subdir := filepath.Join(dir, entry.Name())

            go walkDir(subdir, fileSizes, n)

        } else {

            fileSizes <- entry.Size()

        }

    }

}

func dirEntries(dir string) []os.FileInfo {

    entries, err := ioutil.ReadDir(dir)

    if err != nil {

        fmt.Fprintf(os.Stderr, "du: %v\n", err)

        return nil

    }

    return entries

}

func main() {

    t1 := time.Now()

    root := ""

    verbose := false

    tick := make(<-chan time.Time)

    fileSizes := make(chan int64)

    var n sync.WaitGroup

    var nfiles, nbytes int64

    flag.StringVar(&root, "p", ".", "input dir.")

    flag.BoolVar(&verbose, "v", false, "add verbose if you want")

    flag.Parse()

    if verbose {

        tick = time.Tick(500 * time.Millisecond)

    }

    n.Add(1)

    go walkDir(root, fileSizes, &n)

    go func() {

        n.Wait()

        close(fileSizes)

    }()

loop:

    for {

        select {

        case size, ok := <-fileSizes:

            if !ok {

                break loop

            }

            nfiles++

            nbytes += size

        case <-tick:

            fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

        }

    }

    fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

    fmt.Println(time.Since(t1))

}

随便跑跑。。感觉快得飞起，然而跑不了几秒就会报错，这个程序最大的问题就是我们完全没有办法之后它会自己打开多少个goroutine，感觉会爆炸。所以我们要限制这种夸张的写法，使用channel来做一个并发协程池，把同时开启的goroutine的数量控制一下。

最后上一下完整代码，注意defer关键字，只接收函数，所以我会在释放锁的时候使用匿名函数：

package main

import (

    "fmt"

    "io/ioutil"

    "os"

    "path/filepath"

    "flag"

    "time"

    "sync"

)

var token = make(chan int, 100)

// 入参是一个文件目录，一个INT64的只接收的单向channel

func walkDir(dir string, fileSizes chan<- int64, n *sync.WaitGroup) {

    defer n.Done()

    for _, entry := range dirEntries(dir) {

        if entry.IsDir() {

            n.Add(1)

            subdir := filepath.Join(dir, entry.Name())

            go walkDir(subdir, fileSizes, n)

        } else {

            fileSizes <- entry.Size()

        }

    }

}

func dirEntries(dir string) []os.FileInfo {

    token <- 1

    defer func() {<-token}()

    entries, err := ioutil.ReadDir(dir)

    if err != nil {

        fmt.Fprintf(os.Stderr, "du: %v\n", err)

        return nil

    }

    return entries

}

func main() {

    var nfiles, nbytes int64

    var n sync.WaitGroup

    root := ""

    verbose := false

    t1 := time.Now()

    fileSizes := make(chan int64)

    tick := make(<-chan time.Time)

    flag.StringVar(&root, "p", ".", "input dir.")

    flag.BoolVar(&verbose, "v", false, "add verbose if you want")

    flag.Parse()

    if verbose {

        tick = time.Tick(500 * time.Millisecond)

    }

    n.Add(1)

    go walkDir(root, fileSizes, &n)

    go func() {

        n.Wait()

        close(fileSizes)

    }()

loop:

    for {

        select {

        case size, ok := <-fileSizes:

            if !ok {

                break loop

            }

            nfiles++

            nbytes += size

        case <-tick:

            fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

        }

    }

    fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

    fmt.Println(time.Since(t1))

}

Reference:

https://github.com/gopl-zh/gopl-zh.github.com The Go Programming Language

Golang的channel使用以及并发同步技巧的更多相关文章

深入学习golang(2)—channel
Channel 1. 概述 “网络,并发”是Go语言的两大feature.Go语言号称“互联网的C语言”,与使用传统的C语言相比,写一个Server所使用的代码更少,也更简单.写一个Server除了网 ...
golang的Channel
golang的Channel Channel 是 golang 一个非常重要的概念,如果你是刚开始使用 golang 的开发者,你可能还没有真正接触这一概念,本篇我们将分析 golang 的Chann ...
【java 多线程】多线程并发同步问题及解决方法
一.线程并发同步概念线程同步其核心就在于一个“同”.所谓“同”就是协同.协助.配合,“同步”就是协同步调昨,也就是按照预定的先后顺序进行运行,即“你先,我等, 你做完,我再做”. 线程同步,就是当线 ...
.net core WebApi ManualResetEvent实现并发同步
ManualResetEvent,即手动重置事件,通过信号量来判别当前线程是否应该阻塞或继续执行.使用方式与ManualResetEventSlim差不多,ManualResetEventSlim只是 ...
.net core WebApi Interlocked配合ManualResetEventSlim实现并发同步
由于项目有某种需求,在WebApi中,有大量的请求需要操作相同的数据,因此需要用到并发同步机制去操作共享的数据. 本次配合使用Interlocked和ManualResetEventSlim来实现并发 ...
.net core WebApi Mutex实现并发同步
Mutex,中文译为互斥体,在.net中也是作为一种线程或进程之间的互斥体存在.即在同一时刻,一个共享资源只允许被某一个线程或进程访问,其他线程或进程需要等待(直至获取互斥锁为止). Mutex的使用 ...
.net core WebApi Monitor实现并发同步
在.net中,还可以使用Monitor实现线程并发同步.Monitor类是纯托管且完全可移植,并且可能会在操作系统资源需求方面更加高效. Monitor的锁对象尽可能使用引用对象,如果是字符串或值对象 ...
MySQL系列：innodb源代码分析之线程并发同步机制
innodb是一个多线程并发的存储引擎,内部的读写都是用多线程来实现的,所以innodb内部实现了一个比較高效的并发同步机制. innodb并没有直接使用系统提供的锁(latch)同步结构,而是对其进 ...
c#实现golang 的channel
使用.NET的 BlockingCollection<T>来包装一个ConcurrentQueue<T>来实现golang的channel. 代码如下: public clas ...

随机推荐

0、原生jdbc工厂类
一.代码结构二.JDBCFactory.java package com.test; import java.io.IOException; import java.io.InputStream; ...
WiFi-ESP8266入门http（3-2）网页认证上网-post请求
测试账号密码加密模式 1 18011210338 + 015871 - 测试2 1601120382 +1 mimaHENFuzb -1 打开网页手机端 http://1 ...
ActiveMQ 控制台使用方法
一.为什么使用ActiveMQ 在总线的设计中可能会使用到JMS(Java Message Service)通道, Java消息服务(JMS)超越了生产商专有的MOM(Message-Oriented ...
英文字母对应的Unicode编码
A~Z :65~90 a~z :97~122 0-9 : 48-57 如果想要知道字符串中的值是否是小写英文字符,不使用工具包的一种方法就是使用Unicode编码值,举例: package main ...
500 : Internal Server Error（jupyter）
如需转发,请注明出处:小婷儿的python https://www.cnblogs.com/xxtalhr/p/10739036.html 一.报错 jupyter notebook能打开目录页,但是 ...
linux驱动之中断处理过程汇编部分
linux系统下驱动中,中断异常的处理过程,与裸机开发中断处理过程非常类似.通过简单的回顾裸机开发中断处理部分,来参考学习linux系统下中断处理流程. 一.ARM裸机开发中断处理过程以S3C244 ...
BZOJ3561 DZY Loves Math VI 莫比乌斯反演
传送门看到\(gcd\)相关先推式子(默认\(N \leq M\)): \(\begin{align*} \sum\limits_{i=1}^N \sum\limits_{j=1}^M (lcm(i ...
解决IsEditable="True"的ComboBox在DataGrid中点击一次不能选中行的问题
原文:解决IsEditable="True"的ComboBox在DataGrid中点击一次不能选中行的问题此方法很笨拙,并不推荐使用!!! 此方法很笨拙,并不推荐使用!!! 此方 ...
JavaEE学习之Maven配置文件pom.xml详解(转）
一.引言 (本文转载自:http://blog.csdn.net/longeremmy/article/details/9670619) 使用maven有一些时间了,一直没有好好将pom配置文件每个节 ...
支持异步同步的分布式CommandBus MSMQ实现 - 支持Session传递、多实例处理
先上一张本文所描述的适用场景图分布式场景,共3台server: 前端Server Order App Server Warehouse App Server 功能: 前端Server可以不停的发送C ...

Golang的channel使用以及并发同步技巧

Golang的channel使用以及并发同步技巧的更多相关文章

随机推荐

热门专题