技术背景

连通性检测是图论中常常遇到的一个问题，我们可以用五子棋的思路来理解这个问题五子棋中，横、竖、斜相邻的两个棋子，被认为是相连接的，而一样的道理，在一个二维的图中，只要在横、竖、斜三个方向中的一个存在相邻的情况，就可以认为图上相连通的。比如以下案例中的python数组，3号元素和5号元素就是相连接的，5号元素和6号元素也是相连接的，因此这三个元素实际上是属于同一个区域的：

array([[0, 3, 0],

       [0, 5, 0],

       [6, 0, 0]])

而再如下面这个例子，其中的1、2、3三个元素是相连的，4、5、6三个元素也是相连的，但是这两个区域不存在连接性，因此这个网格被分成了两个区域：

array([[1, 0, 4],

       [2, 0, 5],

       [3, 0, 6]])

那么如何高效的检测一张图片或者一个矩阵中的所有连通区域并打上标签，就是我们所关注的一个问题。

Two-Pass算法

一个典型的连通性检测的方案是Two-Pass算法，该算法可以用如下的一张动态图来演示：

该算法的核心在于用两次的遍历，为所有的节点打上分区的标签，如果是不同的分区，就会打上不同的标签。其基本的算法步骤可以用如下语言进行概述：

遍历网格节点，如果网格的上、左、左上三个格点不存在元素，则为当前网格打上新的标签，同时标签编号加一；
当上、左、左上的网格中存在一个元素时，将该元素值赋值给当前的网格作为标签；
当上、左、左上的网格中有多个元素时，取最低值作为当前网格的标签；
在标签赋值时，留意标签上边和左边已经被遍历过的4个元素，将4个元素中的最低值与这四个元素分别添加到Union的数据结构中（参考链接1）；
再次遍历网格节点，根据Union数据结构中的值刷新网格中的标签值，最终得到划分好区域和标签的元素矩阵。

测试数据的生成

这里我们以Python3为例，可以用Numpy来产生一系列随机的0-1矩阵，这里我们产生一个20*20大小的矩阵：

# two_pass.py

import numpy as np

import matplotlib.pyplot as plt

if __name__ == "__main__":

    np.random.seed(1)

    graph = np.random.choice([0,1],size=(20,20))

    print (graph)

    plt.figure()

    plt.imshow(graph)

    plt.savefig('random_bin_graph.png')

执行的输出结果如下：

$ python3 two_pass.py

[[1 1 0 0 1 1 1 1 1 0 0 1 0 1 1 0 0 1 0 0]

 [0 1 0 0 1 0 0 0 1 0 0 0 1 1 1 1 1 0 0 0]

 [1 1 1 1 1 1 0 1 1 0 0 1 0 0 1 1 1 0 1 0]

 [0 1 1 0 1 1 1 1 0 0 1 1 0 0 0 0 1 1 1 0]

 [1 0 0 1 1 0 1 1 0 1 0 0 1 1 1 0 1 1 0 1]

 [1 1 1 0 0 0 0 0 1 1 1 1 1 1 1 0 0 0 0 0]

 [0 1 1 1 1 1 1 0 0 1 1 0 0 1 0 0 0 1 1 1]

 [1 1 0 1 0 1 0 0 0 1 1 1 0 1 0 0 0 0 1 0]

 [1 0 1 1 1 0 0 0 0 0 0 1 0 0 1 0 0 1 1 0]

 [0 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 1 1 1 0]

 [0 0 0 0 1 1 1 0 1 1 0 0 0 1 1 0 1 1 1 0]

 [1 1 1 1 0 1 0 0 1 0 1 0 1 1 0 1 1 0 1 1]

 [1 0 1 0 1 0 1 1 1 1 1 1 0 0 1 1 0 0 0 1]

 [1 0 0 0 0 0 1 1 1 1 1 1 1 0 0 1 0 0 0 1]

 [0 1 0 1 0 0 0 0 1 1 0 0 0 1 0 1 1 0 0 1]

 [0 1 0 0 0 1 0 1 0 1 1 1 0 1 0 1 1 1 1 0]

 [0 1 0 0 0 0 1 1 0 1 1 0 0 1 1 1 1 1 1 1]

 [0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 1 1 0 0 0]

 [1 0 1 0 1 0 0 0 0 0 0 1 0 0 0 1 0 1 1 0]

 [0 1 1 0 1 0 1 0 1 1 0 0 1 0 0 0 0 0 1 1]]

同时会生成一张网格的图片：

其实从这个图片中我们可以看出，图片的上面部分几乎都是连接在一起的，只有最下面存在几个独立的区域。

Two-Pass算法的实现

这里需要说明的是，因为我们并没有使用Union的数据结构，而是只使用了Python的字典数据结构，因此代码写起来会比较冗余而且不是那么美观，但是这里我们主要的目的是先用代解决这一实际问题，因此代码乱就乱一点吧。

# two_pass.py

import numpy as np

import matplotlib.pyplot as plt

from copy import deepcopy

def first_pass(g) -> list:

    graph = deepcopy(g)

    height = len(graph)

    width = len(graph[0])

    label = 1

    index_dict = {}

    for h in range(height):

        for w in range(width):

            if graph[h][w] == 0:

                continue

            if h == 0 and w == 0:

                graph[h][w] = label

                label += 1

                continue

            if h == 0 and graph[h][w-1] > 0:

                graph[h][w] = graph[h][w-1]

                continue

            if w == 0 and graph[h-1][w] > 0:

                if graph[h-1][w] <= graph[h-1][min(w+1, width-1)]:

                    graph[h][w] = graph[h-1][w]

                    index_dict[graph[h-1][min(w+1, width-1)]] = graph[h-1][w]

                elif graph[h-1][min(w+1, width-1)] > 0:

                    graph[h][w] = graph[h-1][min(w+1, width-1)]

                    index_dict[graph[h-1][w]] = graph[h-1][min(w+1, width-1)]

                continue

            if h == 0 or w == 0:

                graph[h][w] = label

                label += 1

                continue

            neighbors = [graph[h-1][w], graph[h][w-1], graph[h-1][w-1], graph[h-1][min(w+1, width-1)]]

            neighbors = list(filter(lambda x:x>0, neighbors))

            if len(neighbors) > 0:

                graph[h][w] = min(neighbors)

                for n in neighbors:

                    if n in index_dict:

                        index_dict[n] = min(index_dict[n], min(neighbors))

                    else:

                        index_dict[n] = min(neighbors)

                continue

            graph[h][w] = label

            label += 1

    return graph, index_dict

def remap(idx_dict) -> dict:

    index_dict = deepcopy(idx_dict)

    for id in idx_dict:

        idv = idx_dict[id]

        while idv in idx_dict:

            if idv == idx_dict[idv]:

                break

            idv = idx_dict[idv]

        index_dict[id] = idv

    return index_dict

def second_pass(g, index_dict) -> list:

    graph = deepcopy(g)

    height = len(graph)

    width = len(graph[0])

    for h in range(height):

        for w in range(width):

            if graph[h][w] == 0:

                continue

            if graph[h][w] in index_dict:

                graph[h][w] = index_dict[graph[h][w]]

    return graph

def flatten(g) -> list:

    graph = deepcopy(g)

    fgraph = sorted(set(list(graph.flatten())))

    flatten_dict = {}

    for i in range(len(fgraph)):

        flatten_dict[fgraph[i]] = i

    graph = second_pass(graph, flatten_dict)

    return graph

if __name__ == "__main__":

    np.random.seed(1)

    graph = np.random.choice([0,1],size=(20,20))

    graph_1, idx_dict = first_pass(graph)

    idx_dict = remap(idx_dict)

    graph_2 = second_pass(graph_1, idx_dict)

    graph_3 = flatten(graph_2)

    print (graph_3)

    plt.subplot(131)

    plt.imshow(graph)

    plt.subplot(132)

    plt.imshow(graph_3)

    plt.subplot(133)

    plt.imshow(graph_3>0)

    plt.savefig('random_bin_graph.png')

完整代码的输出如下所示：

$ python3 two_pass.py

[[1 1 0 0 1 1 1 1 1 0 0 1 0 1 1 0 0 1 0 0]

 [0 1 0 0 1 0 0 0 1 0 0 0 1 1 1 1 1 0 0 0]

 [1 1 1 1 1 1 0 1 1 0 0 1 0 0 1 1 1 0 1 0]

 [0 1 1 0 1 1 1 1 0 0 1 1 0 0 0 0 1 1 1 0]

 [1 0 0 1 1 0 1 1 0 1 0 0 1 1 1 0 1 1 0 1]

 [1 1 1 0 0 0 0 0 1 1 1 1 1 1 1 0 0 0 0 0]

 [0 1 1 1 1 1 1 0 0 1 1 0 0 1 0 0 0 1 1 1]

 [1 1 0 1 0 1 0 0 0 1 1 1 0 1 0 0 0 0 1 0]

 [1 0 1 1 1 0 0 0 0 0 0 1 0 0 1 0 0 1 1 0]

 [0 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 1 1 1 0]

 [0 0 0 0 1 1 1 0 1 1 0 0 0 1 1 0 1 1 1 0]

 [1 1 1 1 0 1 0 0 1 0 1 0 1 1 0 1 1 0 1 1]

 [1 0 1 0 1 0 1 1 1 1 1 1 0 0 1 1 0 0 0 1]

 [1 0 0 0 0 0 1 1 1 1 1 1 1 0 0 1 0 0 0 1]

 [0 1 0 2 0 0 0 0 1 1 0 0 0 1 0 1 1 0 0 1]

 [0 1 0 0 0 1 0 1 0 1 1 1 0 1 0 1 1 1 1 0]

 [0 1 0 0 0 0 1 1 0 1 1 0 0 1 1 1 1 1 1 1]

 [0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 1 1 0 0 0]

 [3 0 3 0 4 0 0 0 0 0 0 5 0 0 0 1 0 1 1 0]

 [0 3 3 0 4 0 6 0 7 7 0 0 5 0 0 0 0 0 1 1]]

同样的我们可以看看此时得到的新的图像：

这里我们并列的画了三张图，第一张图是原图，第二张图是划分好区域和标签的图，第三张是对第二张图进行二元化的结果，以确保在运算过程中没有丢失原本的信息。经过确认这个标签的结果划分是正确的，但是因为涉及到一些算法实现的细节，这里我们还是需要展开来介绍一下。

算法的执行流程

if __name__ == "__main__":

    np.random.seed(1)

    graph = np.random.choice([0,1],size=(20,20))

    graph_1, idx_dict = first_pass(graph)

    idx_dict = remap(idx_dict)

    graph_2 = second_pass(graph_1, idx_dict)

    graph_3 = flatten(graph_2)

这个部分是算法的核心框架，在本文中的算法实现流程为：先用first_pass遍历一遍网格节点，按照上一个章节中介绍的Two-Pass算法打上标签，并获得一个映射关系；然后用remap将上面得到的映射关系做一个重映射，确保每一个级别的映射都对应到了最根部（可以联系参考链接1的内容进行理解，虽然这里没有使用Union的数据结构，但是本质上还是一个树形的结构，需要做一个重映射）；然后用second_pass执行Two-Pass算法的第二次遍历，得到一组打上了新的独立标签的网格节点；最后需要用flatten将标签进行压平，因为前面映射的关系，有可能导致标签不连续，所以我们这里又做了一次映射，确保标签是连续变化的，实际应用中可以不使用这一步。

标签的重映射

关于节点的遍历，大家可以直接看算法代码，这里需要额外讲解的是标签的重映射模块的代码：

def remap(idx_dict) -> dict:

    index_dict = deepcopy(idx_dict)

    for id in idx_dict:

        idv = idx_dict[id]

        while idv in idx_dict:

            if idv == idx_dict[idv]:

                break

            idv = idx_dict[idv]

        index_dict[id] = idv

    return index_dict

这里的算法是先对得到的标签进行遍历，在字典中获取当前标索引所对应的值，作为新的索引，直到键跟值一致为止，相当于在一个树形的数据结构中重复寻找父节点直到找到根节点。

其他的测试用例

这里我们可以再额外测试一些案例，比如增加几个0元素使得网格节点更加稀疏：

graph = np.random.choice([0,0,0,1],size=(20,20))

得到的结果图片如下所示：

还可以再稀疏一些：

graph = np.random.choice([0,0,0,0,0,1],size=(20,20))

得到的结果如下图所示：

越是稀疏的图，得到的分组结果就越分散。

总结概要

在本文中我们主要介绍了利用Two-Pass的算法来检测区域连通性，并给出了Python3的代码实现，当然在实现的过程中因为没有使用到Union这样的数据结构，仅仅用了字典来存储标签之间的关系，因此效率和代码可读性都会低一些，单纯作为用例的演示和小规模区域划分的计算是足够用了。在该代码实现方案中，还有一点与原始算法不一致的是，本实现方案中打新的标签是读取上、上左和左三个方向的格点，但是存储标签的映射关系时，是读取了上、上左、上右和左这四个方向的格点。

版权声明

本文首发链接为：https://www.cnblogs.com/dechinphy/p/two-pass.html

作者ID：DechinPhy

更多原著文章请参考：https://www.cnblogs.com/dechinphy/

打赏专用链接：https://www.cnblogs.com/dechinphy/gallery/image/379634.html

腾讯云专栏同步：https://cloud.tencent.com/developer/column/91958

参考链接

Python3实现Two-Pass算法检测区域连通性的更多相关文章

Kosaraju 算法检测有向图的强连通性
给定一个有向图 G = (V, E) ,对于任意一对顶点 u 和 v,有 u --> v 和 v --> u,亦即,顶点 u 和 v 是互相可达的,则说明该图 G 是强连通的(Strong ...
Python3入门机器学习经典算法与应用
<Python3入门机器学习经典算法与应用> 章节第1章欢迎来到 Python3 玩转机器学习1-1 什么是机器学习1-2 课程涵盖的内容和理念1-3 课程所使用的主要技术栈第2章机器 ...
Python3实现机器学习经典算法（三）ID3决策树
一.ID3决策树概述 ID3决策树是另一种非常重要的用来处理分类问题的结构,它形似一个嵌套N层的IF…ELSE结构,但是它的判断标准不再是一个关系表达式,而是对应的模块的信息增益.它通过信息增益的大小 ...
Python3实现机器学习经典算法（一）KNN
一.KNN概述 K-(最)近邻算法KNN(k-Nearest Neighbor)是数据挖掘分类技术中最简单的方法之一.它具有精度高.对异常值不敏感的优点,适合用来处理离散的数值型数据,但是它具有非常 ...
Python3实现机器学习经典算法（四）C4.5决策树
一.C4.5决策树概述 C4.5决策树是ID3决策树的改进算法,它解决了ID3决策树无法处理连续型数据的问题以及ID3决策树在使用信息增益划分数据集的时候倾向于选择属性分支更多的属性的问题.它的大部分 ...
Python3入门机器学习经典算法与应用☝☝☝
Python3入门机器学习经典算法与应用 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 使用新版python3语言和流行的scikit-learn框架,算法与 ...
Python3入门机器学习经典算法与应用✍✍✍
Python3入门机器学习经典算法与应用整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大家看的 ...
使用Python基于VGG/CTPN/CRNN的自然场景文字方向检测/区域检测/不定长OCR识别
GitHub:https://github.com/pengcao/chinese_ocr https://github.com/xiaofengShi/CHINESE-OCR |-angle 基于V ...
miller_rabin算法检测生成大素数的RSA算法实现
import math from functools import reduce #用于合并字符 from os import urandom #系统随机的字符 import binascii # ...

随机推荐

Linux(CentOS)下安装docker
Linux(CentOS)安装Docker 查看当前内核版本 [docker@localhost ~]$ uname -r 确保yum包更新到最新 [docker@localhost ~]$ sudo ...
mysql某建表语句
CREATE TABLE `product_info`( `product_id` VARCHAR(32) NOT NULL COMMENT '主键', `product_name` VARCHAR( ...
MySQL 中的转义字符`
` 是 MySQL 的转义符,用来避免列名或者表名和 mysql 本身的关键字冲突. 所有的数据库都有类似的设置,不过mysql用的是`而已.通常用来说明其中的内容是数据库名.表名.字段名,不是关键字 ...
Leetcode 递归题
24. 两两交换链表中的节点题目描述: 给定一个链表,两两交换其中相邻的节点,并返回交换后的链表. 你不能只是单纯的改变节点内部的值,而是需要实际的进行节点交换. 示例: 给定 1->2-&g ...
Thymeleaf模板引擎语法
th:text 用于显示值 th:object 接收后台传来的对象 th:action 提交表单 th:value 绑定值 th:field 绑定 ...
Python单元测试框架unittest之批量用例管理（discover）
前言我们在写用例的时候,单个脚本的用例好执行,那么多个脚本的时候,如何批量执行呢?这时候就需要用到unittet里面的discover方法来加载用例了.加载用例后,用unittest里面的TextT ...
LeetCode解题记录(贪心算法)（二）
1. 前言由于后面还有很多题型要写,贪心算法目前可能就到此为止了,上一篇博客的地址为 LeetCode解题记录(贪心算法)(一) 下面正式开始我们的刷题之旅 2. 贪心 763. 划分字母区间(中等 ...
题解 CF311B Cats Transport
前置芝士:斜率优化剥下这道题的外壳,让它变为一道裸的斜率优化. 很容易想到状态,但复杂度显然过不去,也没有单调性,只能自己创造. 令 $$c[i] = t - sum[i],sum[i] = \s ...
CF277E Binary Tree on Plane
CF277E Binary Tree on Plane 题目大意给定平面上的 $n$ 个点,定义两个点之间的距离为两点欧几里得距离,求最小二叉生成树. 题解妙啊. 难点在于二叉的限制. 注意到 ...
vs2013恢复默认设置
选择工具->import or export settings(工具->导入导出设置),选择最下面一项即可

Python3实现Two-Pass算法检测区域连通性