MRF马尔可夫随机场入门

Intro

MRF是一种广泛应用于图像分割的模型，当然我看到MRF的时候并不是因为分割，而是在图像生成领域，有的paper利用MRF模型来生成图像，因此入门一下MRF，并以分割模型为例记一下代码。

Model

Target

在图像分割中，我们的任务是给定一张图像，输出每个像素的标签。因此我们就是要得到在给定图片特征之下，标签概率最大化时所对应的标签。

因此可以这么建模：

\[\hat{\omega} = arg \max_{\omega \in \Omega} P(\omega|f)
\]

其中w表示标签，f表示图像特征，求最大后验概率。

根据贝叶斯理论，上式右边可以写成：

\[P(\omega|f) = \frac{P(f|\omega)P(\omega)}{P(f)}
\]

其中，P(f)是常量，因为当一张图片确定之后，P(f)便确定了。因此，上式只取决于分子部分。分子又可以表达为\(P(f,\omega)\)，所以我们直接建模的其实是这个部分，计算的也是这个部分，这是与CRF不同的一点(MRF是直接对左边建模，不分解为右边，所以没个样本都要算一遍后验概率，然后乘起来最大化，MRF其实是通过对等式右边分子建模"曲线救国")。

因此，我们的任务中只需要对分子的两个部分进行定义即可。

Neighbors

像素Neighbors的定义很简单，就是这个像素周围的其他像素。

举例而言，下图分别是中心点像素的四邻域和八邻域。

Hammersley-Clifford Theorem

定理的内容为：

如果一个分布\(P(x)>0\)满足无向图\(G\)中的局部马尔可夫性质，当且仅当\(P(x)\)可以表示为一系列定义在最大团上的非负函数的乘积形式，即：

\[P(x) = \frac{1}{Z} \prod_{c \in C} \phi (x_c)
\]

其中\(C\)为\(G\)中最大团集合，也就是所有的最大团组成的集合，\(\phi(x_c) \ge 0\)是定义在团\(c\)上的势能函数，Z是配分函数，用来将乘积归一化为概率的形式。

\[Z = \sum_{x \in \Chi } \prod_{c \in C} \phi (x_c)
\]

无向图模型与有向图模型的一个重要区别就是配分函数Z。

Hammersley-Clifford Theorem表明，无向图模型和吉布斯分布是一致的，所以将\(P(\omega)\)定义下式：

\[P(\omega) = \frac{1}{Z}exp(-U(\omega)) = \frac{1}{Z}exp(- \sum_{c \in C} V_c(\omega))
\]

其中，Z作为normalization项，\(Z = \sum exp(-U(\omega))\)，U定义为势能，而等号最右边将U变成了V的求和，在后面我们会说到，这里其实是每个原子团的势能的求和。

Clique

Clique就是我们上面提到的“团”的概念。集合\(c\)是\(S\)的原子团当且仅当c中的每个元素都与该集合中的其他元素相邻。那么Clique就是所有\(c\)的并集。

\[C = c_1 \cup c_2 \cdots c_n
\]

举例而言：

一个像素的四邻域及他自己组成的集合的原子团可以分为singleton和doubleton如图所示。

Clique Potential

翻译过来就是势能，用\(V(w)\)表示，描述的是一个Clique的能量。

那么，一个像素的领域的势能就是每个团的能量的和。

\[U(\omega) = \sum_{c \in C} V_c(w)
\]

其中c表示原子团,c表示Clique，V是如何定义的呢？

在图像分割中，可以以一阶团为例，

\[V_c(\omega) = \beta \delta(w,w_s) = \left\{\begin{aligned} -\beta &&w = w_s \\\beta && w \neq w_s \\\end{aligned}\right.
\]

到这里，\(P(\omega)\)的所有变量解释完了，下一步是计算\(P(f|\omega)\)

\(P(f|\omega)\)的计算

\(P(f|\omega)\)被认为是服从高斯分布的，也就是说，如果我们知道了这个像素的标签是什么，那么他的像素值应该服从这个标签下的条件概率的高斯分布。其实他服从高斯分布还是很好理解的，我们已知这个像素点的label比如说是A，那么我们去统计一下所有标签是A的点的像素值的均值和方差，显然以这个均值和方差为参数的高斯分布更加契合这里的条件分布。

\[P(f_s|\omega_s) = \frac{1}{\sqrt{2\pi}\sigma_{w_s}}exp(-\frac{(f_s - \mu_{\omega_s})^2}{2\sigma^2_{\omega_s}})
\]

计算每个类别的像素均值和方差，带入公式，即得条件概率。

最后，就是最大化\(P(\omega)P(f|\omega)\),以对数形式转化为求和的形式去优化，最大化\(log(P(\omega)) + log(P(f|\omega))\).

Coding

import numpy as np

import cv2 as cv

import copy

class MRF():

    def __init__(self,img,max_iter = 100,num_clusters = 5,init_func = None,beta = 8e-4):

        self.max_iter = max_iter

        self.kernels = np.zeros(shape = (8,3,3))

        self.beta = beta

        self.num_clusters = num_clusters

        for i in range(9):

            if i < 4:

                self.kernels[i,i//3,i%3] = 1

            elif i > 4:

                self.kernels[i-1,i//3,i%3] = 1

        self.img = img

        if init_func is None:

            self.labels = np.random.randint(low = 1,high = num_clusters + 1,size = img.shape,dtype = np.uint8)

    def __call__(self):

        img = self.img.reshape((-1,))

        for iter in range(self.max_iter):

            p1 = np.zeros(shape = (self.num_clusters,self.img.shape[0] * self.img.shape[1]))

            for cluster_idx in range(self.num_clusters):

                temp = np.zeros(shape = (self.img.shape))

                for i in range(8):

                    res = cv.filter2D(self.labels,-1,self.kernels[i,:,:])

                    temp[(res == (cluster_idx + 1))] -= self.beta

                    temp[(res != (cluster_idx + 1))] += self.beta

                temp = np.exp(-temp)

                p1[cluster_idx,:] = temp.reshape((-1,))

            p1 = p1 / np.sum(p1)

            p1[p1 == 0] = 1e-3

            mu = np.zeros(shape = (self.num_clusters,))

            sigma = np.zeros(shape = (self.num_clusters,))

            for i in range(self.num_clusters):

                #mu[i] = np.mean(self.img[self.labels == (i+1)])

                data = self.img[self.labels == (i+1)]

                if np.sum(data) > 0:

                    mu[i] = np.mean(data)

                    sigma[i] = np.var(data)

                else:

                    mu[i]= 0

                    sigma[i] = 1

                #print(sigma[i])

            #sigma[sigma == 0] = 1e-3

            p2 = np.zeros(shape = (self.num_clusters,self.img.shape[0] * self.img.shape[1]))

            for i in range(self.img.shape[0] * self.img.shape[1]):

               for j in range(self.num_clusters):

                   #print(sigma[j])

                   p2[j,i] = -np.log(np.sqrt(2*np.pi)*sigma[j]) -(img[i]-mu[j])**2/2/sigma[j];

            self.labels = np.argmax(np.log(p1) + p2,axis = 0) + 1

            self.labels = np.reshape(self.labels,self.img.shape).astype(np.uint8)

            print("-----------start-----------")

            print(p1)

            print("-" * 20)

            print(p2)

            print("----------end------------")

            #print("iter {} over!".format(iter))

            #self.show()

            #print(self.labels)

    def show(self):

        h,w = self.img.shape

        show_img = np.zeros(shape = (h,w,3),dtype = np.uint8)

        show_img[self.labels == 1,:] = (0,255,255)

        show_img[self.labels == 2,:] = (220,20,60)

        show_img[self.labels == 3,:] = (65,105,225)

        show_img[self.labels == 4,:] = (50,205,50)

        #img = self.labels / (self.num_clusters) * 255

        cv.imshow("res",show_img)

        cv.waitKey(0)

if __name__ == "__main__":

    img = cv.imread("/home/xueaoru/图片/0.jpg")

    img = cv.cvtColor(img,cv.COLOR_BGR2GRAY)

    img = img/255.

    #img = np.random.rand(64,64)

    #img = cv.resize(img,(256,256))

    mrf = MRF(img = img,max_iter = 20,num_clusters = 2)

    mrf()

    mrf.show()

    #print(mrf.kernels)

Input:

Output(num_clusters = 4):

Output(num_clusters = 2):

[学习笔记] MRF 入门的更多相关文章

python学习笔记--Django入门四管理站点--二
接上一节 python学习笔记--Django入门四管理站点设置字段可选编辑Book模块在email字段上加上blank=True,指定email字段为可选,代码如下: class Autho ...
WebSocket学习笔记——无痛入门
WebSocket学习笔记——无痛入门标签: websocket 2014-04-09 22:05 4987人阅读评论(1) 收藏举报分类: 物联网学习笔记(37) 版权声明:本文为博主原 ...
Java学习笔记之---入门
Java学习笔记之---入门一. 为什么要在众多的编程语言中选择Java? java是一种纯面向对象的编程语言 java学习起来比较简单,适合初学者使用 java可以跨平台,即在Windows操作系 ...
DBFlow框架的学习笔记之入门
什么是DBFlow? dbflow是一款android高性的ORM数据库.可以使用在进行项目中有关数据库的操作.github下载源码 1.环境配置先导入 apt plugin库到你的classpat ...
MongoDB学习笔记:快速入门
MongoDB学习笔记:快速入门一.MongoDB 简介 MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统.在高负载的情况下,添加更多的节点,可以保证服务器性能.M ...
学习笔记_J2EE_SpringMVC_01_入门
1. 概述笔者作为一个不太正经的不专业佛教信仰者,习惯了解事物的因果关系,所以概述就有点BBB...了.如果不喜欢这些的,请自行跳过概述章节,直接进入第二章的操作实践:2 入门示例. 1.1. ...
dubbo入门学习笔记之入门demo(基于普通maven项目)
注:本笔记接dubbo入门学习笔记之环境准备继续记录; (四)开发服务提供者和消费者并让他们在启动时分别向注册中心注册和订阅服务需求:订单服务中初始化订单功能需要调用用户服务的获取用户信息的接口(订 ...
SpringBoot学习笔记<一>入门与基本配置
毕业实习项目技术学习笔记参考文献学习视频 2小时学会Spring Boot:https://www.imooc.com/learn/767 学习资料 SpringBoot入门:https://bl ...
[学习笔记]SiftGPU入门
当有读者看到我这篇SiftGPU入门的学习笔记时,相信你已经读过了高博那篇<SLAM拾萃:SiftGPU>,那篇文章写于16年,已经过去两年的时间.在我尝试配置SiftGPU的环境时,遇到 ...

随机推荐

如何源码编译安装并控制nginx
安装nginx 注意 Linux操作系统需要2.6及其以上的内核(支持epoll) 使用nginx的必备软件 gcc编辑器 yum -y install gcc gcc-c++ pcre库(支持正则表 ...
Python 之subprocess模块
Python subprocess模块运行python的时候,我们都是在创建并运行一个进程.像Linux进程那样,一个进程可以fork一个子进程,并让这个子进程exec另外一个程序.在Python中, ...
2019-11-29-解决从旧格式的-csproj-迁移到新格式的-csproj-格式-AssemblyInfo-文件值重复问题...
title author date CreateTime categories 解决从旧格式的 csproj 迁移到新格式的 csproj 格式 AssemblyInfo 文件值重复问题 lindex ...
[工具] fierce--子域收集
简介 fierce 是使用多种技术来扫描目标主机IP地址和主机名的一个DNS服务器枚举工具.运用递归的方式来工作.它的工作原理是先通过查询本地DNS服务器来查找目标DNS服务器,然后使用目标DNS服务 ...
php的lareval框架配置出错
前两天,在学习php的 lareval 框架时,从官网上下载完lareval的安装包后,按照网上的配置教程一点一点的配置完后,当点击public 文件运行时就出现一个让我很头痛的问题,我自己外加两个大 ...
Loadrunner：管理员权限启动报错“win10 为了对电脑进行保护，已经阻止此应用”
问题最近在尝试做性能测试,由于 Loadrunner 必须用管理员身份启动(普通用户权限启动会遇到各种权限不足的问题) 但是用管理员身份启动时,报错了:win10 为了对电脑进行保护,已经阻止此应用 ...
CSS基础学习-6.CSS属性_列表、表格
Git-------常用操作记录
说明: 一般情况下,git要将内容提交到本地仓库,都是先将内容提交到暂存区,然后再从暂存区提交到本地仓库. 常用命令(一个简单的示例操作): git init:会默认创建一个分支,命名为master ...
Vue数据通信详解
如果有需要源代码,请猛戳源代码希望文章给大家些许帮助和启发,麻烦大家在GitHub上面点个赞!!!十分感谢一.前言组件是 vue.js最强大的功能之一,而组件实例的作用域是相互独立的,这就意味着 ...
docker及k8s安装consul
一.docker部署consul集群参考文献:https://www.cnblogs.com/lonelyxmas/p/10880717.html https://blog.csdn.net/qq_ ...

[学习笔记] MRF 入门