论文信息

论文标题：Towards Explanation for Unsupervised Graph-Level Representation Learning
论文作者：Qinghua Zheng, Jihong Wang, Minnan Luo, Yaoliang Yu, Jundong Li, Lina Yao, Xiaojun Chang
论文来源：2022, arXiv
论文地址：download
论文代码：download

1 Introduction

　　使用信息瓶颈的图级表示可解释性。

2 Notations and preliminaries

2.1 Information Bottleneck

　　给定输入数据 $X$ 及其标签 $Y$，Information Bottleneck 的目的是发现一个压缩的潜在表示 $Z$，它以 $Y$ 提供最大的信息。在形式上，我们可以通过优化以下优化问题来学习潜在的表示 $Z$：

　　　　$\underset{Z}{max } \;\mathcal{L}_{I B}=I(Z ; Y)-\beta I(X ; Z)\quad\quad\quad(1)$

　　其中，$\beta$ 表示对信息量和压缩量的超参数权衡。

　　互信息(MI)I（X；Z）度量两个随机变量的相关性，表述为

　　　　$I(X ; Z)= \int_{x} \int_{z} p(x, z) \log \frac{p(x, z)}{p(x) p(z)} d x d z $

2.2 GNN explanation

　　GNN的解释旨在理解对GNN的计算过程至关重要的图的内在信息，从而提供人类可理解的解释。具体来说，给定一个图 $G$ 和一个学习条件分布 $P_{\psi}(\hat{Z} \mid G), \mathrm{GNN}$ 的GNN模型 $\psi$)，GNN解释的目的是学习与GNN的计算结果最相关的解释子图 $S$，即：

　　　　$\underset{S \in \mathcal{S}}{\text{arg max }} \operatorname{Score}(S, \hat{Z})\quad\quad\quad(2)$

　　其中，$\mathcal{S}$ 表示由图 $G$ 的所有可能的子图组成的集合；$\operatorname{Score}(S, \hat{Z})$ 测量了子图 $\mathcal{S}$ 和 GNN 的计算结果 $\hat{Z}$ 之间的相关性。

　　例如，GNNExcraner[9]关注于对监督 GNN 的解释，并将相关评分 $\operatorname{Score}(S, \hat{Z})$ 形式化为互信息，即

　　　　$S=\arg \max _{S \in \mathcal{S}} I(S ; \hat{Y})$

　　其中，随机变量 $\hat{Y}=\hat{Z}$ 表示分类概率。

3 Method

3.1 Unsupervised Subgraph Information Bottleneck

　　在本文中，我们研究了无监督图级表示学习的未探索的解释问题。给定一个由无监督 GNN 提取的图 $G$ 及其对应的表示 $Z$，我们的目标是识别与这些表示最相关的解释子图 $S$。

　　根据前面的解释工作原理[9,10]，我们利用互信息来度量相关性，因此将解释问题表述为 $\underset{S}{\text{arg max }} I(S ; Z)$。不幸的是，由于 $I(Z ; S) \leq I(Z ; G)$(证明见附录B)，因此已经证明了存在一个平凡的解 $S=G$。琐碎的解决方案表明，解释子图年代可能包含多余的信息，例如，噪声和无关的信息表示 $Z$ 受 $IB$ 原则的成功解释监督网络[19]，我们推广 $IB$ 原则无监督设置，以避免琐碎的解决方案和利用一个新的原则。

　　Definition. (Unsupervised Subgraph Information Bottleneck: USIB). Given a graph $G$ and its representation $Z$ , the USIB seeks for the most informative yet compressed explanation $S$ through optimization problem

　　　　$ \underset{S}{\text{max } }\mathcal{L}_{U S I B}=I(Z ; S)-\beta I(G ; S)\quad\quad\quad(3)$

　　通过优化USIB目标，我们可以在解释性子图的信息性和压缩性之间进行权衡。然而，由于USIB目标的优化，互信息涉及到高维数据的积分，这是非常困难的。因此，需要利用互信息估计方法。

3.2 Optimization for USIB

　　我们分别在USIB的目标中处理两项 $I(Z ; S)$ 和 $I(G ; S)$。

Maximizing $I(Z ; S)$

　　我们采用 Jensen-Shannon MI estimator [32,33]来为 $I(Z；S)$ 分配一个近似的下界，即，

　　　　$\hat{I}^{J S D}(Z ; S):=\sup _{f_{\phi}} \mathbb{E}_{p(S, Z)}\left[-s p\left(-f_{\phi}(S, Z)\right)\right]-\mathbb{E}_{p(S), p(Z)}\left[s p\left(f_{\phi}(S, Z)\right)\right]\quad\quad\quad(4)$

　　其中 $ s p(x)=\log \left(1+e^{x}\right)$ 为 softplus function；函数 $ f_{\phi}: \mathcal{S} \times \mathcal{Z} \rightarrow \mathbb{R}$ 是带可学习参数 $\phi $，以区分 $S$ 和 $Z$ 的实例是否从联合分布中采样。它是由 $\mathrm{MLP}_{\phi_{1}}$ 和 $\mathrm{GNN}_{\phi_{2}}$ 的函数复合来实现的，即：

　　　　$f_{\phi}\left(S^{(k)}, Z^{(k)}\right)=\operatorname{MLP}_{\phi_{1}}\left(\operatorname{GNN}_{\phi_{2}}\left(S^{(k)}\right) \| Z^{(k)}\right)\quad\quad\quad(5)$

　　其中，$\phi=\left\{\phi_{1}, \phi_{2}\right\}$；$\|$ 是指连接操作符。请注意，先验分布 $p(S, Z)$ 和 $p(Z)$ 在实践中通常是不可到达的。结合蒙特卡罗抽样来近似先验分布，我们得到了一个近似下界 $Eq.4$ 由：

　　　　$\underset{\phi}{max} \mathcal{L}_{1}(\phi, S)=\frac{1}{K} \sum\limits_{k=1}^{K}-s p\left(-f_{\phi}\left(S^{(k)}, Z^{(k)}\right)\right)-\frac{1}{K} \sum\limits_{k=1, m \neq k}^{K} s p\left(f_{\phi}\left(S^{(k)}, Z^{(m)}\right)\right)\quad\quad\quad(6)$

　　其中，$K$ 为样本的数量。$\left(S^{(k)}, Z^{(k)}\right)$ 从联合分布 $p(S, Z)$ 中采样，$\left(S^{(k)}, Z^{(m)}\right)$ 分别从边缘分布 $p(S)$ 和 $p(Z)$ 中独立采样。在实践中，我们通过随机排列从联合分布中抽样 $\left(S^{(k)}, Z^{(k)}\right)$ 对来采样 $\left(S^{(k)}, Z^{(m)}\right)$。

Minimizing $\boldsymbol{I}(\boldsymbol{G} ; \boldsymbol{S}) $

　　请注意，解释子图的熵 $H(S)=\mathbb{E}_{p(S)}[-\log p(S)]$ 为 $I(G ; S)$ 提供了一个上界，因为不等式 $I(G ; S)=H(S)-H(S \mid G) \leq H(S)$ 成立。然而，由于在实践中 $S$ 的先验分布未知的，因此很难计算熵。为了解决这个问题，我们考虑一个松弛，并假设解释图是一个吉尔伯特随机图(Gilbert random graph)[34]，其中边有条件地相互独立。具体地说，让 $(i, j) \in \mathcal{E}$ 表示图 $G$ 的边，$e_{i, j} \sim \operatorname{Bernoulli}\left(\mu_{i, j}\right)$ 是一个二元变量指示是否为子图 $S$ 选择边 $(i, j)$ 。因此，子图的概率分解为 $p(S)=\prod\limits _{(i, j) \in \mathcal{E}} p\left(e_{i, j}\right)$，其中 $p\left(e_{i, j}\right)=\mu_{i, j}^{e_{i, j}}\left(1-\mu_{i, j}\right)^{1-e_{i, j}}$。这样，我们就可以用蒙特卡罗抽样得到 $I(G ; S)$ 的一个近似上界，它记为

　　　　$\mathcal{L}_{2}(S)=-\frac{1}{K} \sum\limits_{k=1}^{K} \sum\limits_{(i, j) \in \mathcal{E}} e_{i, j}^{(k)} \log \mu_{i, j}^{(k)}+\left(1-e_{i, j}^{(k)}\right) \log \left(1-\mu_{i, j}^{(k)}\right)\quad\quad\quad(7)$

The reparameterization trick

　　基于梯度的优化方法可能无法优化 $\text{Eq.6}$ 和 $\text{Eq.7}$ ，由于不可微采样过程和子图结构的离散性质。因此，我们遵循 Gumbel-Softmax reparametrization trick [35, 36] 并将二元变量 $e_{i, j}$ 放宽为一个连续的边权值变量 $\hat{e}_{i, j}=\sigma((\log \epsilon-\log (1-\epsilon)+ \left.\left.w_{i, j}\right) / \tau\right) \in[0,1]$，其中 $\sigma(\cdot)$ 是 sigmoid function ；$\epsilon \sim \operatorname{Uniform}(0,1)$；$\tau$ 是温度超参数，并有 $\lim _{\tau \rightarrow 0} p\left(\hat{e}_{i, j}=1\right)=\sigma\left(w_{i, j}\right)$；$w_{i, j}$ 是由神经网络根据之前的工作计算的潜在变量:

　　　　$w_{i, j}^{(k)}=\operatorname{MLP}_{\theta_{1}}\left(\mathbf{z}_{i}^{(k)} \| \mathbf{z}_{j}^{(k)}\right) \text { with } \mathbf{z}_{i}^{(k)}=\operatorname{GNN}_{\theta_{2}}\left(G^{(k)}, i\right), i=1,2, \cdots\quad\quad\quad(8)$

　　其中，$\mathbf{z}_{i}^{(k)}$ 表示节点 $i$ 的节点表示。为了更好地表示，我们表示 $\theta= \left\{\theta_{1}, \theta_{2}\right\}$，并通过 $\hat{S}^{(k)}=g_{\theta}\left(G^{(k)}\right)^{3}$ 生成松弛子图 $\hat{S}$。设 $\mu_{i, j}^{(k)}=\sigma\left(w_{i, j}^{(k)}\right)$，等式中的 $\text{Eq.7}$ 可以被重写为

　　　　$\mathcal{L}_{2}\left(g_{\theta}\left(G^{(k)}\right)\right)=-\frac{1}{K} \sum\limits_{k=1}^{K} \sum\limits_{(i, j) \in \mathcal{E}} \hat{e}_{i, j}^{(k)} \log \sigma\left(w_{i, j}^{(k)}\right)+\left(1-\hat{e}_{i, j}^{(k)}\right) \log \left(1-\sigma\left(w_{i, j}^{(k)}\right)\right)\quad\quad\quad(9)$

　　总之，我们重写了USIB优化问题 $\text{Eq.3}$ 作为：

　　　　$\underset{\phi, \theta}{\text{max }} \mathcal{L}_{U S I B}(\phi, \theta, G)=\mathcal{L}_{1}\left(\phi, g_{\theta}\left(G^{(k)}\right)\right)-\beta * \mathcal{L}_{2}\left(g_{\theta}\left(G^{(k)}\right)\right)\quad\quad\quad(10)$

　　我们的方法的概述如 Fig. 2 所示。首先通过神经网络生成解释子图，然后利用另一个网络来估计解释子图和图表示之间的互信息。最后，对子图生成器和互信息估计器进行了协同优化。最终的解释性子图可以通过选择具有 top-n 个边权值 $\left(\hat{e}_{i, j}^{(k)}\right)$ 的边来实现。详细的算法可以在附录中找到。

3 Experiments

　　在本节中，我们通过回答以下问题来实证评估我们所提出的方法的有效性和优越性。

RQ1 How does our proposed method perform compared to other baseline explainers?
RQ2 Does expressiveness and robustness of representations affect the fifidelity of explanatory subgraphs in agreement with the theoretical analysis?

3.1 Effectiveness of USIB

3.2 Inflfluence of representations’ expressiveness and robustness

3.3 Qualitative analysis

4 Conclusion

　　我们研究了一个未被探索的解释问题：对无监督图表示学习的解释。我们提出了IB原理来解决解释问题，从而产生了一种新的解释方法USIB。此外，我们还从理论上分析了标签空间上的表示和解释子图之间的联系，结果表明，表达性和鲁棒性有利于解释子图的保真度。在四个数据集和三个目标模型上的广泛结果证明了我们的方法的优越性和理论分析的有效性。作为未来的研究方向，我们考虑了无监督表示学习的反事实解释[42]，并探讨了解释和对抗性例子[43,44,45]之间是否存在联系。

修改历史

2022-06-21 创建文章

论文解读目录

参考文献

图论——随机图与随机点积图

[22] Higher-order explanations of graph neural networks via relevant walks

论文解读（USIB）《Towards Explanation for Unsupervised Graph-Level Representation Learning》的更多相关文章

论文解读（GRACE）《Deep Graph Contrastive Representation Learning》
Paper Information 论文标题:Deep Graph Contrastive Representation Learning论文作者:Yanqiao Zhu, Yichen Xu, Fe ...
论文解读（GCC）《Efficient Graph Convolution for Joint Node RepresentationLearning and Clustering》
论文信息论文标题:Efficient Graph Convolution for Joint Node RepresentationLearning and Clustering论文作者:Chaki ...
论文解读（AGC）《Attributed Graph Clustering via Adaptive Graph Convolution》
论文信息论文标题:Attributed Graph Clustering via Adaptive Graph Convolution论文作者:Xiaotong Zhang, Han Liu, Qi ...
论文解读《Momentum Contrast for Unsupervised Visual Representation Learning》俗称 MoCo
论文题目:<Momentum Contrast for Unsupervised Visual Representation Learning> 论文作者: Kaiming He.Haoq ...
论文解读（MLGCL）《Multi-Level Graph Contrastive Learning》
论文信息论文标题:Structural and Semantic Contrastive Learning for Self-supervised Node Representation Learn ...
论文解读（SelfGNN）《Self-supervised Graph Neural Networks without explicit negative sampling》
论文信息论文标题:Self-supervised Graph Neural Networks without explicit negative sampling论文作者:Zekarias T. K ...
论文解读（DGI）《DEEP GRAPH INFOMAX》
论文标题:DEEP GRAPH INFOMAX 论文方向:图像领域论文来源:2019 ICLR 论文链接:https://arxiv.org/abs/1809.10341 论文代码:https:// ...
论文解读（DCRN）《Deep Graph Clustering via Dual Correlation Reduction》
论文信息论文标题:Deep Graph Clustering via Dual Correlation Reduction论文作者:Yue Liu, Wenxuan Tu, Sihang Zhou, ...
论文解读（IGSD）《Iterative Graph Self-Distillation》
论文信息论文标题:Iterative Graph Self-Distillation论文作者:Hanlin Zhang, Shuai Lin, Weiyang Liu, Pan Zhou, Jian ...
论文解读（SAGPool）《Self-Attention Graph Pooling》
论文信息论文标题:Self-Attention Graph Pooling论文作者:Junhyun Lee, Inyeop Lee, Jaewoo Kang论文来源:2019, ICML论文地址:d ...

随机推荐

企业需要使用网络损伤仪 WANsim 的帮助，以便更高效地迁移到云端
正确解决与云环境中的应用程序部署有关的问题需要针对每个系统的独特需求以寻找特定的网络工具.网络损伤仪 WANsim 助力企业更高效地迁移到云端! 起初,云厂商以在云端办公相对于传统方式拥有更高的可靠性 ...
linux运行二进制文件编写方式
chmod +x ./test.sh #使脚本具有执行权限 ./test.sh #执行脚本注意,一定要写成 ./test.sh,而不是 test.sh,运行其它二进制的程序也一样,直接写 test. ...
babel 的介绍及其配置
vue/cli -- babel Babel 是一个工具链,主要用于将 ECMAScript 2015+ 版本的代码转换为向后兼容的 JavaScript 语法,以便能够运行在当前和旧版本的浏览器或其 ...
关于Electron框架应用的安全测试
Electron框架应用的安全测试 0.Electron相关简介 electron.js是一个运行时框架,它在设计之初就结合了当今最好的Web技术,核心是使用HTML.CSS.JavaScript构建 ...
HCIE笔记-第八节-传输层协议
传输层:实现"端到端"的服务应用到应用端口 = port [逻辑端口] 基于应用级别的互访,就是端口到端口的互访. 传输层 = 0-65535[端口范围] === TCP/U ...
Java语言学习day38--8月13日
###11哈希表的数据结构 A:哈希表的数据结构:(参见图解) 加载因子:表中填入的记录数/哈希表的长度例如: 加载因子是0.75 代表: 数组中的16个位置,其中存入16*0.75=12个元素如 ...
11.Flink实时项目之支付宽表
支付宽表支付宽表的目的,最主要的原因是支付表没有到订单明细,支付金额没有细分到商品上, 没有办法统计商品级的支付状况. 所以本次宽表的核心就是要把支付表的信息与订单明细关联上. 解决方案有两个一个 ...
【GPLT】图着色问题(c++)
题目如下: 这道题就是奇葩,多少有点低质量,这题不难,知识点就是邻接矩阵,但有以下奇葩点 1.颜色的编号是1-v 不是1-k,这点卡了我一会: 2.颜色涂色可以多于3,也可以少于3(这其实正常,但如果 ...
linux脚本执行jar包运行
以下为linux下运行jar包的脚本(只需替换jar包名称): #!/bin/bash #这里可替换为你自己的执行程序,其他代码无需更改 APP_NAME=ruoyi-admin.jar cd `di ...
python学习-Day18
目录今日内容详细模块循环导入问题判断文件类型 py文件可以被分为两种类型内置变量 __ name __ 模块的查找顺序验证先从内存空间中查找验证再从内置模块中查找验证sys.path ...

论文解读（USIB）《Towards Explanation for Unsupervised Graph-Level Representation Learning》