解读ICDE'22论文：基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法

摘要：本文提出了两个用于无监督的具备可解释性和鲁棒性时间序列离群点检测的自动编码器框架。

本文分享自华为云社区《解读ICDE'22论文：基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法》，作者：云数据库创新Lab 。

导读

本文（Robust and Explainable Autoencoders for Unsupervised Time Series Outlier Detection）是由华为云数据库创新Lab联合丹麦Aalborg University与电子科技大学发表在顶会ICDE’22的文章。该文章针对时间序列离群点检测问题，提出了基于自动编码器（AE）和鲁棒的主成分分析（RPCA）结合的兼具鲁棒性和可解释性的深度神经网络算法鲁棒自动编码器（RAE）和鲁棒双自动编码器（RDAE），并通过大量的实验证明RAE和RDAE算法能有效提高时间序列离群点检测的准确度，鲁棒性和可解释性。ICDE是CCF推荐的A类国际学术会议，是数据库和数据挖掘领域顶级学术会议之一。

1. 摘要

随着数据挖掘技术在制造业、众包和交通等领域的普及，大量的时序性数据被产生及应用。本文研究的是时间序列的离群点检测问题，旨在解决时间序列离群点检测难以兼具鲁棒性和可解释性的问题。

鲁棒性：在无监督的情况下，训练数据可能已经包括了离群值。由于编码器压缩了输入时间序列中的所有观测值，因此产生的潜在表征对离群值很敏感。特别是当它们的幅度很大时，少量的离群值仍然可能污染潜在的表征。训练数据中的离群值有可能污染潜在表征，使潜在表征也捕捉到离群值模式；因此一些离群值可能有小的重建误差（图1b中的红色曲线），很难从干净的数据中分离出来。这对准确性产生了不利的影响。例如，图1b中的蓝色曲线显示了从被污染的潜在表征中重建的时间序列。这就产生了一些重建误差较小的离群值，使得它们很难被发现（见图1b中的橙色区域）。为了避免这种情况，需要采用鲁棒的解决方案，使潜像表征受训练数据中离群值的影响较小。

可解释性：自动编码器将具有较大重建误差的观测值视为离群值，给定一个输入时间序列\mathcal{T}T，自动编码器将重建洁净的时间序列\hat{\mathcal{T}}T^。如果输入时间序列中的观测值与重建时间序列中的相应观测值有很大的偏差，即相应的重建误差\mathcal{T}-\hat{\mathcal{T}}T−T^很大，那么自动编码器就把这些观测值看作是离群值。然而现有的自动编码器产生的重建时间序列\mathcal{T}T往往比较复杂（例如，图1b中的蓝色曲线），致使用户难以理解哪些观测值应该出现在正常状态下。这就要求有更多的可解释的解决方案，例如重建的时间序列具有一个易于人类理解的模式（例如图1c中的蓝色曲线）。

图1. 鲁棒性和可解释性说明

本文针对以上挑战提出了相应的解决办法，主要贡献如下：

本文提出了两个用于无监督时间序列离群点检测的自动编码器框架RAE和RDAE，提供了更好的鲁棒性和可解释性。
本文提出了一种post-hoc可解释性分析技术。该方法能够对基于AE的离群点检测方法的可解释性进行量化分析。
RAE和RDAE算法的准确率和可解释性在真实的时间序列数据集上击败了现有的方法。

2. 背景

图2. 自编码器流程图

模型设计：首先，本文提出的模型支持时间序列问题。第二，本文提出的模型具有鲁棒性。第三，本文提出的模型具备可解释性。第四，本文提出的模型支持非线性关系。第五，本文支持多视角的学习机制。基于上述分析，本文提出两个兼具鲁棒性和可解释性的自动编码器框架RAE和RDAE，其差异性如图3所示：

图3. 模型差异性

3. RAE和RDAE算法设计

本文提出的RAE和RDAE算法结合了自编码器的支持时间序列，支持非线性拟合和RPCA具有良好鲁棒性和可解释性的优势。我们会先后介绍这两个模型。

RAE

RAE结合了自编码器和RPCA的优点，其流程图如图4所示：

图4. RAE流程图

RAE算法的具体细节如图5所示：

图5. RAE算法细节

RDAE

多视图学习已经被证明能够通过向学习器提供补充信息来提高学习算法的鲁棒性，例如矩阵视图和时间序列视图。受此启发，基于RAE的多视图框架RDAE被提出。其流程图如图6所示：

图6. RDAE流程图

RDAE算法的细节如图7所示：

图7. RDAE算法细节

4. 可解释性

模型的可解释性指模型的输出是否易于人类理解并接受。图8介绍了何为可解释性：

图8. 可解释性介绍

图8a中的蓝色曲线为输入的时间序列，红色点为离群点。图8b的模型展示了同事具备高准确率和可解释性的模型。图8c展示了高准确率但是不具备可解释性的模型。图8d展示了具备可解释性但是低准确率的模型。可解释性高的模型输出的洁净时间序列具有比较简单的解析形式，即具备简单的且可以被人类理解的函数形式。

本文提出了两种post-hoc量化可解释性方法，PRM-based Explainability Scores和SSA-based Explainability Scores。提出的方法可以量化不同的基于自编码器的离群点检测算法的可解释性。我们会依次介绍这两种方法。

PRM-based Explainability Scores

该方法的思想是将拟合的洁净时间序列与N阶多项式求解平方根均方误差（RMSE），设定阈值\gammaγ，若RMSE小于该阈值，则认为洁净时间序列觉有N阶多项式序列可解释性。求解模型输出可以满足要求的最小N。当N越小，则认为模型的输出更具有可解释性。其公式如下：

SSA-based Explainability Scores

该方法的思想是将拟合的洁净时间序列与包含N个组件的SSA算法输出求解平方根均方误差（RMSE），SSA算法可将时间序列分解成N个具有趋势性和周期性的时间序列的线性组合。设定阈值\gammaγ，若RMSE小于该阈值，则认为洁净时间序列觉有包含N个组件的SSA可解释性。求解模型输出可以满足要求的最小N。当N越小，则认为模型的输出更具有可解释性。其公式如下：

5. 实验

本文选取了七个时间序列数据集GD，HSS，ECG，NAB，S5，2D，SYN，并选取了15个现有的离群点检测方法作为baseline。

实验结果 本文在七个数据集上分别做了对比实验，用ROC和PR作为比较手段，总体实验结果如图9所示：

图9. 实验结果

实验表明，RAE和RDAE在绝大多数情况下取得了最优表现。

此外，本文还完成了参数学习的研究，结果如图10所示：

图10. 参数学习

我们对模型的五个模块进行了消融实验，实验证明每个模块都发挥了作用，结果如图11所示：

图11. 消融实验

最后本文还测试了算法运行时间的对比，实验表明本文提出的方法在兼具鲁棒性和可解释性的同时运行时间也有一定的优势。结果如图12所示：

图12. 运行时间实验

6. 结论

本文提出了两个用于无监督的具备可解释性和鲁棒性时间序列离群点检测的自动编码器框架。这些框架首次尝试改善现有的基于神经网络的自动编码器的两个不足：低可解释性和对离群值的高脆弱性。RAE和RDAE将一个时间序列分解为一个洁净时间序列和一个离群时间序列，并使它们对离群值具有鲁棒性和可解释性。我们提供了一种post-hoc可解释性分析方法来量化模型的可解释性。实验研究表明本模型超过了最先进的方法。

华为云数据库创新lab官网：https://www.huaweicloud.com/lab/clouddb/home.html

华为伙伴暨开发者大会2022火热来袭，重磅内容不容错过！

【精彩活动】

勇往直前·做全能开发者→12场技术直播前瞻，8大技术宝典高能输出，还有代码密室、知识竞赛等多轮神秘任务等你来挑战。即刻闯关，开启终极大奖！点击踏上全能开发者晋级之路吧！

【技术专题】

未来已来，2022技术探秘→华为各领域的前沿技术、重磅开源项目、创新的应用实践，站在智能世界的入口，探索未来如何照进现实，干货满满点击了解

点击关注，第一时间了解华为云新鲜技术~