Leino K., Wang Z. and Fredrikson M. Globally-robust neural networks. In International Conference on Machine Learning (ICML), 2021.

本文是一种可验证的鲁棒方法, 并且提出了一种globally-robust的概念, 但是实际看下来并不觉得有特别出彩的地方.

主要内容

对于网络\(f : \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}\), 其中\(m\)表示共有m个不同的类别. 则prediction可以表示为

\[F(x) = \mathop{\arg \max} \limits_{i} f_i(x).
\]

普通的local robustness采用如下方式定义:

\(F\)被称为在点\(x\)满足\(\epsilon\)-locally-robust, 当对于任意的样本\(x'\)满足

\[\|x'-x\| \Rightarrow F(x) = F(x').
\]

这种定义方式并不恰当, 因为倘若这个性质对于所有的点都成立, 那么所有的样本都会被判定为同一个类别, 从而得到的是一个退化的\(F\).

作者给出的globally-robust的定义是可以对于所有\(x\)有效的.

首先假设一个新的类别\(\perp\), 以及关系

\[c_1 \mathop{=}\limits^{\perp} c_2,
\]

当且仅当

\[c_1 = c_2 | c_1=\perp | c_2 = \perp .
\]

则globally-robust是这么定义的:

\(F\)是\(\epsilon\)-globally-robust的, 如果对于任意的\(x_1, x_2\), 有下列推论成立

\[\|x_1 - x_2\| \le \epsilon \Rightarrow F(x_1) \mathop{=}\limits^{\perp} F(x_2).
\]

换言之, \(F\)关于所有点的预测, 要么其是locally-robust, 要么是属于\(\perp\)的, 故可以将\(\perp\)理解为所有不满足locally-robust的点.

接下来作者给出了这样模型的构造方法:

假设

\[\frac{|f_i(x_1) - f_i(x_2)|}{\|x_1 - x_2\|} \le K_i, i=1,2,\cdots, m,
\]

即\(f_i\)的全局Lipschitz常数为\(K_i\).

\[y_i = f_i(x), j=F(x),
\]

定义

\[y_{\perp} = \max_{i\not= j} \{y_i + (K_i + K_j) \epsilon \}.
\]

背后的直觉是, 根据Lipschitz常数的性质, 有

\[y_i -K_i \epsilon \le f_i (x') \le y_i + K_i \epsilon, \\
y_j -K_j \epsilon \le f_j (x') \le y_j + K_j \epsilon,
\]

所以

\[f_i(x') - f_j(x') \le y_i + (K_i + K_j) \epsilon -y_j = y_{\perp} - y_j.
\]

所以\(y_{\perp}\)反映了最坏的情况, 如果\(y_{\perp} > y_j\), 便有可能存在\(x', \|x'-x\| \le \epsilon\), 但是\(F(x') \not= F(x)\).

当然了, 这个是一个非常宽泛的情况.

进一步定义:

\[\bar{f}_i^{\epsilon} (x) = f_i(x), i =1,2,\cdots, m, \\
\bar{f}_{\perp}^{\epsilon}(x) = y_{\perp},
\]

所以最后的模型是:

\[\bar{F}^{\epsilon}(x) = \mathop{\arg \max} \limits_{i, \perp} \bar{f}_{*}^{\epsilon}(x).
\]

并由如下的性质:

定理1: 如果\(\bar{F}^{\epsilon}(x) \not = \perp\), 则 \(\bar{F}^{\epsilon}(x) = F(x)\), 且\(\bar{F}^{\epsilon}\)在\(x\)处是\(\epsilon\)-locally-robust的.

这是显然的, 因为这说明在\(\epsilon\)的ball内, 找出比上面情况更坏的点.

定理2: \(\bar{F}^{\epsilon / 2}(x)\)是\(\epsilon\)-globally-robust的.

只需证明不可能存在\(x_1, x_2, \|x_1 - x_2\| \le \epsilon\), \(\bar{F}^{\epsilon/2}(x_1)=c_1\not= c_2 =\bar{F}^{\epsilon/2}(x_1)\),

根据上面的定理可知:

\[F(x_1) = c_1 \not = c_2 = F(x_2).
\]

任取

\[x_3 \in B(x_1, \epsilon /2) \cap B(x_2, \epsilon /2),
\]

注: 这里\(B\)是闭球.

则根据定理1有\(F(x_1) = F(x_3) = F(x_2)\), 矛盾.

所以, 我们这么构造的模型就符合作者的定义了, 但是还存在下面的问题:

  1. 全局Lipschitz常数的估计问题: 作者采用简单粗暴的逐层计算并相乘, 放得很宽;
  2. 如果Lipschitz常数过大, 这个模型并不会有效, 显然所有的样本都会被判断为\(\perp\), 作者最后采用的损失函数是TRADES的一个变种:
    \[\mathcal{L}_T(x,y) = \mathcal{L}_{CE}(f(x), y) + \lambda \cdot \mathrm{D}_{KL}(\bar{f}^{\epsilon}(x)\| f(x)).
    \]

代码

原文代码

Globally-Robust Neural Networks的更多相关文章

  1. 【论文阅读】Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks

    Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks 参考 1. 人脸关键点: 2. ...

  2. Exploring Architectural Ingredients of Adversarially Robust Deep Neural Networks

    目录 概 主要内容 深度 宽度 代码 Huang H., Wang Y., Erfani S., Gu Q., Bailey J. and Ma X. Exploring architectural ...

  3. [Box] Robust Training and Initialization of Deep Neural Networks: An Adaptive Basis Viewpoint

    目录 概 主要内容 LSGD Box 初始化 Box for Resnet 代码 Cyr E C, Gulian M, Patel R G, et al. Robust Training and In ...

  4. [C4] Andrew Ng - Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization

    About this Course This course will teach you the "magic" of getting deep learning to work ...

  5. 【转】Artificial Neurons and Single-Layer Neural Networks

    原文:written by Sebastian Raschka on March 14, 2015 中文版译文:伯乐在线 - atmanic 翻译,toolate 校稿 This article of ...

  6. 提高神经网络的学习方式Improving the way neural networks learn

    When a golf player is first learning to play golf, they usually spend most of their time developing ...

  7. 课程四(Convolutional Neural Networks),第一周(Foundations of Convolutional Neural Networks) —— 3.Programming assignments:Convolutional Model: application

    Convolutional Neural Networks: Application Welcome to Course 4's second assignment! In this notebook ...

  8. Convolutional Neural Networks: Application

    Andrew Ng deeplearning courese-4:Convolutional Neural Network Convolutional Neural Networks: Step by ...

  9. (转)Understanding, generalisation, and transfer learning in deep neural networks

    Understanding, generalisation, and transfer learning in deep neural networks FEBRUARY 27, 2017   Thi ...

  10. AlexNet论文翻译-ImageNet Classification with Deep Convolutional Neural Networks

    ImageNet Classification with Deep Convolutional Neural Networks 深度卷积神经网络的ImageNet分类 Alex Krizhevsky ...

随机推荐

  1. Erda 系列 Meetup「成都站」携手SOFAStack 和你聊聊云原生基础设施建设那点事儿

    技术控快上车啦秋天的第一场活动一起来收获技术干货吧! 主题: 云原生基础设施建设的现在及未来时间: 2021 年 9 月 11 日 (周六) 13:30-17:00活动地点: 四川省成都市蚂蚁 C 空 ...

  2. C++11的auto自动推导类型

    auto是C++11的类型推导关键字,很强大 例程看一下它的用法 #include<vector> #include<algorithm> #include<functi ...

  3. Java8使用并行流(ParallelStream)注意事项

    Java8并行流ParallelStream和Stream的区别就是支持并行执行,提高程序运行效率.但是如果使用不当可能会发生线程安全的问题.Demo如下: public static void co ...

  4. How exactly does Google AdWords work?

    The key to how Google AdWords works is the Quality Score. Quality Score is generally how well an ad ...

  5. AOP与IOC的概念

    AOP与IOC的概念(即spring的核心) a) IOC:Spring是开源框架,使用框架可以使我们减少工作量,提高工作效率并且它是分层结构,即相对应的层处理对应的业务逻辑,减少代码的耦合度.而sp ...

  6. adb命令对app进行测试

    1.何为adb adb android  debug  bridge ,sdk包中的工具,将Platform-tooks 和tools  两个路径配置到环境变量中 2.SDK下载链接:http://t ...

  7. Java Jar包压缩、解压使用

    什么是jar包JAR(Java Archive)是Java的归档文件,它是一种与平台无关的文件格式,它允许将许多文件组合成一个压缩文件. 如何打/解包使用jdk/bin/jar.exe工具,配置完环境 ...

  8. 【Linux】【Shell】【Basic】条件测试和变量

    bash脚本编程       脚本文件格式:         第一行,顶格:#!/bin/bash         注释信息:#         代码注释:         缩进,适度添加空白行:   ...

  9. 如何使用pycharm克隆阿里云项目

    我们回到PyCharm刚打开时的界面,如图1-1所示:   点击"Check out from Version Control" => "Git",如图1 ...

  10. Servlet+Jdbc+mysql实现登陆功能

    首先是新建一个servlet,servlet中有dopost和doget方法 一般的表格提交都是用post方法,故在dopost里面写入逻辑代码 下面是其逻辑代码Check.java protecte ...