Hinton等人新研究：如何更好地测量神经网络表示相似性

2019年05月22日 08:39:15 喜欢打酱油的老鸟阅读数 177更多

https://www.toutiao.com/a6692998683081835012/

近期很多研究试图通过对比神经网络表示来理解神经网络的行为。谷歌大脑 Simon Kornblith、Geoffrey Hinton 等人的一项新研究引入了 centered kernel alignment (CKA) 作为相似性指数，并分析 CKA、线性回归、典型相关分析（CCA）等相关方法之间的关系，证明 CKA 优于其他相似性指数。

在机器学习的很多任务中，深度神经网络可以自动从数据中学习强大的特征表示。尽管深度神经网络在多种任务中取得了令人印象深刻的进展，但如何理解和描述神经网络从数据中学习到的表示仍未得到充分研究。之前的工作（例如 Advani＆Saxe (2017)、Amari et al. (2018)、Saxe et al. (2013)）在理解神经网络训练过程的理论动态方面取得了一些进展。这些研究虽然很深刻，但却存在基础局限性，因为它们忽略了训练动态过程和结构化数据之间复杂的相互作用。事实上，神经网络表示会比损失函数提供更多机器学习算法和数据之间的交互信息。

谷歌大脑的这篇论文研究了测量深度神经网络表示相似性的问题。测量表示相似性的有效方法可帮助回答许多有趣的问题，包括：（1）基于不同随机初始化训练得到的相同架构深度神经网络是否学习相似的表示？（2）不同神经网络架构的各个层之间是否可以建立对应关系？（3）相同的神经网络架构从不同的数据集中学习的表示有多相似？

该论文的主要贡献有：

讨论了相似性指数的不变性及其对测量神经网络表示相似性的影响。
引入了 centered kernel alignment (CKA) 作为一种相似性指数，并分析 CKA、线性回归、典型相关分析（CCA）等相关方法之间的关系。
证明了 CKA 能够确定基于不同随机初始化和不同宽度训练的神经网络的隐藏层之间的对应关系，而以前提出的相似性指数在这些场景下是不适用的。
验证了网络越宽学习到的表示越相似，并且前几层的相似性比后几层更容易饱和。该研究证明了神经网络中的前几层而非后几层能从不同的数据集中学习到相似的表示。

问题描述

令 X∈R^(n×p_1) 表示 n 个样本的 p_1 个神经元的激活矩阵，Y∈R^(n×p_2) 表示相同的 n 个样本的 p_2 个神经元的激活矩阵。假设这些矩阵已经过预处理使得矩阵的每一列均值为零。在不失一般性的情况下，我们假设 p_1≤p_2。

为了可视化和理解深度学习中不同因素的影响，研究者设计和分析了标量相似性指数 s(X,Y)，它可用于比较神经网络内和神经网络之间的表示相似性。

论文：Similarity of Neural Network Representations Revisited

论文地址：https://arxiv.org/pdf/1905.00414.pdf

最近一些工作试图通过比较层之间和不同训练模型之间的表示来理解神经网络的行为。该论文研究了基于典型相关分析（CCA）对比神经网络表示的方法，证明 CCA 属于一类测量多元相似性的统计方法，但是 CCA 和其他对可逆线性变换具备不变性的统计方法都无法测量维度高于数据点个数的表示之间的相似性。

该研究介绍了一个相似性指数，它可以测量表示相似性矩阵之间的关系，并且不受上面的这种限制。该相似性指数等价于 centered kernel alignment (CKA)，并且也与 CCA 紧密相关。不同于 CCA，CKA 可以可靠地识别基于不同初始化训练的网络学习得到的表示之间的对应关系。

相似性指标的不变性是针对什么变换而言的？

相似性指标的不变性及其对测量神经网络表示相似性的影响是很重要的。该研究认为，相似性的直观概念和神经网络训练的动态过程都要求相似性指标对正交变换和各向同性缩放（isotropic scaling）是不变的，而不是可逆线性变换。

比较相似性结构（Similarity Structure）

与直接比较一个样本在两个表示中的多变量特征（比如通过回归的方法）不同，该研究的主要观点是：首先分别测量每个表示中的每对样本之间的相似性，然后比较相似性结构。在神经科学中，表示样本之间相似性的矩阵被称为表征相似性矩阵（Kriegeskorte et al., 2008a）。下文证明了，如果使用内积来测量相似性，那么表征相似性矩阵之间的相似性可以简化成成对特征相似性的另一个直观概念。

基于点积的相似性。下面是一个将样本之间的点积与特征之间的点积关联的简单公式：

Hilbert-Schmidt 独立性准则（HSIC）。从等式 1 可以推出，对于均值为 0 的 X 和 Y 有：

令 K_ij = k(x_i , x_j ) , L_ij = l(y_i , y_j )，其中 k 和 l 是两个核函数。HSIC 的经验估计是：

Centered Kernel Alignment. HSIC 对各向同性缩放不具备不变性，但可以通过归一化使其具有不变性。归一化后的指标称为 centered kernel alignment (Cortes et al., 2012; Cristianini et al., 2002)：

Hinton等人新研究：如何更好地测量神经网络表示相似性的更多相关文章

Hinton等人最新研究：大幅提升模型准确率，标签平滑技术到底怎么用?
Hinton等人最新研究:大幅提升模型准确率,标签平滑技术到底怎么用? 2019年07月06日 19:30:55 AI科技大本营阅读数 675 版权声明:本文为博主原创文章,遵循CC 4.0 B ...
Adam作者大革新，联合Hinton等人推出全新优化方法Lookahead
Adam作者大革新, 联合Hinton等人推出全新优化方法Lookahead 参与:思源.路.泽南快来试试 Lookahead 最优化方法啊,调参少.收敛好.速度还快,大牛用了都说好. 最优化方 ...
开学收好这 17 种工具 App，让你新学期学习更有效率
开学啦!不管是想勾搭学长还是想讨好学妹,相信同学们对新学期.新同学或者新学校都已经满怀期待了.但是,除了帅气逼人的学长和青春靓丽的学妹,你们可不能忘记上学的首要任务还是学习噢. 那么,为了帮助同学们更 ...
iOS 10正式发布：十大新功能，更注重人性化
6月14日凌晨消息,苹果公司举行2016年WWDC全球开发者大会,介绍了watch OS.tv OS.OS X以及iOS 10系统的新特性. 据苹果介绍,iOS 10在锁屏.Siri.地图等十个各方面 ...
Neuromation新研究：利用卷积神经网络进行儿童骨龄评估
近日,Neuromation 团队在 Medium 上撰文介绍其最新研究成果:利用卷积神经网络(CNN)评估儿童骨龄,这一自动骨龄评估系统可以得到与放射科专家相似或更好的结果.该团队评估了手骨不同区域 ...
Tomcat 7 的七大新特性（更容易将Tomcat内嵌到应用去中去）
Tomcat的7引入了许多新功能,并对现有功能进行了增强.很多文章列出了Tomcat 7的新功能,但大多数并没有详细解释它们,或指出它们的不足,或提供代码示例.本文将明确描述TOMCAT 7中七个最显 ...
Azure 媒体服务换新锁，更安全更方便，新钥匙请收好！
不知道有多少人已经把家里的门锁换成了数字化的指纹锁?沿用了几百上千年的传统门锁,在技术的帮助下无疑变得更方便,不用带钥匙,还能远程控制和操作,最重要的是,终于不用担心「衣果(luǒ)着」出门扔垃圾,风 ...
SQL-表的操作（创建表，删除表，更改列，插入新行，更改行的值，删除表中数据）
一,操作表及列 1.创建表: CREATE TABLE test (ID int PRIMARY KEY IDENTITY,Name varchar(20) ) 2.删除表 DROP TABLE t ...
Java 8 新特性-Stream更优雅的处理集合入门
Java 8 新特性之--Stream 一. 简单介绍 Stream是Java 8提出了的一种新的对集合对象功能的增强.它集合Lambda表达式,对集合提供了一些非常便利,高效的操作,使得代码具有非常 ...

随机推荐

ImportError: DLL load failed: 找不到指定的模块
如果遇到错误:ImportError: DLL load failed: 找不到指定的模块出现错误原因:安装包的来源问题,也可以理解为包版本兼容问题,有的包使用官方出版,有的包使用whl文件安装解决 ...
说说如何使用unity Vs来进行断点调试
转载自:http://dong2008hong.blog.163.com/blog/static/4696882720140293549365/ 大家可以从这下载最新版的unity vs. Unity ...
HearthBuddy版本收集
Hearthbuddy-20190811-010-0b563c92.exe 20190810-003 SHA-256: b2a03c10124b038d2c48279cc50947907a55c8 ...
Android之MVVM开发模式
MVVM 模式简介 MVVM模式是指Model-View-ViewModel.相信看过笔者关于MVP的文章的读者也会发现,无论如何抽象化,在我们的View层中是无法避免的要处理一部分逻辑的.而MVVM ...
vue3.x版本安装element-ui、axios及echarts图表插件
项目中安装使用element-UI 命令行: vue add element 安装成功后,项目会自动将element-UI引入项目中,刷新项目即可项目中安装使用axios数据请求 vue add a ...
Git(3)：分支管理
Git 分支管理几乎每一种版本控制系统都以某种形式支持分支.使用分支意味着你可以从开发主线上分离开来,然后在不影响主线的同时继续工作. 创建分支命令 $git branch <branch n ...
MongoDB集群-主从复制(副本集)、failover
1.概念主从复制的目的:数据冗余.备份.读写分离主从方式:一主一从(不推荐,只能实现复制,主节点挂掉且未重新启动的时候,无法提升从节点为master),一主一从一裁判,一主多从复制方式:主节点记 ...
Day04:异常处理(二) / 多线程基础
多线程线程是什么? 一个线程是线程一个顺序执行流. 同类的多个线程共享一块内存空间和一组系统资源,线程本身有一个供程序执行时的栈堆.线程在切换时负荷小,因此,线程也被称为轻负荷进程.一个进程中可以包 ...
VMware Workstation 12许可证
VMware 12专业版永久许可证密钥: 5A02H-AU243-TZJ49-GTC7K-3C61N VF5XA-FNDDJ-085GZ-4NXZ9-N20E6 UC5MR-8NE16-H81WY-R ...
【Abode Air程序开发】打包并导出
打包并导出将移动设备应用程序打包并导出到在线商店导出用于发行的 Android APK 包导出用于发行的 Apple iOS 包使用命令行进行创建.测试和部署使用 mxmlc 编译手机应用程 ...

Hinton等人新研究：如何更好地测量神经网络表示相似性

Hinton等人新研究：如何更好地测量神经网络表示相似性

Hinton等人新研究：如何更好地测量神经网络表示相似性的更多相关文章

随机推荐

热门专题