A Simple Framework for Contrastive Learning of Visual Representations 阅读笔记

Motivation

作者们构建了一种用于视觉表示的对比学习简单框架 SimCLR，它不仅优于此前的所有工作，也优于最新的对比自监督学习算法，

而且结构更加简单：这个结构既不需要专门的架构，也不需要特殊的存储库。

· 由于采用了对比学习，这个框架可以作为很多视觉相关的任务的预训练模型，可以在少量标注样本的情况下，拿到比较好的结果。

Discovery

在这篇论文中，研究者发现：

· 多个数据增强方法组合对于对比预测任务产生有效表示非常重要。

· 与监督学习相比，数据增强对于无监督学习更加有用；

· 在表示和对比损失之间引入一个可学习的非线性变换可以大幅提高模型学到的表示的质量；

· 与监督学习相比，对比学习得益于更大的批量和更多的训练步骤。

基于这些发现，他们在 ImageNet数据集上实现了一种新的自监督学习方法—SimCLR。

Model

SimCLR 通过隐空间中的对比损失来最大化同一数据示例的不同增强视图之间的一致性，从而学习表示形式。具体说来，这一框架包含四个主要部分：

· 随机数据增强模块，可随机转换任何给定的数据示例，从而产生同一示例的两个相关视图，分别表示为 x˜i 和 x˜j，我们将其视为正对；

· 一个基本的神经网络编码器 f(·)，从增强数据中提取表示向量；

· 一个小的神经网络投射头（projection head）g(·)，将表示映射到对比损失的空间；

· 为对比预测任务定义的对比损失函数。

下面让我们详细的理解一下simCLR算法的核心思想

首先是对比学习的基本概念，其实很简单，这是一种试图教会机器区分相似和不同的东西

可以简单总结为：

· 随机抽取一个小批量

· 给每个例子绘制两个独立的增强函数

· 使用两种增强机制，为每个示例生成两个互相关联的视图

· 让相关视图互相吸引，同时排斥其他示例

其算法可以具体表示为：

非常简单。取一幅图像，对其进行随机变换，得到一对增广图像x_i和x_j。该对中的每个图像都通过编码器以获得图像的表示。然后用一个非线性全连通层来获得图像表示z，其任务是最大化相同图像的z_i和z_j两种表征之间的相似性

首先是Data Augment这步

这个是效果，以N=2为例，则会产生2N = 4张经过数据增加的图。（文中作者使用N = 8192/batch）

然后是编码部分

下面是关于Similarity部分，也就是计算两个图像特征之间的相似度

下面是SimCLR的对比损失函数

分析结束

最后是与其他方式的比较

在线性评估方面，SimCLR 实现了 76.5% 的 top-1 准确率，比之前的 SOTA 提升了 7%。在仅使用 1% 的 ImageNet 标签进行微调时，SimCLR 实现了 85.8% 的 top-5 准确率，比之前的 SOTA 方法提升了 10%。在 12 个其他自然图像分类数据集上进行微调时，SimCLR 在 10 个数据集上表现出了与强监督学习基线相当或更好的性能。

Code

Tensorflow实现：https://github.com/googl-research/simclr

Pytorch实现：https://github.com/leftthomas/SimCLR

Reference

https://blog.csdn.net/u011984148/article/details/106233313/

最后，都看到这了，姑且给一个赞，推荐，关注一键三连呗~

A Simple Framework for Contrastive Learning of Visual Representations 阅读笔记的更多相关文章

论文解读（SimCLR）《A Simple Framework for Contrastive Learning of Visual Representations》
1 题目 <A Simple Framework for Contrastive Learning of Visual Representations> 作者: Ting Chen, Si ...
A Simple Framework for Contrastive Learning of Visual Representations
目录概主要内容流程 projection head g constractive loss augmentation other 代码 Chen T., Kornblith S., Norouz ...
【CV】ICCV2015_Unsupervised Learning of Visual Representations using Videos
Unsupervised Learning of Visual Representations using Videos Note here: it's a learning note on Prof ...
论文解读（PCL）《Prototypical Contrastive Learning of Unsupervised Representations》
论文标题:Prototypical Contrastive Learning of Unsupervised Representations 论文方向:图像领域,提出原型对比学习,效果远超MoCo和S ...
Deep Learning of Graph Matching 阅读笔记
Deep Learning of Graph Matching 阅读笔记 CVPR2018的一篇文章,主要提出了一种利用深度神经网络实现端到端图匹配(Graph Matching)的方法. 该篇文章理 ...
【ML】ICML2015_Unsupervised Learning of Video Representations using LSTMs
Unsupervised Learning of Video Representations using LSTMs Note here: it's a learning notes on new L ...
论文解读（SimGRACE）《SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation》
论文信息论文标题:SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation论文作者: ...
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...
论文解读（SUGRL）《Simple Unsupervised Graph Representation Learning》
Paper Information Title:Simple Unsupervised Graph Representation LearningAuthors: Yujie Mo.Liang Pen ...

随机推荐

linux文本模式和文本替换功能
linux文本有:正常模式,编辑模式,可视化模式,命令模式. 正常模式进入编辑模式下的快捷键: i --光标当前位置输入 a --光标位置后输入(append) I --行首输入 A --行尾输入 ...
Linux 升级内核开启 TCP BBR 有多大好处
前言如果你有订阅一些科技新闻,应该会有看过内核在4.9当中加入了一个新的算法,来解决在有一定的丢包率的情况下的带宽稳定的问题,这个是谷歌为我们带来的干货,新的 TCP 拥塞控制算法 BBR (Bot ...
ubuntu配置简单的DNS服务器
之所以说是简单的服务器,实现的功能很简单,通过这个dns server 查询制定域名的时候,能够根据设置的值来返回IP,当前的需求是需要轮询的返回IP DNS 轮询机制会受到多方面的影响,如:A记录的 ...
Java web项目上传图片保存到数据库，并且查看图片，（从eclipse上移动到tomact服务器上，之路径更改，包括显示图片和导出excel）
//项目做完之后,在本机电脑运行完全正常,上传图片,显示图片,导出excel,读取excel等功能,没有任何问题,但是,当打成war包放到服务器上时,这些功能全部不能正常使用. 最大的原因就是,本机测 ...
关于CTFshow中Web入门42-54
0x00前记终于把学校上学期的期末考试考完了,刚好复习的时候跟着群里的师傅写了ctfshow上Web入门的42-54的题目,其中有很多的坑,但是收获也是很多的,这里做一下总结吧!给自己挖了很多的 ...
webug第七关:越权
第七关:越权观察url 将name换成admin 更改了admin的密码
还不懂java类加载机制的，建议看下这份阿里技术官总结的笔记！
类加载机制把class文件加载到内存,并对数据进行校验,准备,解析,初始化,形成可以被虚拟机直接使用的字节码类加载的时机(触发类的初始化) 使用new关键字实例化对象读取一个类的静态代码块使用 ...
iMindMap思维导图中可以插入哪些附件？
iMindMap(Windows系统)不仅拥有灵活的排版功能,而且还允许用户插入多种附件,丰富思维导图的内容.用户可以为思维导图添加图片.网址.录音等文件,让导图更显生动性.实用性. 将图片.录音等文 ...
GIF图保存下来不会动？用Folx的浏览器捕获下载功能试试！
表情包大多是GIF格式的动图,有时候使用浏览器的另存为保存完发现并不能动态播放,怎么办呢?试试Folx提供的浏览器捕获下载功能,就能将各种格式的图片,包括GIF动图的下载链接捕获下来,供进一步下载使用 ...
【NOIP2015模拟11.5】JZOJ8月5日提高组T3 旅行
[NOIP2015模拟11.5]JZOJ8月5日提高组T3 旅行题目若不存在第\(k\)短路径时,输出"Stupid Mike" 题解题意给出一个有\(n\)个点的树问这 ...

A Simple Framework for Contrastive Learning of Visual Representations 阅读笔记

A Simple Framework for Contrastive Learning of Visual Representations 阅读笔记的更多相关文章

随机推荐

热门专题