看李沐的 ViT 串讲
ViT
概括
论文题目:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
论文地址:https://openreview.net/pdf?id=YicbFdNTTy
作者来自 Google
亮点:
- 一些有趣的特性:
- CNN 处理不太好但是 ViT 可以处理好的例子:
- 遮挡
- 数据分布偏移
- 加入对抗性的 patch
- 排列
作者认为:
- 对于 CNN 的依赖是不必要的
- 纯 Transformer 可以做到和 CNN 媲美的结果
- Transformer 需要更少的训练资源,即使如此,也需要 2500 TPUv3 天数。这里说的少,只是跟更耗卡的模型做对比。
- 在 CV 使用 Transformer
- 难点:
- 像素点过多,而 maxlength 太短
- 于是前人提出许多思路,降低 length 长度:
- 用 ResNet 最后的特征图 \(14 \times 14=196\) 输入 transformer
- 用局部小窗口或者把图像这个二维的拆成两个一维的向量
- 没有硬件加速,模型都无法做到太大
- 大规模还是 ResNet 效果最好
- 难点:
- 于是 ViT 做法:
- 模型
- 把一张图片分成很多 patch,每一个 patch 的大小为 16 * 16
- 由于 224 / 16 = 14,因此共有 14 * 14 个 patch
- 所以 length 为 14 * 14 = 196
- 然后把每一个 patch 通过一个 linear embedding,这些再作为输入传给 Transformer
- 训练
- 用有监督的方式训练,原因是 cv 还是需要有监督的
- 有钱
- 之前有一个思路一样的,但是那个作者没钱
- 模型
- 一些结果
- 中型大小数据集上,ViT 比同等大小的 ResNet 要弱几个点,作者认为原因有
- Transformer 模型缺少一些 CNN 的归纳偏置
- 局部临近 locality
- 相邻的图片有相邻的特征
- 平移等变性 translation equivariance:
- \(f(g(x)) = g(f(x))\)
- 即函数顺序变换最后结果也一样。
- 在 CNN 中,即为相同的物体无论平移到哪里,只要遇到相同的卷积核,那么输出一样。
- 局部临近 locality
- 因此 Transformer 缺少一些 CNN 拥有的前置知识,需要自己从数据里学。
- Transformer 模型缺少一些 CNN 的归纳偏置
- 于是作者又在大规模的数据集上学习,效果很好,得到与 ResNet 相近或者更好的结果。
- 中型大小数据集上,ViT 比同等大小的 ResNet 要弱几个点,作者认为原因有
模型
模型介绍
- 首先给定一张图,然后把这张图打成许多个 patch
- 然后每个 patch 通过一个线性的投射层得到一个特征。
- 再通过 Patch + Position Embedding 的方式,把位置编码弄上去。
- 丢进 TFM enc。
- 然后拿 [CLS] 最后对应的 representation 丢进一个 MLP Head 里。
图像的维度从 \(224 \times 224 \times 3\),变成了一个有 196 个有的 \(16 \times 16 \times 3 = 768\) 维度的 patch。
线性投射层是一个全连接层,维度是 \(D \times D = 768 \times 768\).
然后要加上 [CLS] token
最后加上位置编码信息
- 具体是把位置编码编成一张表,每一个位置对应一个向量
- 位置编码,三种效果差不多
- 作者做了 1D 的位置编码。常规方法。
- 2D 的做法:假设之前 1D 的位置编码维度是 D,2D 的位置编码横坐标有 \(\frac{D}{2}\) 的维度,纵坐标亦然,然后直接拼在一起。
- 相对位置编码:两个 patch 之间的距离可以用相对距离来表示
归纳偏置,ViT 比 CNN 少了很多归纳偏置
- CNN 中,局部性和平移等变性在模型每一层都有所体现,因此先验知识贯穿模型始终。
- 而 ViT 中,只有 MLP 这个层有局部性和平移等变性,自注意力层是全局的。
作者还做了一个混合的网络,前面 CNN,后面 TFM
预训练以及更大的图片
图片更大,patch 的个数也变了,于是位置编码也会变。
- 作者直接用了 pytorch 官方自带的 interpolate 函数做 2D 插值。
- 这个插值只能算一个临时解决方案,是 ViT 的局限性。
实验
主要对比 ResNet,ViT,hybrid
下游任务主要是分类
实验结果
、
ImageNet 结果
- 中型大小数据集上,ViT 比同等大小的 ResNet 要弱几个点
- 大型数据集上,ViT 几乎全面超过 ResNet
线性 5-shot 评估
- 没有经过微调
- 结果同上
- 同等预训练计算复杂度下,ViT 比 ResNet 强
- 预训练计算次数小时,混合模型最强
- 数据越来越大时,ViT 越来越强,接近超越混合模型和 ResNet
- ViT 和 ResNet 模型似乎都没有饱和,仍然可以继续往上走
看李沐的 ViT 串讲的更多相关文章
- CLIP改进工作串讲(上)学习笔记
看了跟李沐学AI系列朱毅老师讲的CLIP改进工作串讲,这里记录一下. 1.分割 分割的任务其实跟分类很像,其实就是把图片上的分类变成像素级别上的分类,但是往往图片上能用的技术都能用到像素级别上来.所以 ...
- 视频+图文串讲:MySQL 行锁、间隙锁、Next-Key-Lock、以及实现记录存在的话就更新,如果记录不存在的话就插入如何保证并发安全
导读 Hi,大家好!我是白日梦!本文是MySQL专题的第 27 篇. 下文还是白日梦以自导自演的方式,围绕"如何实现记录存在的话就更新,如果记录不存在的话就插入."展开本话题.看看 ...
- 0607pm克隆&引用类&加载类&面向对象串讲&函数重载
克隆class Ren{ public $name; public $sex; function __construct($n,$s) { $this->name=$n; $this->s ...
- CLIP 改进工作串讲(下)学习笔记
1.图像生成 1.1CLIPasso(semantically-aware object sketching) 将物体的照片变成简笔画的形式,希望即使有最少的线条,也能识别出来物体. 问题定义,在纸上 ...
- getElementById返回的是什么?串讲HTML DOM
1. getElementById()返回的是什么? 这个函数使用的最普遍,但是你有没有深入探究下,这个函数究竟返回的是什么么?我们来一起看看. var mydivEle = document.get ...
- 集成学习-Boosting 模型深度串讲
首先强调一下,这篇文章适合有很好的基础的人 梯度下降 这里不系统讲,只介绍相关的点,便于理解后文 先放一个很早以前写的 梯度下降 实现 logistic regression 的代码 def tidu ...
- 全网最牛X的!!! MySQL两阶段提交串讲
目录 一.吹个牛 二.事务及它的特性 三.简单看下两阶段提交的流程 四.两阶段写日志用意? 五.加餐:sync_binlog = 1 问题 六.如何判断binlog和redolog是否达成了一致 七. ...
- 全网最清楚的:MySQL的insert buffer和change buffer 串讲
目录 一.前言 二.问题引入 2.1.聚簇索引 2.2.普通索引 三.change buffer存在的意义 四.再看change buffer 五.change buffer 的限制 六.change ...
- .NET 基础串讲
C#基础 .NET介绍 计算机发展史 第一代语言:机器语言 0101 第二代语言:汇编语言, 用一些简洁的英文字母.符号串来替代一个特定指令的二进制串 第三代语言:接近于数学语言或人的自然语言,同时 ...
- 技术串讲 CAS 有用
CAS,全称为Compare and Swap,即比较-替换.假设有三个操作数:内存值V.旧的预期值A.要修改的值B,当且仅当预期值A和内存值V相同时,才会将内存值修改为B并返回true,否则什么都不 ...
随机推荐
- win10 uwp 使用 XamlTreeDump 获取 XAML 树元素内容
本文来安利大家 XamlTreeDump 库,通过这个库可以将 XAML 树上的元素转换为 json 字符串,可以用来进行 UI 单元测试 开始之前先通过 NuGet 工具安装 XamlTreeDum ...
- PostMan接口测试实用小点
PostMan接口测试实用小点 1. 接口测试变量存取操作 在Postman中有很多地方可以存储一些变量,这里只介绍经常使用的环境变量.变量设置后,在UI界面可以通过{{变量名}}获取到对应值. 在环 ...
- PHP实现没有数据库提交form表单到后台并且显示出数据列表(Vuejs和Element-UI前端设计表单)
1.情境:如果你新建了个网站,却没有数据库服务器,如何把你的表单信息,提交到服务端后台,收集数据. 2.思路:如果用传统的form action 提交到一个form.php页面,此时只能存储一次数据, ...
- IDEA连接github
在IDEA中添加github账号: File-->Settings-->Version Control-->GitHub 点击 + 号,添加账号可以选择账号密码登陆或者使用token ...
- cesium教程5-用primitive加载glb和gltf格式的小模型
primitive加载方法更底层,用起来更麻烦,但是效率更高. 完整示例代码: <!DOCTYPE html> <html lang="en"> <h ...
- 利用pearcmd实现裸文件包含
利用pearcmd实现裸文件包含 在 ctf 中,常常有这样一类题: 题目很简单,一般围绕一个 include 函数展开. 例: ctfshow 元旦水友赛 easy_include 这类题目没有提供 ...
- CF933-Div3 大致思路+题解
\(Rank\) A - Rudolf and the Ticket 纯水题 暴力枚举直接过 $code$ #include<bits/stdc++.h> #define fo(x,y,z ...
- 网络数据流分析工具TcpEngine V1.0.0教程-1
概述 目前主流的网络数据分析工具主要有两类,一类是http协议分析工具,如fiddler,这类工具擅长对字符串类型协议分析:另一类是原始网络数据包的监听分析,如Wireshark,这类工具擅长分析网络 ...
- C数据结构线性表:最全链表实战剖析—单 双 循环链表&增删改查
文章目录 前言 说明1 说明2 A:关于为什么传链表要用二级指针 B:单链表 1:定义结构体 2:初始化链表 3:销毁链表内容 (释放整个链表空间,把L指针赋值为NULL ) 4:增加某一个位置上的元 ...
- 降本提效 | AIRIOT设备运维管理解决方案
传统运维多是使用在本地化系统,以人工运维和独立系统执行运维工作,重点关注的是设施运行,存在以下几个问题: 1.信息孤岛:本地化系统的接口不同,功能单一独立,各个系统之间的数据无法对接.交互,形 ...