CLIP 改进工作串讲(下)学习笔记
1.图像生成
1.1CLIPasso(semantically-aware object sketching)
将物体的照片变成简笔画的形式,希望即使有最少的线条,也能识别出来物体。
问题定义,在纸上画几条随机初始化的曲线(bezier curve),通过不断的训练,希望这些曲线最后变成简笔画,贝兹曲线是通过空间上2维的点控制的一条曲线,论文中通过四个点去控制曲线,也就是笔画,然后通过模型训练更改点的位置,通过贝兹曲线的计算,就能慢慢改变曲线的形状,最终变成想要的简笔画的形式。
具体曲线的控制涉及图形学领域,不过多介绍,假设已经定义了S1....Sn这n条曲线,也就是n个笔画,然后把这n个笔画输入一个光栅化器rasterizer,rasterizer就能把这些笔画画到二维的画布上,变成一个我们能看懂的图像,模型中间部分都是图形学中有的,论文的主要贡献都在前面和后面部分,就是前面如何去做一个更好的初始化,后面如何选择一个更合适的loss function。
先讲一下目标函数,在得到马的简笔画图片后该怎么选择GT和目标函数呢?这里就是CLIP模型发挥作用的地方,这里借助了CLIP模型的稳健性,就是不论对原始的好的图像还是后面的简笔画图像,如果描述的都是同样的物体,比如说马,那通过CLIP模型得到的特征应该都是对马这个物体的描述,所以就应该让这两个特征尽可能地接近,也就是第一个loss,semantic loss。但是光有语义的一致性还不够,比如说如果得到的简笔画虽然是马,但是方向不对,那也不是想要的简笔画,所以应该还要再几何形状上对模型的输出进行一些限制,也就是第二个loss,Lg,具体来说,作者借鉴了之前一些low level视觉里的一些任务或者衡量指标,把模型前面几层的输出拿出来去算目标函数,因为前面的特征还有长,宽的概念,对几何的位置更加敏感,所以这里的Lg就是在CLIP预训练的模型前几层,去算简笔画图像和原始图像不同层之间特征的相似性。
这样虽然已经能够生成简笔画,但是作者发现点的初始化方式影响很大,所以作者想要一个比较稳定的初始化方式,让这个方法变得普适,所以在前面作者又提出了一个基于saliency的初始化方式,具体来说,就是用一个已经训练好的vision transformer,把原始图像输入这个vision transformer,然后把最后一层的多头自注意力取加权平均,得到一个saliency map,然后看map上哪些区域更显著,在这些显著的区域采点,最后的生成效果就能好很多。
虽然效果已经不错,但是作者还加了一个后处理的操作,自动地选择最后的那张final sketch,每次都是根据一张输入生成三张简笔画,然后根据之前提出的两个loss,去算这几张简笔画哪个能给出最低的loss,就选择那个简笔画作为最终的输出,
模型的两大卖点在于1.能对不常见的物体生成简笔画,之前的方法都只能对数据集里有的类别生成简笔画,现在可以对任意物体生成。2.可以控制抽象程度,也就是控制初始的贝兹曲线的数量。
局限性:1.当图像有背景的时候,模型的效果就会差很多,必须是一个物体处于纯白色的背景上,模型的效果才好。本文中是借助了automatic mask的方法,也就是U2Net,先把物体抠出来,生成前景是物体,背景是白色幕布的图片,再把图片输入CLIPasso。但是这种two-stage的方法不是最优结果,如果能把automatic mask的方式融合进模型,甚至提出一种新的loss函数或者模型的改进,去把带背景的图片也能解决地很好,那模型的适用范围就能广很多。2.初始化的笔画都是同时生成的,而不是序列生成的,这其实与人的习惯也不符,如果能先生成一个笔画,再根据这个笔画生成下一个,然后一步一步生成所有笔画,可能效果能更好。3.虽然能控制抽象程度,但是需要提前人为输入,而不同图片需要的抽象程度是不同的,即使想达到相同的抽象程度,需要的笔画数可能也是不同的。
2.视频领域
2.1CLIP4Clip(an empirical study of CLIP for end to end video clip retrieval)
如果使用最简单的方法,直接把每一帧都单独地打成image patch,再把patch输入vit,然后去得到最后的cls token的话,得到的就不再是一个cls token,而是一系列的cls token,比如输入10帧,最后就会有10个cls token,也就是10张图片的整体特征,问题是之前是一个文本特征对应一个图像特征,现在是一个对十个,那么该怎么做相似性计算呢?这篇论文因为是empirical study,所以其实就是把已有的各种方式都尝试了一遍,看哪种方式的结果最好。论文中尝试了3种方式。
第一种是最简单的方式,而且是不带任何参数的,将10个图片特征直接取个平均就完事了,但是这种方式有个缺点,就是去平均的时候没有考虑时序的特性,比如最终得到的特征是无法区分一个人是在坐下还是站起。不过这种方式是目前最被广泛接收的方式。
第二种方式作者把它叫做sequential type,就是考虑目前的目的其实就是两个,一个是把10个特征变成一个,另一个是加上时序特性,那想到时序建模,最原始的肯定就是lstm,把10个特征输入lstm,最后得到的就是一个特征,而且融合了时序信息,现在都用transformer去取代了lstm,只需要加上position embedding,就也能对时序进行建模。
第三种方式作者把它叫做tight type,其实就是在做early fusion,因为上一步在做sequential type的时候,其实做的是late fusion,就是其实已经把图像和文本的特征抽完了,只是在考虑最后怎么融合,但在该方式里,在最开始就进行融合,具体来说,就是文本带上文本的位置编码也输入到一个transformer,视频帧得到的特征加上位置特征也输入到这个transformer,把文本和图像的特征一起学习,然后通过一个MLP得到一个特征,再去算相似度。
在实验部分可以看出,在数据量较少的时候,直接取平均的效果是最好的,因为CLIP的训练数据集很大,训练出来的效果已经很好了,这时候如果下游任务的数据集不大,做微调效果可能反而不好。但是当下游数据集不断增大之后,微调的效果就慢慢体现出来了,模型也就不那么容易过拟合了,所以后面的带参数的训练方式可能就会好一些,因为它更适合下游任务,但是差距并不显著,对比三种方式,第一种效果最好,第二种有时候效果也不错,第三种是完全不行。
insights:1.用CLIP的图像特征也是能够提升视频任务的。2.由于存在domain gap,如果能在视频这边找到足够多的训练数据再post pretrain一下,也就是说CLIP预训练完之后再在视频这边预训练一次,迁移效果就能好不少,但是这样计算代价也会高不少。3.对视频来说,也可以用2D的patch linear projection或者3D的patch linear projection,从实验来看,3D的patch linear projection会好一些,因为在一开始就融合了时序的信息,然后sequential type similarity也会好一些。4.对学习率非常敏感,现在在训练transformer的时候也发现,学习率基本上是最重要的超参数。
2.2ActionCLIP(a new paradigm for video action recognition)
先看一下之前的方法视频理解领域动作识别是怎么做的,一般都是有一些视频,然后输入一个视频编码器,得到一个向量,然后输入一个分类头,得到输出,然后把输出与GT进行对比,算一个交叉熵损失,但是这里存在一个巨大的局限性,就是对于有监督学习来说,是需要标签的,但是对于动作识别来说,怎么定义这些标签,怎么去标记更多带标签的数据,这些都是非常困难的问题,因为对于目标识别来说,要标记的物体概念都是非常清晰的,桌子就是桌子,所以用one-hot标签是没什么问题的,但是对于动作识别来说就完全不一样,比如开门,开瓶盖这种变成一个短语了,而且开这个词能用来描述很多动作,潜在的label space是接近于无穷的,这就需要进行权衡,如果标记很多类的话,费用是很高的,而且softmax可能就不工作了,很难用常见的分类算法去做一个很好的模型,如果只标常见的类,那不常见或者细粒度的类又该如何处理,所以摆脱标签的束缚就是本文的研究动机,那用CLIP就很合理了。
图中下半部分就是作者提出的多模态框架,其实跟CLIP是非常像的,首先过一个视频的编码器得到一些特征,然后把标签当成文本,输入文本编码器得到一些文本的特征,然后算视频特征和文本特征的相似度,得到相似矩阵,然后与提前定义好的GT算一个loss就好了。
主要改进:1.如何把图像变成视频,也就是上半分支,这其实跟CLIP4Clip非常接近。2.CLIP是一个无监督的方法,它的GT是来自于网络上的匹配的图像文本对,每个图像文本对都是独立的,CLIP就是对角线上才是正样本,其他都是负样本,但是本文中就不一样了,因为这里的文本就是标好的标签,这就会出现一个问题,就是当batch比较大的时候,同一行或者同一列就会出现多个正样本,这个问题把交叉熵损失换成KL divergence就好了,利用两个分布的相似度去算loss。
然后看主体方法部分,见下图,其实就是另一个改进,如何把CLIP迁移到视频领域来说动作识别。从整体的输入输出来看,跟CLIP或者CLIP4Clip都很像,文本标签先输入一个Textual Prompt,然后句子变成token输入一个文本编码器,得到一个单一的文本表示。视频这边也是视频的帧一个一个输入linear projection,得到一些vision token,然后输入一个pre-network prompt,然后输入视频的编码器,得到一个输出,然后视频输出和文本输出去算相似度就好了。
这里文本的prompt其实就是原始的prompt,但是视频这边已经不是原始prompt的意思了,这里这样写可能就是为了整体写作的连贯性,其实这里加的东西更像是加了adapter,不过prompt tuning,adapter,lora这些最近的efficient fine tuning的方法都非常接近了,这些方法的目的都是在原来已经训练好的预训练参数之上,加一些小的模块,然后通过训练这些小模块,能够然后已经训练好的模型参数能尽快迁移到下游任务上去。
为了与视频对应起来,文本这边也做了三种prompt,也就是右边这三种,主要看看视觉这边是怎么做的,首先最开始的这个pre-network prompt叫Joint,这个其实很简单,就是把时间和空间上的token都放在一起,直接输入网络进行学习,这里一开始也会把时序上的position embedding也加进去一起学,第二个in-network prompt其实就是利用了之前shift这个概念,这个概念最先在图像领域被提出,就是在特征图上做各种各样的移动,达到更强的建模能力,但是并不引入更多的参数,也不增加运行复杂度,19年tsm就把这个概念用到了时序领域,其实swin transformer也是利用了这个shift的概念,提出了shift window,这篇论文就把shift的操作拿过来,放到每一个ViT block的中间,也就是TSM模块,提高了时序建模的能力,但是不引入更高的计算量。最后是post-network prompt,其实这里跟CLIP4Clip是一模一样的,现在得到了很多的帧级表示,这里要跟文本特征做相似度计算,最好是先融合成一个视频级表示比较好。这里也用了三种方法,与CLIP4Clip都一样。
实验比较有意思的是文本这边的初始化没有什么关系,所以基本现在所有多模态的工作都把注意力放到了视觉这边,而且模型的初始化都是用vision ransformer去初始化而不是bert,另外文本段的prompt其实也没有什么影响,在视频这边,前两个prompt基本也没什么用,in-network prompt甚至可能拖了CLIP模型的后腿,唯一比较有用的就是post-network prompt。不过与CLIP4Clip中不同的是,平均池化的方法不太行,因为动作识别的训练数据集还是相当大的
3.总结
大家对于CLIP模型的使用可以分为三点:1.改动最小的情形,把图像或者文本通过CLIP得预训练模型的到一个特征,然后把这个特征跟原来的特征做一下融合,点乘或者拼接之类的,然后之前那个训练框架保持不动,只是用这个得到的更好的特征去加强之前的模型的训练。2.把CLIP模型当成一个teacher,把CLIP得到的特征来做蒸馏,无论是前面的特征还是最后的特征都可以蒸馏,这样无论是做什么任务,都可以拿2D的模型来蒸馏一些预训练好的知识,来帮助现有的模型收敛得更快。3.不太借助CLIP的预训练参数,只是借鉴这种多模态对比学习的思想,应用到自己的任务中来,定义自己的正样本对和负样本对,然后去算多模态的对比学习loss,从而实现多模态的分割或者识别。
CLIP 改进工作串讲(下)学习笔记的更多相关文章
- 《java核心技术36讲》学习笔记-------杨晓峰(极客时间)
非常荣幸作为晓峰哥的同事,之前就看过这篇文章,重写读一遍,再学习学习. 一.开篇词 初级.中级:java和计算机科学基础.开源框架的使用:高级.专家:java io/nio.并发.虚拟机.底层源码.分 ...
- 《MySQL实战45讲》学习笔记2——MySQL的日志系统
一.日志类型 逻辑日志:存储了逻辑SQL修改语句 物理日志:存储了数据被修改的值 二.binlog 1.定义 binlog 是 MySQL 的逻辑日志,也叫二进制日志.归档日志,由 MySQL Ser ...
- 《MySQL实战45讲》学习笔记1——MySQL的基础架构
在<极客时间>订阅了<MySQL实战45讲>专栏,总觉得看完和没看一样
- 《MySQL实战45讲》学习笔记4——MySQL中InnoDB的索引
索引是在存储引擎层实现的,且在 MySQL 不同存储引擎中的实现也不同,本篇文章介绍的是 MySQL 的 InnoDB 的索引. 下文将以这张表为例开展. # 创建一个主键为 id 的表,表中有字段 ...
- 《MySQL实战45讲》学习笔记3——InnoDB为什么采用B+树结构实现索引
索引的作用是提高查询效率,其实现方式有很多种,常见的索引模型有哈希表.有序列表.搜索树等. 哈希表 一种以key-value键值对的方式存储数据的结构,通过指定的key可以找到对应的value. 哈希 ...
- robot framework python3环境下学习笔记(1)——安装robot framework
安装环境:win10 64位,python3.6 1,安装robot framework pip install robotframework 2,安装wxPython pip install wxP ...
- 深挖计算机基础:MySQL实战45讲学习笔记
参考极客时间专栏<MySQL实战45讲>学习笔记 一.基础篇(8讲) MySQL实战45讲学习笔记:第一讲 MySQL实战45讲学习笔记:第二讲 MySQL实战45讲学习笔记:第三讲 My ...
- SpringBoot学习笔记 - 构建、简化原理、快速启动、配置文件与多环境配置、技术整合案例
[前置内容]Spring 学习笔记全系列传送门: Spring学习笔记 - 第一章 - IoC(控制反转).IoC容器.Bean的实例化与生命周期.DI(依赖注入) Spring学习笔记 - 第二章 ...
- 短文对话的神经反应机 -- Neural Responding Machine for Short-Text Conversation学习笔记
最近学习了一篇ACL会议上的文章,讲的是做一个短文对话的神经反映机, 原文: 会议:ACL(2015) 文章条目: Lifeng Shang, Zhengdong Lu, Hang Li: Ne ...
- DirectX Graphics Infrastructure(DXGI):最佳范例 学习笔记
今天要学习的这篇文章写的算是比较早的了,大概在DX11时代就写好了,当时龙书11版看得很潦草,并没有注意这篇文章,现在看12,觉得是跳不过去的一篇文章,地址如下: https://msdn.micro ...
随机推荐
- vue引入高德地图
一,下载 npm install vue-amap --save 二,main.js文件内引入 import VueAMap from 'vue-amap' Vue.use(VueAMap); // ...
- $_GET方法踩坑
背景 写代码时,遇到一个奇怪的问题:小程序卡券解码接口老是报解码失败,苦寻了一个小时,发现原来是url参数经过thinkphp的I方法被过滤掉,而且涉及到PHP原生的$_GET 原因 I方法底层是原生 ...
- RestTemplate获取json数组
1.需求描述 接口返回的是一个json数组,要获取到接口返回值并用实体类list接住. 2.解决方法 使用springboot框间自带的Http的工具类RestTemplate调接口,其返回值用hut ...
- 第七节 VOR/DME进近程序保护区的绘制
飞行程序设计软件实践 通过前面六节的练习,2023社区版插件的主要功能都已经使用到了.今天通过VOR/DME非精密进近程序,再将这些功能串起来使用一下.今天的软件,我们使用浩辰CAD2023版(过期后 ...
- JavaWeb项目编译前后的目录结构
JavaWeb项目编译前后的目录结构 编译前 页面和视图都放在webapp目录下 编译后 webapps WEB-INF
- [LeetCode]二进制求和
题目 代码 class Solution { public: string addBinary(string a, string b) { int lenA = a.length(); int len ...
- LIS求解(包括优化)
首先,让我来看看LIS问题 Description 一个数的序列 bi,当 b1 < b2 < ... < bS 的时候,我们称这个序列是上升的.对于给定的一个序列(a1,a2,.. ...
- os 模块 sys模块 json模块
今日内容详细 os模块(重要) os模块主要与代码运行所在的操作系统打交道 import os 1.创建目录 1.创建目录(文件夹) os.mkdir(r'L4') # 只可以创建单级目录 相对路径 ...
- 判断一个对象是否是数组的n个方法,typeOf不能判断引用类型对象
- Flutter框架渲染流程与使用
Flutter简述 Flutter是一个UI SDK, 可以进行移动端(iOS, Android),Web端, 桌面,它是一个跨平台解决方法. Flutter的特点:美观,快速,高效,开放. 美观:F ...