Swin Transformer

paper： https://arxiv.org/abs/2103.14030 （ICCV 2021）
code：https://github.com/microsoft/Swin-Transformer/blob/2622619f70760b60a42b996f5fcbe7c9d2e7ca57/models/swin_transformer.py#L458
学习链接：

https://blog.csdn.net/qq_37541097/article/details/121119988
https://zhuanlan.zhihu.com/p/626820422 （Multi-Head-Attention的作用到底是什么？）

Patch Partition

对图片进行分块，相邻的4x4的像素为一个Patch，然后在每个Patch中，把每个像素在通道方向展平，堆叠到一起。特征图形状从[H, W, 3]变成了[H/4, W/4, 48]。

Linear Embedding

对每个像素的通道数据进行线性变换。特征图形状从[H/4, W/4, 48]变成了 [H/4, W/4, C]。

Swin Transformer Block
- Windows Multi-head Self-Attention（W-MSA）
  
  为了减少计算量，对特征图按照MXM大小划分成一个个window，单独对每个windo内部进行self-attention。
- Shifted Windows Multi-Head Self-Attention（SW-MSA）
  
  W-MSA无法在window与window之间进行信息传递，为了解决这个问题，SW-MSA对偏移的windows内部在进行self-attention。这里用到了masked MSA来防止不同windows中的信息乱窜。
Patch Merging

对特征图进行下采样，H和W都缩小2倍，C增加2倍。Patch Merging会将每个2x2的相邻像素划分为一个patch，然后将每个patch中相同位置的像素给拼在一起就得到了4个feature map。接着将这四个feature map在深度方向进行concat拼接，然后在通过一个LayerNorm层。最后通过一个全连接层在feature map的深度方向做线性变化，将feature map的深度由C变成C/2。

Relative Position Bias

\[\text{Self-Attention}(X) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + B \right) V
\]

公式中的B就是就是Relative Position Bias，论文中的消融实验验证了其能带来明显的提升。

MSwin

paper：https://arxiv.org/abs/2203.10638 （ECCV 2022）
code：https://github.com/DerrickXuNu/v2x-vit/blob/main/v2xvit/models/sub_modules/mswin.py

MSwin把Swin的串行结构改成了并行，最后用了一个Split-Attention融合了所有分支的特征
MSwin论文中指出不需要用SW-MSA，可达到更大的空间交互（猜测是因为并行的设计？）

Deformable Attention

paper：https://openaccess.thecvf.com/content/CVPR2022/html/Xia_Vision_Transformer_With_Deformable_Attention_CVPR_2022_paper.html （CVPR 2022）
code：https://github.com/LeapLabTHU/DAT

DAT和普通的attention的区别就是，DAT可以汇聚一个自适应的可变感受野信息，一方面可以提高效率，防止无关信息的干扰（相比ViT），另一方面可以使得注意模块更加灵活，有效应对多尺度物体的情况（相比Swin）。

输入特征图（假设shape = 1, 256, 48, 176）经过一个卷积层生成查询矩阵q。
q通过一个offset network生成偏移量offset（shape = 1, 2, 46, 174），重新排列维度（shape = 1, 46, 174, 2）。
生成reference points（shape = 1, 46, 174, 2）。
将reference points和offset相加，得到最终的偏移量pos。
通过bilinear interpolation，输入pos，输出x_sampled（shape = 1, 256, 46, 174）。
由x_sampled生成矩阵k和v。

    input = torch.rand(1, 256, 48, 176)

    dtype, device = input.dtype, input.device

    q = self.proj_q(x)  # b c h w

    # 生成偏移量

    offset = conv_offset(q)  # torch.Size([1, 2, 46, 174])

    offset_range = torch.tensor([1.0 / (46 - 1.0), 1.0 / (174 - 1.0)]).reshape(1, 2, 1, 1)

    # 用 tanh 预定义缩放因子防止偏移量变得太大

    offset = offset.tanh().mul(offset_range).mul(2)  # torch.Size([1, 2, 46, 174])

    offset = einops.rearrange(offset, 'b p h w -> b h w p')  # torch.Size([1, 46, 174, 2])

    # 生成参考点，最后归一化到[-1,+1]的范围

    reference = _get_ref_points(46, 174, 1, dtype, device)  # torch.Size([1, 46, 174, 2])

    pos = offset + reference

    # torch.Size([1, 256, 46, 174])

    x_sampled = F.grid_sample(

        input=input,

        grid=pos[..., (1, 0)],  # y, x -> x, y

        mode='bilinear', align_corners=True)  # B, C, Hg, Wg

MSwin + Deformable Attention

???

3D Object Detection Essay Reading 2024.04.01的更多相关文章

三维目标检测论文阅读：Deep Continuous Fusion for Multi-Sensor 3D Object Detection
题目:Deep Continuous Fusion for Multi-Sensor 3D Object Detection 来自:Uber: Ming Liang Note: 没有代码,主要看思想吧 ...
CVPR2020论文解读：3D Object Detection三维目标检测
CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...
《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读
论文链接:https://arxiv.org/pdf/1902.09738v2.pdf 这两个月忙着做实验博客都有些荒废了,写篇用于3D检测的论文解读吧,有理解错误的地方,烦请有心人指正). 博客原 ...
中文版 Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 摘要最先进的目标检测网络依靠区域提出算法 ...
（转）Awesome Object Detection
Awesome Object Detection 2018-08-10 09:30:40 This blog is copied from: https://github.com/amusi/awes ...
Viola–Jones object detection framework--Rapid Object Detection using a Boosted Cascade of Simple Features中文翻译及 matlab实现(见文末链接)
ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001 Rapid Object Detection using a B ...
ICCV2019论文点评：3D Object Detect疏密度点云三维目标检测
ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测 STD: Sparse-to-Dense 3D Object Detector for Point Cloud 论文链 ...
谷歌开源的TensorFlow Object Detection API视频物体识别系统实现(一)[超详细教程] ubuntu16.04版本
谷歌宣布开源其内部使用的 TensorFlow Object Detection API 物体识别系统.本教程针对ubuntu16.04系统,快速搭建环境以及实现视频物体识别系统功能. 本节首先介绍安 ...
Paper Reading: Relation Networks for Object Detection
Relation Networks for Object Detection笔记写在前面:关于这篇论文的背景知识,请参考我前面的两篇随笔(<关于目标检测>和<关于注意力机制> ...
Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...

随机推荐

RK3588开发笔记（二）：基于方案商提供sdk搭建引入mpp和sdk的宿主机交叉编译Qt5.12.10环境
前言上一篇项目已经构建好了Qt,板子接入mipi屏幕也跑起来了,Qt也能正常运行了,现在需要接入定制开发的sdk,sdk中使用了硬解码等资源涉及到bsp的mpp,所以下一步就是引入mpp和sdk ...
Celey异步发送邮件时报django.core.exceptions.ImproperlyConfigured的解决办法
原main.py入口文件 #Celery的入口 from celery import Celery #创建Celery实例生产者 celery_app = Celery('meiduo') #加载配 ...
Linux或者Mac解压乱码问题
1.unar : 命令行解压工具 2.安装: ubuntu等Linux安装方法:sudo apt install unar mac系统安装方法:brew install unar 现在mac电脑用 T ...
【Azure Developer】使用REST API获取Activity Logs、传入Data Lake的数据格式问题
问题一:. 如何在用REST API获取活动日志时,控制输出的项? [答]参考REST API对于获取活动日志的说明接口,在参数是$filter和$select中可以分别控制过滤条件和输出项 GET ...
【Azure Redis 缓存】Redisson 连接 Azure Redis出现间歇性 java.net.UnknownHostException 异常
问题描述在Java项目中,使用Redisson作为连接Redis的客户端,间歇性的出现了DNS Monitor throwable 错误. DNSMonitor throwable="ja ...
【小程序分包】小程序包大于2M，来这教你分包啊
前言缘由该大的不大,小程序包超出2M,无法上传发布前段时间项目迭代时,因版本大升级,导致uniapp打包后小程序后,包体积大于2M.虽然将图片等静态资源压缩,体积大的资源放置cdn,在不懈的努力 ...
二: sql模式(sql_mode)
# sql_mode 1 介绍 sql_mode 会影响 MySQL支持的SQL语法以及它执行的数据验证检查.通过设置sql_mode,可以完成不同严格程度的数据校验,有效地保障数据准确性. MyS ...
beanstalkd轻量级消息队列的安装
1.版本介绍 CentOS:CentOS Linux release 7.9.2009 (Core) beanstalkd:beanstalkd 1.10 2.安装 (1)先安装epel-releas ...
【Azure Power BI】Power BI获取SharePoint List列表后，如何展开List/Table中的字段，以及使用逗号拼接为一个字符串
问题描述 Power BI获取SharePoint List列表作为数据源.但是在数据源中,有Table属性值,有List属性值.如果直接展开,则会形成"笛卡尔"集的效果,变成N多 ...
vscode 利用正则搜索标签 tags (?=.*关键字1)(?=.*关键字2).*
vscode 利用正则搜索标签 (?=.关键字1)(?=.关键字2).* 这里关键词是可以多个并且不按照顺序搜索的,就是写起来需要 (?=.关键字) 最后. 结尾我是不是需要制作一个转换的小工具呢 ...