整值训练和尖峰驱动推理尖峰神经网络用于高性能和节能的目标检测

与人工神经网络(ANN)相比,脑激励的脉冲神经网络(SNN)具有生物合理性和低功耗的优势。由于 SNN 的性能较差,目前的应用仅限于简单的分类任务。在这项工作中,我们专注于弥合人工神经网络和神经网络在目标检测方面的性能差距。我们的设计围绕着网络架构和尖峰神经元。

当行人检测遇到多模式学习时:通才模型和基准数据集

近年来,利用不同传感器模式(如 RGB、 IR、 Depth、 LiDAR 和 Event)进行行人检测的研究受到越来越多的关注。然而,设计一个能够有效处理不同传感器模式的统一通用模型仍然是一个挑战。本文介绍了一种新的多通道感知的通用性模型MMPedestron。与以前只处理一个或一对特定通道输入的专家模型不同,MMPedestron 能够处理多个通道输入及其动态组合。

TCC-Det:弱监督 3D 检测的临时一致线索

准确的激光雷达点云目标检测是健壮、安全的自主驾驶和机器人应用的关键前提。当前训练 3D 对象检测器涉及手动注释大量训练数据的需要,这非常耗时且昂贵。因此,容易获得的带注释的训练数据量是有限的,而且这些带注释的数据集可能不包含边缘情况或其他罕见的实例,这仅仅是因为它们出现在如此小的数据集中的概率很低。在本文中,我们提出了一种不需要任何人工标注的方法,通过利用现有的视觉组件和我们周围世界的一致性来训练 3D 对象检测器。因此,该方法可以用于通过仅收集真实世界中的传感器记录来训练 3D 探测器,这是非常便宜的,并且允

许使用比传统的完全监督方法多一个数量级的数据进行训练。

CARB-Net:用于脆弱道路用户检测的摄像机辅助雷达网络

确保易受伤害的道路使用者的可靠感知对安全自动驾驶至关重要。雷达因其对恶劣天气的适应能力、成本效益、深度传感能力以及在自适应巡航控制中的既定作用而脱颖而出,成为一种有吸引力的传感器选择。然而,雷达有限的角度分辨率给目标识别带来了挑战,特别是在区分近距离目标方面。为了解决这一局限性,我们提出了基于相机的雷达网络(CARB-Net),这是一种新颖而高效的框架,它融合了相机的角度精度与雷达的稳健性和深度感知能力。

基于百分比的对象检测的生成模型的弱到强合成学习

视觉-语言(VL)模型通过利用来自网络的弱监督图像-文本对,在各种目标检测任务中被证明是非常有效的。然而,这些模型对可视对象的复杂组成(例如,属性、形状及其关系)表现出有限的理解,在给定复杂和多样化的语言查询的情况下导致显著的性能下降。虽然传统的方法试图通过使用文本域上的硬否定合成增强来增强VL 模型,但如果没有密集的图像-文本增强,其有效性仍然受到限制。本文提出了一种结构化合成数据生成方法来提高基于语言的目标检测的 VL 模型的成分理解能力,该方法在图像和文本域中生成密集配对的正负三元组(对象、文本描述、边界框)。

Grounding DINO: 通过定位预培训与 DINO 结合,以进行开放集对象检测

本文将变压器型探测器 Dino 与接地预训练相结合,开发了一种开放集合的目标探测器--Grounding DINO,它可以检测人类输入的任意目标,如类别名称或指代表达式。开集目标检测的关键解决方案是在闭集检测器中引入语言对开集概念进行泛化。为了有效地融合语言和视觉通道,我们在概念上将闭集检测器划分为三个阶段,并提出了一种紧密融合的解决方案,该方案包括特征增强器、语言引导的查询选择和用于跨通道融合的跨通道解码器。

解锁文本和视觉智慧:通过文本和图像的全面指导增强开放词汇 3D 对象检测

开放词汇表 3D 对象检测(OV-3DDET)是一项具有挑战性的任务,旨在定位和识别3D 场景中的对象,包括已见和以前未见的类别。在视觉和语言领域,有大量的训练数据可用于训练广义模型,而 3D 检测模型则受到训练数据稀缺的影响。尽管存在这一挑战,但蓬勃发展的视觉语言模型(VLMS)提供了宝贵的见解,可以指导 OV-3DDET 的学习过程。虽然已经做出了一些努力将 VLM 纳入 OV-3DDET 学习,但现有的方法往往不能在 3D 探测器和 VLM 之间建立全面的联系。在本文中,我们研究了 VLMS 在开放词汇 3D 检测任务中的应用。

一种基于扩散模型的目标检测的简单背景增强方法

在计算机视觉中,众所周知,缺乏数据多样性将损害模型的性能。在这项研究中,我们解决了增强数据集多样性问题的挑战,以利于各种下游任务,如对象检测和实例分割。我们提出了一种简单而有效的数据增强方法,通过利用生成模型的进步,特别是文本到图像合成技术,如稳定扩散。我们的方法专注于生成标记的真实图像的变体,通过修复来利用生成的对象和背景增强来增强现有的训练数据,而不需要额外的注释。我们发现背景增强尤其显著地提高了模型的稳健性和泛化能力。

利用众包注释进行对象检测的 Bayesian 检测器组合

在不受约束的图像中获取细粒度的对象检测注释是耗时、昂贵的,并且容易受到噪声的影响,尤其是在众包场景中。大多数先前的目标检测方法都假设有准确的标注;最近的一些工作研究了带有噪声的众包标注的目标检测,并在人工假设下对不同设置的不同合成众包数据集进行了评估。为了解决这些算法的局限性和评估的不一致性,我们首先提出了一种新的贝叶斯检测器组合(BDC)框架,以更有效地训练具有噪声的众包注释的对象检测器,具有独特的自动推断注释者的标签质量的能力。与以前的方法不同, BDC 与模型无关,不需要事先了解注释者的技能水平,并且可以与现有的对象检测模型无缝集成。

桥梁过去与未来:克服增量对象检测中的信息不对称

在增量对象检测中,知识提炼已被证明是缓解灾难性遗忘的一种有效方法。然而,以前的工作侧重于保存旧模型的知识,而忽略了图像可能同时包含来自过去、现在和未来阶段的类别。目标的共现使得优化目标在不同阶段不一致,因为前景目标的定义在不同阶段不同,这极大地限制了模型的性能。为了克服这一问题,我们提出了一种称为“过去和未来的桥梁”(BPF)的方法,它跨阶段对齐模型,确保一致的优化方向。

基于分组排名的损失用于目标检测器的高效训练

基于排序的损失函数,如平均精度损失和等级排序损失,在目标检测中优于广泛使用的基于分数的损失。这些损失函数更好地符合评估标准,具有更少的超参数,并针对正负类别之间的不平衡提供稳健性。然而,它们需要在正预测和负预测之间进行两两比较,从而引入了$O_{(PN)}$的时间复杂性,这是令人望而却步的,因为$N$通常很大。尽管它们有优势,但基于排名的损失的广泛采用因其高度的时间和空间复杂性而受到阻碍。在本文中,我们致力于提高基于排名的损失函数的效率。为此,我们提出了基于桶的排名损失,它可以减少成对比较的次数,从而降低时间复杂度。

IRSam:改进红外小目标检测的分段任意模型

最近提出的任意分段模型(Segment Anything Model, SAM)是自然图像分割领域的一项重大进展,表现出强大的零镜头性能,适用于各种下游图像分割任务。 然而,由于自然图像和红外图像之间存在明显的域差距,直接使用预先训练的 SAM 进行红外小目标检测(IRSTD)任务并不能取得令人满意的性能。与可见光相机不同,热像仪通过捕捉红外辐射来显示物体的温度分布。小目标通常会在其边界处显示出微妙的温度变化。针对这一问题,我们提出了 IRSTD 的 IRSAM 模型,该模型改进了 SAM 的编解码器结构,以更好地学习红外小目标的特征表示。

YOLOv 9:使用可编程梯度信息学习您想学习的内容

如今的深度学习方法关注的是如何设计最合适的目标函数,使模型的预测结果最接近地面真实。同时,必须设计一个合适的架构,以便于获取足够的信息来进行预测。现有的方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换时,会丢失大量信息。本文将深入研究数据在深度网络中传输时的数据丢失问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多个目标所需的各种变化。

CLFF:开放词汇对象检测的连续潜在扩散

开放词汇对象检测(OVD)利用图像级线索来扩展区域建议的语言空间,从而促进对不同新奇类别的检测。最近的研究通过在区分范式中组合最小化对象-图像和对象-文本的差异来适应剪辑嵌入。然而,它们忽略了图像和文本对象之间的潜在分布和不一致,导致了视觉和语言子空间之间的错位分布。针对这一不足,我们探索了具有分布感知的高级生成范式,并在扩散模型的基础上提出了一种新的框架,称为连续潜在扩散(CLIFF),该框架概率地描述了对象、图像和文本潜在空间之间的连续分布转移。

将点投影到轴:通过点-轴表示的定向对象检测

本文介绍了航空图像中定向对象的点轴表示,如图 1 所示,强调了它的灵活性和几何直观性,包括两个关键组件:点和轴。 1)点描述对象的空间范围和轮廓,提供详细的形状描述。 2)轴定义了物体的主要方向,提供了对精确检测至关重要的基本方位线索。点轴表示分离了位置和旋转,解决了传统的基于包围盒的方法中经常遇到的损失不连续性问题。为了在不引入额外注释的情况下进行有效的优化,我们提出了用最大投影损失来指导点集学习,用跨轴损失来指导稳健的轴表示学习。

关系 DETR:探索对象检测的显式位置关系优先级

本文提出了一种提高检测变压器(DETR)收敛和性能的总体方案。我们从一个新的角度研究了变压器中的慢收敛问题,认为这是由于自我关注导致的,这种自我关注没有引入对投入的结构性偏见。为了解决这一问题,我们探索了将位置关系优先作为注意偏差来增强目标检测,并使用提出的定量宏观视觉相关(MC)度量来验证其统计意义。我们的方法称为 Relationship-DETR,它引入了一个编码器来构建位置关系嵌入,用于渐进式注意求精,将 DETR 的传统流水线扩展为对比关系流水线,以解决无重复预测和积极监督之间的冲突。(Page 393)

ECCV 2024论文合集PDF版

由于判断依据的差异,这篇博客可能无法全面地囊括您需要的论文。

下面的资料中收录并翻译了ECCV 2024所有论文的题目与摘要,它为您扫清了语言障碍,让您能够充分地利用碎片时间、随时随地跟踪计算机视觉与模式识别领域最前沿的研究。

ECCV 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/mbd-Zpqal5dx

【计算机视觉前沿研究 热点 顶会】ECCV 2024中目标检测有关的论文的更多相关文章

  1. 预见未来丨机器学习:未来十年研究热点 量子机器学习(Quantum ML) 量子计算机利用量子相干和量子纠缠等效应来处理信息

    微软研究院AI头条 https://mp.weixin.qq.com/s/SAz5eiSOLhsdz7nlSJ1xdA 预见未来丨机器学习:未来十年研究热点 机器学习组 微软研究院AI头条 昨天 编者 ...

  2. Spiking-YOLO : 前沿性研究,脉冲神经网络在目标检测的首次尝试 | AAAI 2020

    论文提出Spiking-YOLO,是脉冲神经网络在目标检测领域的首次成功尝试,实现了与卷积神经网络相当的性能,而能源消耗极低.论文内容新颖,比较前沿,推荐给大家阅读   来源:晓飞的算法工程笔记 公众 ...

  3. 【计算机视觉】目标检测中的指标衡量Recall与Precision

    [计算机视觉]目标检测中的指标衡量Recall与Precision 标签(空格分隔): [图像处理] 说明:目标检测性能指标Recall与Precision的理解. Recall与Precision ...

  4. 【神经网络与深度学习】【计算机视觉】RCNN- 将CNN引入目标检测的开山之作

    转自:https://zhuanlan.zhihu.com/p/23006190?refer=xiaoleimlnote 前面一直在写传统机器学习.从本篇开始写一写 深度学习的内容. 可能需要一定的神 ...

  5. 【计算机视觉】目标检测之ECCV2016 - SSD Single Shot MultiBox Detector

    本文转载自: http://www.cnblogs.com/lillylin/p/6207292.html SSD论文阅读(Wei Liu--[ECCV2016]SSD Single Shot Mul ...

  6. 目标检测,主要问题发展,非极大值抑制中阈值也作为参数去学习更满足end2end,最近发展趋势和主要研究思路方向

    目标检测,主要问题发展,非极大值抑制中阈值也作为参数去学习更满足end2end,最近发展趋势和主要研究思路方向 待办 目标检测问题时间线 特征金字塔加滑窗 对象框推荐 回归算法回归对象框 多尺度检测 ...

  7. PIoU Loss:倾斜目标检测专用损失函数,公开超难倾斜目标数据集Retail50K | ECCV 2020 Spotlight

    论文提出从IoU指标延伸来的PIoU损失函数,能够有效地提高倾斜目标检测场景下的旋转角度预测和IoU效果,对anchor-based方法和anchor-free方法均适用.另外论文提供了Retail5 ...

  8. 计算机视觉3-> yolov5目标检测1 |从入门到出土

    本来就想着是对自己第一次跑yolov5的coco128的一个记录,没想到现在准备总结一下的时候,一方面是继续学习了一些,另一方面是学长的一些任务的要求,挖出了更多的东西,所以把名字改为了"从 ...

  9. AWS研究热点:BMXNet – 基于MXNet的开源二进神经网络实现

    http://www.atyun.com/9625.html 最近提出的二进神经网络(BNN)可以通过应用逐位运算替代标准算术运算来大大减少存储器大小和存取率.通过显着提高运行时的效率并降低能耗,让最 ...

  10. [置顶] 如何在浏览器中打开PDF文件并实现预览的思路与代码

    编写项目遇到一个需要在浏览器中打开PDF文件的问题.最终实现效果如下: 其实也就是简单的在浏览器中实现一个打开pdf文件,并有类似预览功能的边框. 其实在网上经常见到类似的页面,在浏览器中打开pdf文 ...

随机推荐

  1. ENVI无缝镶嵌、拼接栅格数据的方法

      本文介绍基于ENVI软件,利用"Seamless Mosaic"工具实现栅格遥感影像无缝镶嵌的操作.   在遥感图像镶嵌拼接:ENVI的Pixel Based Mosaicki ...

  2. Python数据分析方法与技巧

    背景介绍 数据分析是数据科学领域的核心技能之一,它涉及到数据的收集.清洗.处理.分析和可视化. 数据分析是指通过收集.清洗.处理.分析和可视化数据来发现隐藏的模式.趋势和关系的过程. 数据分析是数据科 ...

  3. 用这开源小书学 Docker,香!

    > 最新.全面.通俗.可多端阅读的 Docker 教程小书.>> 编程导航开源仓库:https://github.com/liyupi/code-navDocker 可以说是一个改变 ...

  4. linux系统&自动清理日志实现脚本

    文章来源:https://blog.csdn.net/lakelise/article/details/93711932 编写清理脚本,添加到定时任务中:创建可执行文件cd /hometouch cl ...

  5. 爆破字典:linux 敏感文件-01

    linux 中敏感文件 1.0 /apache/apache/conf/httpd.conf /apache/apache2/conf/httpd.conf /apache/php/php.ini / ...

  6. 2023/4/15 SCRUM个人博客

    1.我昨天的任务 获得了人脸识别作弊检测和绘制界面的分工,准备先从作弊检测入手 2.遇到了什么困难 对作弊检测的组件不熟悉,进展缓慢,需要进行对点的学习 3.我今天的任务 初步学习cython

  7. Jmeter函数助手17-StringtoFile

    StringtoFile函数用于将字符串写入文件 Path to file (absolute):将写入的文件路径 String to write:要写入的字符 Append to file (tru ...

  8. 【Docker】08 部署挂载本地目录的MySQL

    拉取MySQL镜像: docker pull mysql:8.0.21 执行挂载运行MySQL容器的命令: docker run -dit \ --name mysql-test \ -p 3306: ...

  9. 人形机器人从人类演示(demenstration)数据中学习人类行为(behavior)的几种方式

    人形机器人从人类演示(demenstration)数据中学习的几种方式 使用仿真环境,在仿真环境中生成近似人类的行为数据,然后利用仿真生成的数据训练机器人. 该种方式最为传统,也最为易行,但是由于仿真 ...

  10. 设计和实现AI算法算法时有没有必要在代码中加注释,没有用必要在实现之前弄个UML图???

    问题如题: 设计和实现AI算法算法时有没有必要在代码中加注释,没有用必要在实现之前弄个UML图??? 今天看到一个博文: https://www.cnblogs.com/siyuanwai/p/154 ...