resnet152和mobilent

2024-08-17

轻量化模型之MobileNet系列

自 2012 年 AlexNet 以来,卷积神经网络在图像分类.目标检测.语义分割等领域获得广泛应用.随着性能要求越来越高,AlexNet 已经无法满足大家的需求,于是乎各路大牛纷纷提出性能更优越的 CNN 网络,如 VGG.GoogLeNet.ResNet.DenseNet 等.由于神经网络的性质,为了获得更好的性能,网络层数不断增加,从 7 层 AlexNet 到 16 层 VGG,再从 16 层 VGG 到 GoogLeNet 的 22 层,再到 152 层 ResNet,更有上千层的 R

ResNet152网络复现（Caffe）

一.准备数据集 1) 下载数据集 Imagnet网站上下载了三类图片,分别是big cat.dog.fish,其中训练集的图片数一共是4149,测试集的图片数是1003,训练集和测试集的图片数比例4:1,将训练集的图片保存在train文件夹下,测试集图片保存在val文件夹下. train.val文件夹下面均有bigcat.dog.fish三个文件夹,分别存放着对应类别的图片. 2) 利用python代码,生成train.txt.val.txt train.txt.val.txt分别存储着训练集

deep learning on object detection

回归工作一周,忙的头晕,看了两三篇文章,主要在写各种文档和走各种办事流程了-- 这次来写写object detection最近看的三篇文章吧.都不是最近的文章,但是是今年的文章,我也想借此让自己赶快熟悉起来之前的工作. 首先是google的工作,Speed/accuracy trade-offs for modern convolutional object detectors,下载地址:https://arxiv.org/abs/1611.10012. 11月份的工作,文章工作就如标题一样,我

（转）技术揭秘：海康威视PASCAL VOC2012目标检测权威评测夺冠之道

技术揭秘:海康威视PASCAL VOC2012目标检测权威评测夺冠之道原创 2016-09-21 钟巧勇深度学习大讲堂点击上方“深度学习大讲堂”可订阅哦!深度学习大讲堂是高质量原创内容平台,邀请学术界.工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术.产品和活动信息! 近年来,随着深度学习的崛起,计算机视觉得到飞速发展.目标检测作为计算机视觉的基础算法,也搭上了深度学习的快车.基于Proposal的检测框架,从R-CNN到Faster R-CNN,算法性能越来越

【深度学习】目标检测算法总结（R-CNN、Fast R-CNN、Faster R-CNN、FPN、YOLO、SSD、RetinaNet）

目标检测是很多计算机视觉任务的基础,不论我们需要实现图像与文字的交互还是需要识别精细类别,它都提供了可靠的信息.本文对目标检测进行了整体回顾,第一部分从RCNN开始介绍基于候选区域的目标检测器,包括Fast R-CNN.Faster R-CNN 和 FPN等.第二部分则重点讨论了包括YOLO.SSD和RetinaNet等在内的单次检测器,它们都是目前最为优秀的方法. 一.基于候选区域的目标检测器 1.1 滑动窗口检测器自从 AlexNet 获得 ILSVRC 2012 挑战赛冠军后,用 CN

从YOLOv1到v3的进化之路

引言:如今基于深度学习的目标检测已经逐渐成为自动驾驶,视频监控,机械加工,智能机器人等领域的核心技术,而现存的大多数精度高的目标检测算法,速度较慢,无法适应工业界对于目标检测实时性的需求,这时YOLO算法横空出世,以近乎极致的速度和出色的准确度赢得了大家的一致好评.基于此,我们选择YOLO算法来实现目标检测.YOLO算法目前已经经过了3个版本的迭代,在速度和精确度上获得了巨大的提升,我们将从YOLOV1开始讲起,直至目前最新的版本YOLOV3. 一. YOLO V1 一步检测的开山之作

理解图像分割中的卷积（Understand Convolution for Semantic Segmentation）

以最佳的101 layer的ResNet-DUC为基础,添加HDC,实验探究了几种变体: 无扩张卷积(no dilation):对于所有包含扩张卷积,设置r=1r=1 扩张卷积(dilation Conv ):对于所有包含扩张卷积,将2个block和为一组,设置第一个block的r=2r=2,第二个block的r=1r=1 Dilation-RF:对于res4bres4b包含了23个blocks,使用的r=2r=2,设置3个block一组,r=1,2,3r=1,2,3.对于最后两个block,设

resnet代码分析

1. 先导入使用的包,并声明可用的网络和预训练好的模型 import torch.nn as nn import torch.utils.model_zoo as model_zoo #声明可调用的网络 __all__ = ['ResNet', 'resnet18', 'resnet34', 'resnet50', 'resnet101', 'resnet152'] #用于加载的预训练好的模型 model_urls = { 'resnet18': 'https://download.pytorc

AI佳作解读系列(二)——目标检测AI算法集杂谈：R-CNN，faster R-CNN，yolo，SSD，yoloV2，yoloV3

1 引言深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理.本文着重与分析目标检测领域的深度学习方法,对其中的经典模型框架进行深入分析. 目标检测可以理解为是物体识别和物体定位的综合,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在图片中的具体位置. 为了完成这两个任务,目标检测模型分为两类.一类是two-stage,将物体识别和物体定位分为两个步骤,分别完成,这一类的典型代表是R-CNN, fast R-CNN, faster-RCNN家族.他们识别

目标检测网络之 YOLOv3

本文逐步介绍YOLO v1~v3的设计历程. YOLOv1基本思想 YOLO将输入图像分成SxS个格子,若某个物体 Ground truth 的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这个物体. 每个格子预测B个bounding box及其置信度(confidence score),以及C个类别概率.bbox信息(x,y,w,h)为物体的中心位置相对格子位置的偏移及宽度和高度,均被归一化.置信度反映是否包含物体以及包含物体情况下位置的准确性,定义为\(Pr(Object) \tim

残差网络ResNet笔记

发现博客园也可以支持Markdown,就把我之前写的博客搬过来了- 欢迎转载,请注明出处:http://www.cnblogs.com/alanma/p/6877166.html 下面是正文: Deep Residual Learning for Image Recognition 1. 思想作者根据输入将层表示为学习残差函数.实验表明,残差网络更容易优化,并且能够通过增加相当的深度来提高准确率. 核心是解决了增加深度带来的副作用(退化问题),这样能够通过单纯地增加网络深度,来提高网络性能.

PyTorch常用代码段整理合集

PyTorch常用代码段整理合集转自:知乎作者:张皓众所周知,程序猿在写代码时通常会在网上搜索大量资料,其中大部分是代码段.然而,这项工作常常令人心累身疲,耗费大量时间.所以,今天小编转载了知乎上的一篇文章,介绍了一些常用PyTorch代码段,希望能够为奋战在电脑桌前的众多程序猿们提供帮助! 本文代码基于 PyTorch 1.0 版本,需要用到以下包 import collectionsimport osimport shutilimport tqdm import numpy as np

Feature Extractor[ResNet]

0. 背景众所周知,深度学习,要的就是深度,VGG主要的工作贡献就是基于小卷积核的基础上,去探寻网络深度对结果的影响.而何恺明大神等人发现,不是随着网络深度增加,效果就好的,他们发现了一个违背直觉的现象. 图0.1 不同层数的传统网络下的结果表现最开始,我们认为随着深度的增加,网络效果不好,那是因为存在着梯度消失和梯度爆炸的原因.不过随着大家的努力,这些问题可以通过归一化初始化(即用特定的初始化算法)和归一化层(Batch Normailzation)来极大的缓解. 可是,我们仍然能够发现随

Faster R-CNN：详解目标检测的实现过程

本文详细解释了 Faster R-CNN 的网络架构和工作流,一步步带领读者理解目标检测的工作原理,作者本人也提供了 Luminoth 实现,供大家参考. Luminoth 实现:https://github.com/tryolabs/luminoth/tree/master/luminoth/models/fasterrcnn 去年,我们决定深入了解 Faster R-CNN,阅读原始论文以及其中引用到的其他论文,现在我们对其工作方式和实现方法有了清晰的理解. 我们最终在 Luminoth

VGG-Net

论文下载源码GitHub 目的这篇文章是以比赛为目的——解决ImageNet中的1000类图像分类和定位问题.在此过程中,作者做了六组实验,对应6个不同的网络模型,这六个网络深度逐渐递增的同时,也有各自的特点.实验表明最后两组,即深度最深的两组16和19层的VGGNet网络模型在分类和定位任务上的效果最好.作者因此斩获2014年分类第二(第一是GoogLeNet),定位任务第一. 其中,模型的名称——“VGG”代表了牛津大学的Oxford Visual Geometry Group,该小组隶

论文阅读笔记三十二：YOLOv3: An Incremental Improvement

论文源址:https://pjreddie.com/media/files/papers/YOLOv3.pdf 代码:https://github.com/qqwweee/keras-yolo3 摘要本文针对YOLO再次改进,训练更大的网络,准确率也有所提高.在320x320的输入上YOLOv3运行22ms,mAP为28.2,与SSD的准确率相同,但比SSD快三倍.在使用0.5 IOU作为检测机制时,YOLOv3仍表现很好.在Titan X上实现57.9 AP50 51ms的运行,而Retin

caffe调loss方法

正文 what should I do if... ...my loss diverges? (increases by order of magnitude, goes to inf. or NaN) lower the learning rate raise momentum (with corresponding learning rate drop) raise weight decay raise batch size use gradient clipping (limit the

FasterRCNN 提升分类精度(转)

近年来,随着深度学习的崛起,计算机视觉得到飞速发展.目标检测作为计算机视觉的基础算法,也搭上了深度学习的快车.基于Proposal的检测框架,从R-CNN到Faster R-CNN,算法性能越来越高,速度越来越快.另一方面,直接回归Bounding Box的框架,从YOLO到SSD,在保持速度优势的同时,性能也逐渐得到提升.“深度学习大讲堂”往期介绍过这方面的进展,在此不再赘述. 近期,我们在PASCAL VOC2012目标检测上提交的结果mAP性能达到87.9,刷新了世界记录,排名第一名

tensorflow冻结变量方法（tensorflow freeze variable）

最近由于项目需要,要对tensorflow构造的模型中部分变量冻结,然后继续训练,因此研究了一下tf中冻结变量的方法,目前找到三种,各有优缺点,记录如下: 1.名词解释冻结变量,指的是在训练模型时,对某些可训练变量不更新,即仅参与前向loss计算,不参与后向传播,一般用于模型的finetuning等场景.例如:我们在其他数据上训练了一个resnet152模型,然后希望在目前数据上做finetuning,一般来讲,网络的前几层卷积是用来提取底层图像特征的,因此可以对前3个卷积层进行冻结,不改变其

目标检测（七）YOLOv3: An Incremental Improvement

项目地址 Abstract 该技术报告主要介绍了作者对 YOLOv1 的一系列改进措施(注意:不是对YOLOv2,但是借鉴了YOLOv2中的部分改进措施).虽然改进后的网络较YOLOv1大一些,但是检测结果更精确,运行速度依然很快.在输入图像分辨率为320*320时,YOLOv3运行耗时22ms,mAP达到28.2,这和SSD一样精确,但是速度比SSD快三倍.当我们使用旧的检测指标0.5 IOU mAP(IOU阈值取为0.5,然后比较mAP)时,YOLOv3依旧表现得相当好.在一个 Titan

pytorch预训练模型的下载地址以及解决下载速度慢的方法

https://github.com/pytorch/vision/tree/master/torchvision/models 几乎所有的常用预训练模型都在这里面总结下各种模型的下载地址: 1 Resnet: model_urls = { 'resnet18': 'https://download.pytorch.org/models/resnet18-5c106cde.pth', 'resnet34': 'https://download.pytorch.org/models/resnet

resnet152和mobilent

热门专题