Feature Extractor[googlenet v1]】的更多相关文章

1 - V1 google团队在模型上,更多考虑的是实用性,也就是如何能让强大的深度学习模型能够用在嵌入式或者移动设备上.传统的想增强模型的方法无非就是深度和宽度,而如果简单的增加深度和宽度,那么带来的更大参数要训练和需要更强大的计算资源去计算.所以,google团队要做的就是如何在保证模型准确度的情况下减少模型参数. 解决模型复杂和计算资源两个问题的基本方法是:将全连接转换成稀疏连接的结构,甚至在卷积层中都希望有稀疏链接的结构.除了说这是模仿生物结构的一方面,这样的好处还有更加支持了arora…
0 - 背景 在经过了inception v1的基础上,google的人员还是觉得有维度约间的空间,在<Rethinking the Inception Architecture for Computer Vision>一文中,通过卷积分解.网格约间等方式来修改inception模块.当然了在BN那篇论文的附录部分也多少涉及到v2的设计方向. 因为第一篇论文并没有详细说明设计inception v1的一些具体原理,而其主要是从如何减小模型的参数量上下手,所以v3上对这部分做了个简单的原则说明:…
0. AlexNet 1. VGG VGG网络相对来说,结构简单,通俗易懂,作者通过分析2013年imagenet的比赛的最好模型,并发现感受野还是小的好,然后再加上<network in network>中的\(1*1\)卷积核,使得全文只在卷积网络的深度上做文章,从而得出了网络还是越深越好的结论 VGG 2. Inception 与VGG同期出来的有googlenet,该网络通过关注减少模型参数,而不降低模型性能的角度出发,设计出了inception结构,提出了googlenet: 然后g…
0. 背景 众所周知,深度学习,要的就是深度,VGG主要的工作贡献就是基于小卷积核的基础上,去探寻网络深度对结果的影响.而何恺明大神等人发现,不是随着网络深度增加,效果就好的,他们发现了一个违背直觉的现象. 图0.1 不同层数的传统网络下的结果表现 最开始,我们认为随着深度的增加,网络效果不好,那是因为存在着梯度消失和梯度爆炸的原因.不过随着大家的努力,这些问题可以通过归一化初始化(即用特定的初始化算法)和归一化层(Batch Normailzation)来极大的缓解. 可是,我们仍然能够发现随…
0.背景 这个模型是<Deep Learning高质量>群里的牛津大神Weidi Xie在介绍他们的VGG face2时候,看到对应的论文<VGGFace2: A dataset for recognising faces across pose and age>中对比实验涉及到的SENet,其结果比ResNet-50还好,所以也学习学习. github上的SENet CNN是通过用局部感受野,基于逐通道基础上,去融合空间信息来提取信息化的特征,对于图像这种数据来说很成功.不过,为…
0. 背景 Karen Simonyan等人在2014年参加Imagenet挑战赛的时候提出的深度卷积神经网络.作者通过对2013年的ILSVRC中最好的深度神经网络模型(他们最初的对应模型都是alexnet)进行研究,发现他们使用了更小的感受野,并且在第一层卷积层中使用了更小的stride,也就是这两点都有助于准确度的提升.所以本文就不去做无用功,从网络的深度去挖掘CNN模型的提升空间,并且发现当网络深度在超过16层时,有明显的提升效果,故而如果截取当前16层的网络,就被称之为VGG16. 从…
0. 背景 随着何凯明等人提出的ResNet v1,google这边坐不住了,他们基于inception v3的基础上,引入了残差结构,提出了inception-resnet-v1和inception-resnet-v2,并修改inception模块提出了inception v4结构.基于inception v4的网络实验发现在不引入残差结构的基础上也能达到和inception-resnet-v2结构相似的结果,从而认为何凯明等人认为的: "要想得到深度卷积网络必须使用残差结构" 这一…
0. 背景 何凯明大神等人在提出了ResNet网络结构之后,对其做了进一步的分析工作,详细的分析了ResNet 构建块能起作用的本质所在.并通过一系列的实验来验证恒等映射的重要性,并由此提出了新的构建块模型使得网络能够更容易训练和更好的泛化性能(比如不同于ResNet v1中对cifar-10的学习率的谨慎,这里更加放开了). 图0.1 v1中的残差构建块和v2中建议的残差构建块 如图0.1所示,在ResNet v1中,构建块是通过将之前层的\(x\)连接到后面跳过至少2层的输出,然后将和放入激…
0.背景 随着CNN变得越来越深,人们发现会有梯度消失的现象.这个问题主要是单路径的信息和梯度的传播,其中的激活函数都是非线性的,从而特别是乘法就可以使得随着层数越深,假设将传统的神经网络的每一层看成是自动机中的一个状态.那么对于整个神经网络来说,输入到输出就是一个输入态不断的转移到输出态的一个过程.假设其中每一层都是有个变率,即缩放因子.那么: 变率大于1,层数越多,越呈现倍数放大趋势,比如爆炸: 变率小于1,层数越多,越呈现倍数缩小趋势,比如消失: 而传统以往的卷积神经网络都是单路径的,即从…
David Lowe(SIFT 的提出者) 0. 图像金字塔变换(matlab) matlab 对图像金字塔变换接口的支持(impyramid),十分简单好用. 其支持在reduce和expand两种方式的变换,分别是成比例的缩小和放大. % 加载图像数据到内存 I = imread('cameraman.tif'); size(I) % reduce ==> {2, 4, 8} I1 = impyramid(I, 'reduce'); size(I1) I2 = impyramid(I1, '…
1 - 背景 摘要:因为随着前面层的参数的改变会导致后面层得到的输入数据的分布也会不断地改变,从而训练dnn变得麻烦.那么通过降低学习率和小心地参数初始化又会减慢训练过程,而且会使得具有饱和非线性模型的训练变得很困难.我们将这种现象叫做internal covariate shift.BN通过对输入进行归一化从而解决这个问题.在这其中,作者试图让归一化成为模型结构的一部分,并且对每个训练的mini-batch都进行归一化.最后的结果是bn方法可以让我们使用更大的学习率和不用那么小心的初始化.而且…
GoogLeNet系列解读 2016年02月25日 15:56:29 shuzfan 阅读数:75639更多 个人分类: 深度学习基础    版权声明:本文为博主原创文章,转载请注明出处 https://blog.csdn.net/shuzfan/article/details/50738394 本文介绍的是著名的网络结构GoogLeNet及其延伸版本,目的是试图领会其中的思想而不是单纯关注结构. GoogLeNet Incepetion V1 Motivation Architectural…
http://blog.csdn.net/diamonjoy_zone/article/details/70576775 参考: 1. Inception[V1]: Going Deeper with Convolutions 2. Inception[V2]: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 3. Inception[V3]: Rethink…
转载:http://blog.csdn.net/shuzfan/article/details/50738394 GoogLeNet主要贡献提出了Inception结构: Architectural Details Inception 结构的主要思路是怎样用密集成分来近似最优的局部稀疏结构. 作者首先提出下图这样的基本结构:  对上图做以下说明: 1 . 采用不同大小的卷积核意味着不同大小的感受野,最后拼接意味着不同尺度特征的融合: 2 . 之所以卷积核大小采用1.3和5,主要是为了方便对齐.设…
AlexNet (2012) The network had a very similar architecture as LeNet by Yann LeCun et al but was deeper, with more filters per layer, and with stacked convolutional layers. It consisted 11x11, 5x5,3x3, convolutions, max pooling, dropout, data augmenta…
GoogLeNet Incepetion V1 这是GoogLeNet的最早版本,出现在2014年的<Going deeper with convolutions>.之所以名为“GoogLeNet”而非“GoogleNet”,文章说是为了向早期的LeNet致敬. 介绍 深度学习以及神经网络快速发展,人们不再只关注更给力的硬件.更大的数据集.更大的模型,而是更在意新的idea.新的算法以及模型的改进. 一般来说,提升网络性能最直接的办法就是增加网络深度和宽度,这也就意味着巨量的参数.但是,巨量参…
Atitit. Atiposter 发帖机 新特性 poster new feature   v7 q39 V1  初步实现sina csdn cnblogs V2  实现qzone sohu 的发帖功能  顺便重构接口实现分离 V3多文件循环发帖(初步bbs版本) V4  sina发帖功能fix增加二次贴入内容 发布时的确认关闭提示folat框子 调整分类总的分类dsl 和ide俩优先类 V5默认分类选择ide dsl功能..这样一般就只要取消一个就可以了. V6  界面ui 调整高度化 V7…
作者:Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik 该论文提出了一种简单且可扩展的检测算法,在VOC2012数据集上取得的mAP比当时性能最好的算法高30%.算法主要结合了两个key insights: (1)可以将高容量的卷积神经网络应用到自底向上的Region proposals(候选区域)上,以定位和分割目标 (2)当带标签的训练数据稀少时,可以先使用辅助数据集进行有监督的预训练,然后再使用训练集对网络的特定范围进行微调,…
目录 一. 存在的问题 1.提取局部特征的能力 2.点云密度不均问题 二.解决方案 1.改进特征提取方法: (1)采样层(sampling) (2)分组层(grouping) (3)特征提取层(feature learning) 2.解决点云密度不均问题: (1)多尺度分组(MSG) (2)多分辨率分组(MRG) 三.网络结构 四.实验 4.1欧式度量空间中的点云分类 4.2语义场景标注的点集分割 4.3非欧几里德度量空间中的点集分类 4.4特征可视化 五.总结及存在的问题 六.代码解读 Poi…
项目链接 Abstract 在该论文中,作者首先介绍了对YOLOv1检测系统的各种改进措施.改进后得到的模型被称为YOLOv2,它使用了一种新颖的多尺度训练方法,使得模型可以在不同尺寸的输入上运行,并在速度和精度上很容易找到平衡.当处理速度为40FPS时,YOLOv2取得76.8mAP的成绩,超过了当时最好的检测方法Faster RCNN with ResNet和SSD 接着,作者提出了一种在object detection和classification两个任务上进行联合训练的方法.借助该方法,…
YOLO (You Only Look Once) dl  cnn  object detection  一.YOLO YOLO是一个实时的目标检测系统.最新的V2版本在Titan X 上可以每秒处理 40-90 张图片,在VOC 2007上可以取得78.6%的准确率,在COCO上可以取得48.1%准确率. 之间的检测系统对图像在不同的尺度.位置上进行多次检测,需要执行多次神经网络算法分别得到结果,YOLO只需要执行一次,所以速度上得到了较大的提升. 二.算法 算法发展过程: RCNN -->…
Adit Deshpande CS Undergrad at UCLA ('19) Blog About The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3) Introduction Link to Part 1Link to Part 2 In this post, we’ll go into summarizing a lot of the new and important develo…
CS231n Winter 2016: Lecture 8 : Localization and Detection CS231n Winter 2017: Lecture 11: Detection and Segmentation https://zhuanlan.zhihu.com/qianxiaosi 本篇整理得比较杂,毕竟这一块小知识点较多,故,这里只是笔记收集,暂且不能称之为笔记整理. 以下三篇博文读来甚好,推荐: [目标检测]RCNN算法详解 [目标检测]Fast RCNN算法详解…
ResNet, AlexNet, VGG, Inception: Understanding various architectures of Convolutional Networks by KOUSTUBH        this blog from: http://cv-tricks.com/cnn/understand-resnet-alexnet-vgg-inception/ Convolutional neural networks are fantastic for visual…
We perform image classification, one of the computer vision tasks deep learning shines at. As training from scratch is unfeasible in most cases (as it is very data hungry), we perform transfer learning using ResNet-50 pre-trained on ImageNet. We get…
ICLR 2014 International Conference on Learning Representations Apr 14 - 16, 2014, Banff, Canada Workshop Track Submitted Papers Stochastic Gradient Estimate Variance in Contrastive Divergence and Persistent Contrastive Divergence Mathias Berglund, Ta…
文章来源: https://www.cnblogs.com/shouhuxianjian/p/7786760.html Feature Extractor[Inception v4] 0. 背景 随着何凯明等人提出的ResNet v1,google这边坐不住了,他们基于inception v3的基础上,引入了残差结构,提出了inception-resnet-v1和inception-resnet-v2,并修改inception模块提出了inception v4结构.基于inception v4的…
引言 之前做object detection用到的都是two stage,one stage如YOLO.SSD很少接触,这里开一篇blog简单回顾该系列的发展.很抱歉,我本人只能是蜻蜓点水,很多细节也没有弄清楚.有需求的朋友请深入论文和代码,我在末尾也列出了很多优秀的参考文章. YOLOv1 You Only Look Once: Unified, Real-Time Object Detection 核心思想 用一个CNN实现end-to-end,将目标检测作为回归问题解决. 将输入图片分割为…
前言 深度卷积网络极大地推进深度学习各领域的发展,ILSVRC作为最具影响力的竞赛功不可没,促使了许多经典工作.我梳理了ILSVRC分类任务的各届冠军和亚军网络,简单介绍了它们的核心思想.网络架构及其实现. 代码主要来自:https://github.com/weiaicunzai/pytorch-cifar100 ImageNet和ILSVRC ImageNet是一个超过15 million的图像数据集,大约有22,000类. ILSVRC全称ImageNet Large-Scale Visu…
Fully Convolutional Networks for Semantic Segmentation 译文 Abstract   Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixels-to-pixels, exceed…