[转载]关于Pretrain、Fine-tuning

这两种tricks的意思其实就是字面意思，pre-train(预训练)和fine -tuning(微调)

来源：https://blog.csdn.net/yjl9122/article/details/70198885

Pre-train的model:

就是指之前被训练好的Model, 比如很大很耗时间的model, 你又不想从头training一遍。这时候可以直接download别人训练好的model，里面保存的都是每一层的parameter配置情况。(Caffe里对于ImageNet的一个model, 我记得是200+M的model大小)。你有了这样的model之后，可以直接拿来做testing, 前提是你的output的类别是一样的。

关于为什么可以直接使用别人的模型：

来源：https://zhuanlan.zhihu.com/p/22624331

由于ImageNet数以百万计带标签的训练集数据，使得如CaffeNet之类的预训练的模型具有非常强大的泛化能力，这些预训练的模型的中间层包含非常多一般性的视觉元素，我们只需要对他的后几层进行微调，在应用到我们的数据上，通常就可以得到非常好的结果。最重要的是，在目标任务上达到很高performance所需要的数据的量相对很少

如果不一样咋办，但是恰巧你又有一小部分的图片可以留着做fine-tuning, 一般的做法是修改最后一层softmax层的output数量，比如从Imagenet的1000类，降到只有20个类，那么自然最后的InnerProducet层，你需要重新训练，然后再经过Softmax层，再训练的时候，可以把除了最后一层之外的所有层的learning rate设置成为0，这样在traing过程，他们的parameter 就不会变，而把最后一层的learning rate 调的大一点，让他尽快收敛，也就是Training Error尽快等于0.

这位博主写了几种fine-tuning的方法：

来源：https://blog.csdn.net/tianguiyuyu/article/details/80072238

举个例子，假设今天老板给你一个新的数据集，让你做一下图片分类，这个数据集是关于Flowers的。问题是，数据集中flower的类别很少，数据集中的数据也不多，你发现从零训练开始训练CNN的效果很差，很容易过拟合。怎么办呢，于是你想到了使用Transfer Learning，用别人已经训练好的Imagenet的模型来做。

做的方法有很多：

把Alexnet里卷积层最后一层输出的特征拿出来，然后直接用SVM分类。这是Transfer Learning，因为你用到了Alexnet中已经学到了的“知识”。

把Vggnet卷积层最后的输出拿出来，用贝叶斯分类器分类。思想基本同上。

甚至你可以把Alexnet、Vggnet的输出拿出来进行组合，自己设计一个分类器分类。这个过程中你不仅用了Alexnet的“知识”，也用了Vggnet的“知识”。

最后，你也可以直接使用fine-tune这种方法，在Alexnet的基础上，重新加上全连接层，再去训练网络。

综上，Transfer Learning关心的问题是：什么是“知识”以及如何更好地运用之前得到的“知识”。这可以有很多方法和手段。而fine-tune只是其中的一种手段。

简单来说
Transfer learning可以看成是一套完整的体系，是一种处理流程
目的是为了不抛弃从之前数据里得到的有用信息，也是为了应对新进来的大量数据的缺少标签或者由于数据更新而导致的标签变异情况

至于说Fine-tune，在深度学习里面，这仅仅是一个处理手段
之所以现在大量采用fine-tune，是因为有很多人用实验证实了：单纯从自己的训练样本训练的model，效果没有fine-tune的好

学术界的风气本就如此，一个被大家证实的行之有效的方法会在短时间内大量被采用。
所以很多人在大数据下面先按照标准参数训练一个模型

这位答主在这篇中给出了一个关于fine-tuning非常practical的例子:https://zhuanlan.zhihu.com/p/22624331

[转载]关于Pretrain、Fine-tuning的更多相关文章

（原）caffe中fine tuning及使用snapshot时的sh命令
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/5946041.html 参考网址: http://caffe.berkeleyvision.org/tu ...
Fine Tuning
(转载自:WikiPedia) Fine tuning is a process to take a network model that has already been trained for a ...
L23模型微调fine tuning
resnet185352 链接:https://pan.baidu.com/s/1EZs9XVUjUf1MzaKYbJlcSA 提取码:axd1 9.2 微调在前面的一些章节中,我们介绍了如何在只有 ...
转载-企业环境下MySQL5.5调优
转载-企业环境下MySQL5.5调优参照腾讯云和ucloud my.cnf 以及网上找的资料整理出来的 my.cnf , 以后修改任何参数都会继续更新,目前是在测试阶段; 物理机 : ubun ...
Object Detection · RCNN论文解读
转载请注明作者:梦里茶 Object Detection,顾名思义就是从图像中检测出目标对象,具体而言是找到对象的位置,常见的数据集是PASCAL VOC系列.2010年-2012年,Object D ...
转：谷歌大脑科学家 Caffe缔造者贾扬清微信讲座完整版
[转:http://blog.csdn.net/buaalei/article/details/46344675] 大家好!我是贾扬清,目前在Google Brain,今天有幸受雷鸣师兄邀请来和大家聊 ...
（原）torch中微调某层参数
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/6221664.html 参考网址: https://github.com/torch/nn/issues ...
贾扬清分享_深度学习框架caffe
Caffe是一个清晰而高效的深度学习框架,其作者是博士毕业于UC Berkeley的贾扬清,目前在Google工作.本文是根据机器学习研究会组织的online分享的交流内容,简单的整理了一下. 目录 ...
卷积神经网络(CNN)在句子建模上的应用
之前的博文已经介绍了CNN的基本原理,本文将大概总结一下最近CNN在NLP中的句子建模(或者句子表示)方面的应用情况,主要阅读了以下的文献: Kim Y. Convolutional neural n ...

随机推荐

HearthAgent A Hearthstone agent
http://www.intelligence.tuc.gr/~robots/ARCHIVE/2015w/Projects/LAB51326833/download.html The project ...
数据库中的几个概念 - LGWR, ARCH,ASYNC,SYNC,AFFIRM
双机热备(双机容错)就是对于重要的服务,使用两台服务器,互相备份,共同执行同一服务.当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务双 ...
python GC、分支、循环
内存管理 1.变量无须事先声明,也不需要指定类型 2.python编程中一般无须关心变量的存亡,一般也不用关心内存的管理 3.python使用引用计数记录所有对象的引用计数当对象引用数变为0,他就可 ...
PhpStorm设置项目编码
因为工作中论坛项目用的是GBK编码.数据库也是GBK编码.模板也是GBK,所以为了以后修改程序不出现乱码问题,所以需要把我的PhpStorm中该项目也设置为GBK编码(默认是UTF8编码). 设置路径 ...
python进阶-mock接口
setting.py MYSQL_HOST='192.168.127.139' PASSWORD=' PORT=3306 USER='root' DB='stu' tools.py import py ...
常用CSS媒体查询
@media screen and (orientation: portrait) { /*竖屏 css*/} @media screen and (orientation: landscape) { ...
纯css实现表单输入验证
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
leetcode654 Maximum Binary Tree
思路: 使用单调栈可以达到O(n). 实现: /** * Definition for a binary tree node. * struct TreeNode { * int val; * Tre ...
理解、学习与使用 JAVA 中的 Optional【转载】
这是一篇转载的文章.刚学java的时候看了好久这个Optional,但一直是懵的.今天又又遇到了,重新回来再看的时候,发现并没有那么难道那个. 转载的文章再开头处写了一个对于理解Optional很关键 ...
sql server新旧数据库的表结构差异
sql server编写通用脚本自动检查两个不同服务器的新旧数据库的表结构差异问题:工作过程中,不管是什么项目,伴随着项目不断升级版本,对应的项目数据库业务版本也不断升级,数据库出现新增表.修改表. ...

[转载]关于Pretrain、Fine-tuning

[转载]关于Pretrain、Fine-tuning

[转载]关于Pretrain、Fine-tuning的更多相关文章

随机推荐

热门专题