Deeplearning知识蒸馏

Deeplearning知识蒸馏

merge

paddleslim.dist.merge(teacher_program, student_program, data_name_map, place, scope=fluid.global_scope(), name_prefix='teacher_')

merge将teacher_program融合到student_program中。在融合的program中，可以为其中合适的teacher特征图和student特征图添加蒸馏损失函数，从而达到用teacher模型的暗知识（Dark Knowledge）指导student模型学习的目的。

参数：

teacher_program (Program)-定义了teacher模型的 paddle program
student_program (Program)-定义了student模型的 paddle program
data_name_map (dict)-teacher输入接口名与student输入接口名的映射，其中dict的 key 为teacher的输入名，value 为student的输入名
place (fluid.CPUPlace()|fluid.CUDAPlace(N))-该参数表示程序运行在何种设备上，这里的N为GPU对应的ID
scope (Scope)-该参数表示程序使用的变量作用域，如果不指定将使用默认的全局作用域。默认值： fluid.global_scope()
name_prefix (str)-merge操作将统一为teacher的 Variables 添加的名称前缀name_prefix。默认值：’teacher_‘

返回： 无

注解

data_name_map 是 teacher_var name到student_var name的映射 ，如果写反可能无法正确进行merge

使用示例：

import paddle.fluid as fluid

import paddleslim.dist as dist

student_program = fluid.Program()

with fluid.program_guard(student_program):

x = fluid.layers.data(name='x', shape=[1, 28, 28])

conv = fluid.layers.conv2d(x, 32, 1)

out = fluid.layers.conv2d(conv, 64, 3, padding=1)

teacher_program = fluid.Program()

with fluid.program_guard(teacher_program):

y = fluid.layers.data(name='y', shape=[1, 28, 28])

conv = fluid.layers.conv2d(y, 32, 1)

conv = fluid.layers.conv2d(conv, 32, 3, padding=1)

out = fluid.layers.conv2d(conv, 64, 3, padding=1)

data_name_map = {'y':'x'}

USE_GPU = False

place = fluid.CUDAPlace(0) if USE_GPU else fluid.CPUPlace()

dist.merge(teacher_program, student_program,

data_name_map, place)

fsp_loss

paddleslim.dist.fsp_loss(teacher_var1_name, teacher_var2_name, student_var1_name, student_var2_name, program=fluid.default_main_program())

fsp_loss为program内的teacher var和student var添加fsp loss，出自论文 A Gift from Knowledge Distillation: Fast Optimization, Network Minimization and Transfer Learning

参数：

teacher_var1_name (str): teacher_var1的名称. 对应的variable是一个形为`[batch_size, x_channel, height, width]`的4-D特征图Tensor，数据类型为float32或float64
teacher_var2_name (str): teacher_var2的名称. 对应的variable是一个形为`[batch_size, y_channel, height, width]`的4-D特征图Tensor，数据类型为float32或float64。只有y_channel可以与teacher_var1的x_channel不同，其他维度必须与teacher_var1相同
student_var1_name (str): student_var1的名称. 对应的variable需与teacher_var1尺寸保持一致，是一个形为`[batch_size, x_channel, height, width]`的4-D特征图Tensor，数据类型为float32或float64
student_var2_name (str): student_var2的名称. 对应的variable需与teacher_var2尺寸保持一致，是一个形为`[batch_size, y_channel, height, width]`的4-D特征图Tensor，数据类型为float32或float64。只有y_channel可以与student_var1的x_channel不同，其他维度必须与student_var1相同
program (Program): 用于蒸馏训练的fluid program。默认值： fluid.default_main_program()

返回： 由teacher_var1, teacher_var2, student_var1, student_var2组合得到的fsp_loss

使用示例：

l2_loss

paddleslim.dist.l2_loss(teacher_var_name, student_var_name, program=fluid.default_main_program())[[]](https://github.com/PaddlePaddle/PaddleSlim/blob/develop/paddleslim/dist/single_distiller.py#L118)

: l2_loss为program内的teacher var和student var添加l2 loss

参数：

teacher_var_name (str): teacher_var的名称.
student_var_name (str): student_var的名称.
program (Program): 用于蒸馏训练的fluid program。默认值： fluid.default_main_program()

返回： 由teacher_var, student_var组合得到的l2_loss

使用示例：

soft_label_loss

paddleslim.dist.soft_label_loss(teacher_var_name, student_var_name, program=fluid.default_main_program(), teacher_temperature=1., student_temperature=1.)[[]](https://github.com/PaddlePaddle/PaddleSlim/blob/develop/paddleslim/dist/single_distiller.py#L136)

soft_label_loss为program内的teacher var和student var添加soft label loss，出自论文 Distilling the Knowledge in a Neural Network

参数：

teacher_var_name (str): teacher_var的名称.
student_var_name (str): student_var的名称.
program (Program): 用于蒸馏训练的fluid program。默认值： fluid.default_main_program()
teacher_temperature (float): 对teacher_var进行soft操作的温度值，温度值越大得到的特征图越平滑
student_temperature (float): 对student_var进行soft操作的温度值，温度值越大得到的特征图越平滑

返回： 由teacher_var, student_var组合得到的soft_label_loss

使用示例：

loss

paddleslim.dist.loss(loss_func, program=fluid.default_main_program(), **kwargs) [[]](https://github.com/PaddlePaddle/PaddleSlim/blob/develop/paddleslim/dist/single_distiller.py#L165)

: loss函数支持对任意多对teacher_var和student_var使用自定义损失函数

参数：

**loss_func**( python function): 自定义的损失函数，输入为teacher var和student var，输出为自定义的loss
program (Program): 用于蒸馏训练的fluid program。默认值： fluid.default_main_program()
**kwargs : loss_func输入名与对应variable名称

返回：自定义的损失函数loss

使用示例：

注解

在添加蒸馏loss时会引入新的variable，需要注意新引入的variable不要与student variables命名冲突。这里建议两种用法（两种方法任选其一即可）：

建议与student_program使用同一个命名空间，以避免一些未指定名称的variables(例如tmp_0, tmp_1...)多次定义为同一名称出现命名冲突
建议在添加蒸馏loss时指定一个命名空间前缀

Deeplearning知识蒸馏的更多相关文章

知识蒸馏（Distillation）
蒸馏神经网络取名为蒸馏(Distill),其实是一个非常形象的过程. 我们把数据结构信息和数据本身当作一个混合物,分布信息通过概率分布被分离出来.首先,T值很大,相当于用很高的温度将关键的分布信息从原 ...
【论文考古】知识蒸馏 Distilling the Knowledge in a Neural Network
论文内容 G. Hinton, O. Vinyals, and J. Dean, "Distilling the Knowledge in a Neural Network." 2 ...
【DKNN】Distilling the Knowledge in a Neural Network 第一次提出神经网络的知识蒸馏概念
原文链接小样本学习与智能前沿 . 在这个公众号后台回复"DKNN",即可获得课件电子资源. 文章已经表明,对于将知识从整体模型或高度正则化的大型模型转换为较小的蒸馏模型,蒸馏非常 ...
通过Python包来剪枝、蒸馏DNN
用 Distiller 压缩 PyTorch 模型作者: PyTorch 中文网发布: 2018年7月15日 5,101阅读 0评论近日,Intel 开源了一个用于神经网络压缩的开源 Python ...
ICCV2021 | 简单有效的长尾视觉识别新方案：蒸馏自监督(SSD)
前言本文提出了一种概念上简单但特别有效的长尾视觉识别的多阶段训练方案,称为蒸馏自监督(Self Supervision to Distillation, SSD).在三个长尾识别基准:Ima ...
Bert不完全手册1. 推理太慢？模型蒸馏
模型蒸馏的目标主要用于模型的线上部署,解决Bert太大,推理太慢的问题.因此用一个小模型去逼近大模型的效果,实现的方式一般是Teacher-Stuent框架,先用大模型(Teacher)去对样本进行拟 ...
DeiT：注意力也能蒸馏
DeiT:注意力也能蒸馏 <Training data-efﬁcient image transformers & distillation through attention> ...
知识图谱顶刊综述 - (2021年4月) A Survey on Knowledge Graphs: Representation, Acquisition, and Applications
知识图谱综述(2021.4) 论文地址:A Survey on Knowledge Graphs: Representation, Acquisition, and Applications 目录知 ...
Bag of Tricks for Image Classification with Convolutional Neural Networks论文笔记
一.高效的训练 1.Large-batch training 使用大的batch size可能会减小训练过程(收敛的慢?我之前训练的时候挺喜欢用较大的batch size),即在相同的迭代次数 ...

随机推荐

1-web 服务器框架。
1.静态网页与动态网页 1.静态网页:无法与服务器进行交互的网页. 2.动态网页:能够与服务器进行交互的网页. 2.web与服务器 1.web:网页(HTML,CSS,JS) 2.服务器:能够给用户提 ...
Google Hacking的用法
目录 Google Hacking 基本搜索高级搜索 Index of inurl Google Hacking Google Hacking 是利用谷歌搜索的强大,来在浩瀚的互联网中搜索到我们需要 ...
【转】docker打包python应用
转自https://www.cnblogs.com/shenh/p/9518343.html 一.前言容器使用沙箱机制,互相隔离,优势在于让各个部署在容器的里的应用互不影响,独立运行,提供更高的安全 ...
关于Redis哨兵机制，7张图详解！
写在前面之前有位朋友去面试被问到Redis哨兵机制,这道题其实很多小伙伴都应该有被问到过!本文将跟大家一起来探讨如何回答这个问题!同时用XMind画了一张导图记录Redis的学习笔记和一些面试解析( ...
Linux使用gcc编译时设置编码格式
我们编写 C 程序时,可以使用 ANSI 编码,或是 UTF-8 编码:在编译程序时,可以使用以下的选项告诉编译器: -finput-charset=GB2312 -finput-charset=UT ...
Office·Word高级·VBA基础概念语法
阅文时长 | 5.21分钟字数统计 | 1823字符『Office·Word高级·VBA基础概念语法』编写人 | SCscHero 编写时间 | Monday, June 29, 2020 文章 ...
通过Dapr实现一个简单的基于.net的微服务电商系统(十二)——istio+dapr构建多运行时服务网格
多运行时是一个非常新的概念.在 2020 年,Bilgin Ibryam 提出了 Multi-Runtime(多运行时)的理念,对基于 Sidecar 模式的各种产品形态进行了实践总结和理论升华.那到 ...
alpine安装网络工具
telnet:busybox-extras net-tools: net-tools tcpdump: tcpdump wget: wget dig nslookup: bind-tools curl ...
[bug] Hive：Caused by: MetaException(message:Hive Schema version 2.1.0 does not match metastore's schema version 1.2.0 Metastore is not upgraded or corrupt)
参考 https://www.cnblogs.com/liupuLearning/p/6610307.html 少了创建hive数据库一步
Linux_日志管理理论概述
一.日志系统 1.kernel -->物理终端(/dev/console) --> /var/log/dmesg(系统启动时信息(包括错误信息)记录到该文件) 或者:# dmesg 或 # ...

Deeplearning知识蒸馏

Deeplearning知识蒸馏的更多相关文章

随机推荐

热门专题