一.方法总结 Network Pruning Knowledge Distillation Parameter Quantization Architecture Design Dynamic Computation 二.Network Pruning 模型通常是过参数的,即很多参数或者neuron是冗余的(例如非常接近0),因此我们可以移除这些参数来对模型进行压缩. 1. 重要性判断 那么怎么判断哪些参数是冗余或者不重要的呢? 对权重(weight)而言,我们可以通过计算它的l1,l2值来判断…