轻量模型之Distilling the Knowledge in a Neural Network

1.知识蒸馏介绍

 

 

 

 2. 知识蒸馏思想

 

 

 

 

 3.知识蒸馏方法

 

 

 

 

 

 

 

 

 

 

 

 

 4.在大数据集上训练专家集成模型

 

 

 

 

 作业

1:推导:推导证明利用logits优化是知识蒸馏的特殊形式

 

 

2:文字回答:在知识蒸馏中,温度T的作用是什么?

为了从教师网络中蒸馏出更多,更丰富的信息,引入温度参数T的概念,T越大,网络输出类别概率分布越“soft”,学生网络越能从教师网络中学到更丰富的knowledge。

3:文字回答:知识蒸馏的位置只能是最后输出吗?还可能在网络哪些地方进行蒸馏?

在激活层的输出也可以。

 

原文地址:https://www.cnblogs.com/sariel-sakura/p/13402414.html