轻量模型之Distilling the Knowledge in a Neural Network

轻量模型之Distilling the Knowledge in a Neural Network

1.知识蒸馏介绍

2. 知识蒸馏思想

3.知识蒸馏方法

4.在大数据集上训练专家集成模型

作业

1：推导：推导证明利用logits优化是知识蒸馏的特殊形式

2：文字回答：在知识蒸馏中，温度T的作用是什么？

为了从教师网络中蒸馏出更多，更丰富的信息，引入温度参数T的概念，T越大，网络输出类别概率分布越“soft”,学生网络越能从教师网络中学到更丰富的knowledge。

3：文字回答：知识蒸馏的位置只能是最后输出吗？还可能在网络哪些地方进行蒸馏？

在激活层的输出也可以。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/sariel-sakura/p/13402414.html