图1 知识蒸馏框架
1)用于提取特征的网络骨架backbone
2)用于将特征映射到分类结果的分类器classifier
图2 自监督辅助的知识蒸馏
1)任务之间的关系密切与否很重要,如同学科间的关系一样,显然中国近代史知识对于学习量子力学几乎没有帮助,类似地,一个与分类任务相距甚远的其他任务(如风格迁移)对于原本的分类任务也几乎没有帮助,而自监督任务与分类任务使用相同的数据、相同的evaluation方式,区别仅在于数据是否有标签,所以自监督任务与分类有着非常密切的联系,也更有可能提供辅助信息;
2)自监督任务的一大优势是不需要人工标注,所以研究者可以仍然使用原本的数据集,不引入任何外部数据和标注,即可实现自监督辅助。
1) 不同知识蒸馏方法的student性能。作者在CIFAR100和ImageNet数据集上,尝试了不同的teacher-student网络架构组合,在每一个组合下,所有student模型使用相同的teacher模型作为监督,并最终以student的top-1准确率作为评价标准。结果如图3、图4、图5。
图3 CIFAR100测试集准确率,teacher和student使用相似网络结构
图4 CIFAR100测试集准确率,teacher和student使用不同网络结构
图5 ImageNet测试集准确率,teacher:ResNet34,student:ResNet18
图6 teacher-student相似度比较
图7 少样本和噪声环境下的准确率
参考文献:
[1] Guodong Xu, Ziwei Liu, Xiaoxiao Li, Chen Change Loy. Knowledge Distillation Meets Self-Supervision. In ECCV, 2020.
[2] Hinton, G., Vinyals, O., Dean, J.: Distilling the knowledge in a neural network. In: NIPS Deep Learning and Representation Learning Workshop, 2015
[3] Romero, A., Ballas, N., Kahou, S.E., Chassang, A., Gatta, C., Bengio, Y.: Fitnets: Hints for thin deep nets. arXiv preprint arXiv:1412.6550, 2014
[4] Zagoruyko, S., Komodakis, N.: Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer. In ICLR, 2017
[5] Yim, J., Joo, D., Bae, J., Kim, J.: A gift from knowledge distillation: Fast optimization, network minimization and transfer learning. In CVPR, 2017
[6] Tung, F., Mori, G.: Similarity-preserving knowledge distillation. In CVPR, 2019
[7] Park, W., Kim, D., Lu, Y., Cho, M.: Relational knowledge distillation. In CVPR, 2019
[8] Chen, T., Kornblith, S., Norouzi, M., Hinton, G.: A simple framework for contrastive learning of visual representations. arXiv preprint arXiv:2002.05709, 2020
[9] Kornblith, S., Norouzi, M., Lee, H., Hinton, G.E.: Similarity of neural network representations revisited. In ICML, 2019
END
在看,让更多人看到
联系客服