来自清华大学、中国科学技术大学和微软亚洲研究院的研究人员找到了MIM优异性能的关键。
在过去的几年里,“掩蔽信号建模”已经成为一种常见且有效的自监督预训练任务,即去除一部分输入信号并尝试预测这些去除的信号。该任务已广泛应用于自然语言、视觉和语音等各个领域。最近,图像掩模建模(MIM)也被证明是计算机视觉中广泛使用的有监督预训练方法的有力竞争者。基于MIM的预训练模型在不同类型和复杂程度的各种视觉任务上取得了显着的效果。微调精度高。
1. MIM优异性能的关键机制是什么?
2. 公平比较一下,MIM 和有监督预训练模型在不同类型的任务(例如语义理解、几何和运动任务)中的可迁移性如何?
论文地址:https://arxiv.org/pdf/2205.13543.pdf
为了研究这些问题,论文分别从可视化和实验的角度对MIM和监督模型进行了比较。
总体而言,本研究的主要贡献包括:
1)从可视化中探索哪些关键机制有助于MIM的优异性能。发现MIM预训练会给模型带来局部归纳偏差、注意力头更大的多样性等,或许这类方法是帮助下游任务优化的关键;
2)通过实验研究了MIM和监督模型在不同类型任务中的表现,发现MIM模型在弱语义的几何和运动任务中表现良好。经过标准SimMIM 预训练的SwinV2-L 可以在姿态估计(COCO test-dev 78.9 AP、CrowdPose 78.0 AP)、深度估计(NYUv2 0.287 RMSE、KITTI 1.966 RMSE)和视频对象跟踪方面实现最先进的性能(LaSOT 70.7 SUC)性能。
研究人员希望对MIM 的更深入了解能够激发这一方向的新的、可靠的研究。
可视化
Locality vs. globality:首先,上图展示了监督模型和MIM模型在不同层的平均注意力距离。发现MIM给训练好的模型带来了局部归纳偏差,即它存在于所有层中。一些注意力头倾向于关注附近的像素。但监督模型往往关注较低层的局部像素和较深层的全局像素。对比学习模型和监督模型的性能极其相似。
注意头的多样性:上图显示了每一层不同模型的不同注意头(Attention Heads)所关注的像素是否相同。在MIM模型中,对于所有层,不同的注意力头往往会关注不同的像素,即KL散度较大。但对于监督模型来说,注意力头的多样性随着层数的加深而降低,最后三层的多样性已经很小了。比较学习模型和监督模型的性能仍然非常相似。
直观上,注意力头多样性的丧失一般会影响模型的表达能力。为了验证这一点,文章尝试在微调过程中去掉监督模型的最后几层,发现当去掉适当的层数时,下游任务的微调性能并没有下降(右图)甚至增加(左图),但是在MIM模型中没有观察到这种现象。这进一步验证了注意力头多样性的丧失会在一定程度上损害下游任务的性能。
不同层特征之间的表示差异:上图使用中心核分析(CKA)来显示模型学习到的特征在不同层之间有多么相似。在MIM模型中,不同层的特征表示具有非常高的相似性,它们的CKA值都非常大([0.9,1.0])。但对于监督模型来说,不同层学习到的特征差异很大。
此外,论文还在附录中提供了对Swin Transformer和RepLKNet的更多分析,上述对ViT的观察仍然成立。对于RepLKNet,论文发现MIM预训练可以帮助基于大卷积核的卷积网络进行优化,而无需重新参数化技术。
实验
为了了解MIM模型更适合哪种类型的任务,本文进行了大规模的实验研究,比较了MIM和监督模型在语义理解任务、几何和运动任务等三类任务中的微调性能任务。以及同时执行这两项任务的组合任务。
对于语义理解任务,文章选择了几个既具有代表性又具有多样性的图像级分类任务。对于那些类别被ImageNet千类别完全覆盖的分类数据集(例如CIFAR-10/100),有监督模型可以取得比MIM模型更好的性能。然而,对于细粒度的分类数据集(如Food、Birdsnap、iNat18等),或者具有不同输出类别的数据集(如CoG),监督模型中的表示能力很难迁移,因此MIM 模型的调优性能通常优于监督模型。
几何和运动任务需要更少的语义和更高分辨率的对象定位能力。在此类任务中,MIM 模型可以明显领先于监督模型。无需特殊设计,标准MIM 预训练的SwinV2-L 即可在姿态估计、深度估计和视频对象跟踪这三个代表性几何和运动任务中实现最先进的性能。