Skip to content Skip to footer

探索自然语言监督在视觉表示中的局限性

image-20231115222247927

在我之前的文章中,我介绍了一篇有趣的论文,“屏蔽自动编码对大规模自然语言监督没有帮助”。这项研究强调了在大型图像文本训练数据集中提高性能的挑战。

然而,需要注意的是,这不是一篇分析论文,没有被 ICLR 接受,也没有获得最先进的 (SOTA) 结果。它主要提出了一个问题:“为什么这些方法在规模上效果较差?尽管存在性能限制,但该论文提出了两个合理的问题,使其成为 CVPR 会议讨论的合适主题。

因此,是时候讨论为什么这些方法在大型数据集中表现不佳了。

了解 MAE 和 CLIP 体系结构

image-20231115222301222

掩码自动编码器 (MAE) 和对比语言图像预训练 (CLIP) 架构代表了自监督学习和多模态任务的创新MAE以其简单而强大的方法,专注于将损坏的社区令牌重建为原始像素。这个过程是学习纹理和空间细节等高频信息的关键点。这个概念并不完全清楚,别担心——只需参考下图,或随意跳过它。

相比之下,传统的自我监督学习方法,如对比学习,则以不同的方式运作。它们将表示压缩并嵌入到联合嵌入空间中,将相似的信息映射得更近,同时将不同的信息拉开距离。此策略有助于对对象进行分类和聚类,通常涉及较低频率的详细信息,例如压缩对象信息或全局信息。

image-20231115222315528

⏰ (个人意见) MAE 和 CLIP 的组合,尽管都是自监督方法,但由于它们截然不同的特征,似乎存在冲突。

我补充了两种自监督学习方法的解释。MoCo 代表了自监督学习方法,专注于压缩对象信息。另一方面,SimMIM代表掩膜图像建模(MIM)方法,关心邻域信息以重建损坏的令牌。

这种现象导致微调任务和线性探测任务具有明显的优势。对于那些有兴趣更深入地研究自监督视觉转换器的人,我建议阅读一篇简单明了的论文,该论文很好地解释了这些概念。

假设与分析

image-20231115222327968

作者假设,低效率的过程来自重建不相关的信息。这种不必要的过程可能会导致过度使用生成损失函数,特别是在实验中将其设置为 0.1 和 0.05,以减少其影响。

他们还表明,数据集多样性\起着重要作用。总结他们的发现:

1. 小型和多样化的数据集 -> 自我监督学习表现出色。

2. 更大、更多样化的数据集 - >自然语言监督表现出色

3. 小而窄的数据集 -> 推荐使用替代模型。

⏰ (个人意见) 从我的角度来看,过于多样化的数据集使从原始像素重建原始图像变得复杂。他们利用了 14 亿个图像文本对,超过了精心策划的 ImageNet-1k 数据集的多样性。此外,分类任务和NLP任务之间标签信息的差异使问题复杂化。

作者提到了 ImageNet——一个多样化但干净的数据集。这种类型的数据集对于在自监督视觉任务中恢复原始像素似乎是必不可少的。相反,自然语言监督需要更多的多样性来增强表达能力。然而,主要目标仍然是改善视觉表现,而不仅仅是增强自然语言监督。

结束语

作者得出的结论是,结合自然语言监督并没有显着提高图像相关任务的大规模性能。然而,他们表明,与其他研究人员所指出的那样,通过一个完善或干净的数据集,与IN-1k相比,多样性适中,可以实现进一步的改进。最近,零样本任务(例如图像文本检索)使用大于 IN-1k 但小于 14 亿的数据集达到了最先进的性能。