清洁和不同标记的数据的可用性是培训复杂任务(例如视觉问答(VQA))的培训模型的主要障碍。大型视觉和语言模型的广泛工作表明,自我监督的学习对预处理多模式相互作用有效。在此技术报告中,我们专注于视觉表示。我们审查和评估自我监督的方法,以利用未标记的图像并预处理模型,然后我们对其进行了自定义VQA任务,该任务允许进行控制的评估和诊断。我们将基于能量的模型(EBM)与对比度学习(CL)进行比较。尽管EBM越来越受欢迎,但他们缺乏对下游任务的评估。我们发现,EBM和CL都可以从未标记的图像中学习表示形式,这些图像能够在很少的注释数据上训练VQA模型。在类似于CLEVR的简单设置中,我们发现CL表示还可以改善系统的概括,甚至匹配来自较大,监督,预测模型的表示的性能。但是,我们发现EBM由于不稳定性和结果差异很高而难以训练。尽管EBMS被证明对OOD检测有用,但基于监督的基于能量的训练和不确定性校准的其他结果在很大程度上是负面的。总体而言,CL当前似乎比EBM的选项更为可取。
translated by 谷歌翻译
了解通过随机梯度下降(SGD)训练的神经网络的特性是深度学习理论的核心。在这项工作中,我们采取了平均场景,并考虑通过SGD培训的双层Relu网络,以实现一个非变量正则化回归问题。我们的主要结果是SGD偏向于简单的解决方案:在收敛时,Relu网络实现输入的分段线性图,以及“结”点的数量 - 即,Relu网络估计器的切线变化的点数 - 在两个连续的训练输入之间最多三个。特别地,随着网络的神经元的数量,通过梯度流的解决方案捕获SGD动力学,并且在收敛时,重量的分布方法接近相关的自由能量的独特最小化器,其具有GIBBS形式。我们的主要技术贡献在于分析了这一最小化器产生的估计器:我们表明其第二阶段在各地消失,除了代表“结”要点的一些特定地点。我们还提供了经验证据,即我们的理论预测的不同可能发生与数据点不同的位置的结。
translated by 谷歌翻译