对比方法导致了最近的自我监督表示学习(SSL)的表现激增。诸如BYOL或SIMSIAM之类的最新方法据称将这些对比方法提炼为它们的本质,消除了钟声和哨子,包括负面示例,这些示例不影响下游性能。这些“非对比度”方法的工作非常出色,而无需使用负面因素,即使全球最低限度的崩溃都在淡化。我们通过经验分析了这些非对抗性方法,发现Simsiam对数据集和模型大小非常敏感。特别是,如果模型相对于数据集大小而言太小,则SIMSIAM表示会经历部分维度崩溃。我们提出了一个度量标准来测量这种崩溃的程度,并表明它可以用于预测下游任务性能,而无需任何微调或标签。我们进一步分析建筑设计选择及其对下游性能的影响。最后,我们证明,转移到持续的学习设置充当正规化器并防止崩溃,并且在Imagenet上使用Resnet-18,连续和多上述训练之间的混合物可以提高线性探针精度多达18个百分点。
translated by 谷歌翻译
我们探索一种以数据为基础的学习方法来优化神经网络。我们构建神经网络检查点的数据集,并培训有关参数的生成模型。特别是,我们的模型是一个条件扩散变压器,鉴于初始输入参数向量以及提示的丢失,误差或返回,可以预测实现所需度量的参数更新的分布。在测试时,它可以在一个更新中优化具有看不见的参数的神经网络。我们发现我们的方法成功地生成了各种损失提示的参数。此外,它可以采样多模式参数解决方案,并具有有利的缩放属性。我们将方法应用于监督和强化学习中的不同神经网络体系结构和任务。
translated by 谷歌翻译
测试时间培训通过使用自学意义的每个测试输入优化模型,可以随时适应新的测试分布。在本文中,我们将蒙版的自动编码器用于这个单样本学习问题。从经验上讲,我们的简单方法改善了许多视觉基准的概括,以进行分配变化。从理论上讲,我们根据偏见变化权衡取得的改进来表征。
translated by 谷歌翻译
在这项工作中,我们研究了生成图像模型的性能和评估如何受到其培训数据集的种族组成的影响。通过检查和控制各种培训数据集中的种族分布,我们能够观察不同培训分布对生成的图像质量和生成图像的种族分布的影响。我们的结果表明,生成的图像的种族组成成功地保留了培训数据。但是,我们观察到截断是一种用于在推断过程中生成更高质量图像的技术,加剧了数据中的种族失衡。最后,在检查图像质量与种族之间的关系时,我们发现给定种族的最高可感知的视觉质量图像来自该种族代表性很好的分布,并且注释者始终偏爱白人的生成图像,而不是黑人。
translated by 谷歌翻译
一个人如何在没有特定任务的固定或任何模型修改的情况下将预训练的视觉模型调整为新颖的下游任务?受到NLP提示的启发,本文研究了视觉提示:在测试时间和新输入图像时,给定的输入输出图像示例示例,目标是自动生成输出图像,与给定的示例一致。我们表明,将这个问题作为简单的图像插入,实际上只是填充了串联的视觉提示图像中的一个孔 - 只要已经对正确的数据训练了介入算法,就非常有效。我们在我们策划的新数据集上训练蒙面的自动编码器-88K未标记的数字来自ARXIV上的学术报纸来源。我们将视觉提示应用于这些预处理的模型,并在各种下游图像到图像任务上展示结果,包括前景分割,单个对象检测,着色,边缘检测等。
translated by 谷歌翻译
我们提出了一个视频生成模型,该模型可以准确地重现对象运动,摄像头视图的变化以及随着时间的推移而产生的新内容。现有的视频生成方法通常无法生成新内容作为时间的函数,同时保持在真实环境中预期的一致性,例如合理的动态和对象持久性。一个常见的故障情况是,由于过度依赖归纳偏见而提供时间一致性,因此内容永远不会改变,例如单个潜在代码决定整个视频的内容。在另一个极端情况下,没有长期一致性,生成的视频可能会在不同场景之间不切实际。为了解决这些限制,我们通过重新设计暂时的潜在表示并通过较长的视频培训从数据中学习长期一致性来优先考虑时间轴。为此,我们利用了两阶段的培训策略,在该策略中,我们以低分辨率和高分辨率的较短视频分别训练了较长的视频。为了评估模型的功能,我们介绍了两个新的基准数据集,并明确关注长期时间动态。
translated by 谷歌翻译
我们为场景的生成模型提出了一个无监督的中级表示。该表示是中等水平的,因为它既不是人均也不是每图像。相反,场景被建模为一系列空间,深度订购的特征“斑点”。斑点分化在特征网格上,该特征网格被生成对抗网络解码为图像。由于斑点的空间均匀性和卷积固有的局部性,我们的网络学会了将不同的斑点与场景中的不同实体相关联,并安排这些斑点以捕获场景布局。我们通过证明,尽管没有任何监督训练,但我们的方法启用了诸如场景中的物体(例如,移动,卸下和修复家具),创建可行场景(例如,可靠的,Plaausible(例如,可靠),我们的方法可以轻松地操纵对象(例如,可行的情况)来证明这种紧急行为。带抽屉在特定位置的房间),将现实世界图像解析为组成部分。在充满挑战的室内场景的多类数据集上,Blobgan在FID测量的图像质量中优于图像质量。有关视频结果和交互式演示,请参见我们的项目页面:https://www.dave.ml/blobgan
translated by 谷歌翻译
单视图重建的方法通常依赖于观点注释,剪影,缺乏背景,同一实例的多个视图,模板形状或对称性。我们通过明确利用不同对象实例的图像之间的一致性来避免所有此类监督和假设。结果,我们的方法可以从描述相同对象类别的大量未标记图像中学习。我们的主要贡献是利用跨境一致性的两种方法:(i)渐进式调理,一种培训策略,以逐步将模型从类别中逐步专业为课程学习方式进行实例; (ii)邻居重建,具有相似形状或纹理的实例之间的损失。对于我们方法的成功也至关重要的是:我们的结构化自动编码体系结构将图像分解为显式形状,纹理,姿势和背景;差异渲染的适应性公式;以及一个新的优化方案在3D和姿势学习之间交替。我们将我们的方法(独角兽)在多样化的合成造型数据集上进行比较,这是需要多种视图作为监督的方法的经典基准 - 以及标准的实数基准(Pascal3d+ Car,Cub,Cub,Cub,Cub),大多数方法都需要已知的模板和Silhouette注释。我们还展示了对更具挑战性的现实收藏集(Compcars,LSUN)的适用性,在该收藏中,剪影不可用,图像没有在物体周围裁剪。
translated by 谷歌翻译
人类的姿势告诉我们一个场景吗?我们提出了一个任务来回答这个问题:给予人类姿势作为输入,幻觉兼容兼容的场景。人类姿势语义,环境承受,对象交互捕获的微妙提示 - 提供令人惊讶的洞察力,涉及哪些场景。我们为姿势调节场景生成提供了一个大型生成的对抗性网络。我们显着缩放了培训数据的大小和复杂性,策划了在日常环境中遏制了含有超过1900万帧的大型元数据集。我们对STYLEGAN2的模型的能力增加了调整这些复杂数据,并设计一个推动我们模型的姿势调节机制,以了解姿势和场景之间的差别关系。我们利用我们的培训模型进行各种应用:有或没有人类的幻觉兼容的场景,可视化不兼容的场景并姿势,将一个人从一个生成的图像放入另一个场景,动画姿势。我们的模型在准确的人体放置(正确关键点的百分比)和图像质量(FroEchet Inception距离)方面,我们的模型产生了不同的样本和占据了姿势调节的样式2和PIX2PIX基线。
translated by 谷歌翻译
In image-to-image translation, each patch in the output should reflect the content of the corresponding patch in the input, independent of domain. We propose a straightforward method for doing so -maximizing mutual information between the two, using a framework based on contrastive learning. The method encourages two elements (corresponding patches) to map to a similar point in a learned feature space, relative to other elements (other patches) in the dataset, referred to as negatives. We explore several critical design choices for making contrastive learning effective in the image synthesis setting. Notably, we use a multilayer, patch-based approach, rather than operate on entire images. Furthermore, we draw negatives from within the input image itself, rather than from the rest of the dataset. We demonstrate that our framework enables one-sided translation in the unpaired image-to-image translation setting, while improving quality and reducing training time. In addition, our method can even be extended to the training setting where each "domain" is only a single image.
translated by 谷歌翻译