真实图像进入样式中的潜在空间是一个研究的问题。然而,由于重建和可编辑性之间的固有权衡,将现有的现实情景方法应用于现实世界的情况仍然是一个开放的挑战:可以准确代表真实图像的潜在空间区域通常遭受降级的语义控制。最近的工作提出通过微调发电机将目标图像添加到潜在空间的良好编辑区域来减轻此权衡。在有希望的同时,这种微调方案对于普遍使用而言是不切实际的,因为它需要每个新图像需要冗长的训练阶段。在这项工作中,我们将这种方法介绍到基于编码器的反演的领域。我们提出了一个HyperSTYLE,一个高度作品,用于学习调制Stylegan权重,以忠实地在潜在空间的可编辑区域中表达给定的图像。一个天真的调制方法需要培训超过30亿参数的高度工作。通过仔细的网络设计,我们将其降低到与现有的编码器一致。 Hyperstyle产生与具有编码器的近实时推理能力的优化技术相当的重建。最后,我们展示了超出了超出了反转任务的若干应用的效力,包括编辑域名域名的域外图像。
translated by 谷歌翻译
图像标题是视觉语言理解的基本任务,其中模型将文本信息标题预测到给定输入图像。在本文中,我们提出了一种解决此任务的简单方法。我们使用剪辑编码作为标题的前缀,通过采用简单的映射网络,然后微调语言模型以生成图像标题。最近提出的剪辑模型包含丰富的语义特征,这些功能培训了文本背景,使其最适合视觉语言感知。我们的关键思想与预先接受训练的语言模型(GPT2)一起,我们获得了广泛了解视觉和文本数据。因此,我们的方法只需要相当快速的培训来产生称职的标题模型。如果没有额外的注释或预训练,它有效地为大规模和多样化的数据集生成有意义的标题。令人惊讶的是,即使仅在训练映射网络时,我们的方法也很好地运行良好,而剪辑和语言模型仍然冻结,则允许较轻的培训参数较轻的架构。通过定量评估,我们展示了我们的模型在充满挑战的概念标题和Nocaps数据集上实现了最先进的方法的可比结果,而它更简单,更快,更轻。我们的代码在https://github.com/rmokady/clip_prefix_caption中提供。
translated by 谷歌翻译
我们提出了一种用于场景文本视觉问题的新型多模式架构(STVQA),命名为布局感知变压器(LatR)。 STVQA的任务需要模型以推理不同的方式。因此,我们首先调查每种方式的影响,并揭示语言模块的重要性,尤其是在丰富布局信息时。考虑到这一点,我们提出了一种客观预培训计划,只需要文本和空间线索。我们表明,尽管域间隙差距,但仍然对扫描文件进行了对扫描文件的培训方案具有某些优点。扫描的文档易于采购,文本密集并具有各种布局,帮助模型通过捆绑语言和布局信息来学习各种空间线索(例如,下面等等)。与现有方法相比,我们的方法执行无词汇解码,如图所示,概括到超出培训词汇。我们进一步证明Latr改善了对OCR错误的鲁棒性,在STVQA失败的常见原因。另外,通过利用视觉变压器,我们消除了对外部物体检测器的需求。 Latr在多个数据集上赢得最先进的STVQA方法。特别是+ 7.6%的TextVQA,ST-VQA上的10.8%,+ 4.0%在OCR-VQA(所有绝对精度数字)。
translated by 谷歌翻译
学习数据的动态系统属性提供了重要的见解,帮助我们了解此类系统并减轻不良结果。在这项工作中,我们提出了一种从数据的正式逻辑规范学习时空时间(ST)属性的框架。我们介绍SVM-STL,信号信号时间逻辑(STL)的扩展,能够指定具有呈现时变空间模式的各种动态系统的空间和时间特性。我们的框架利用机器学习技术从空间模式序列给出的系统执行中学习SVM-STL规范。我们提供了处理标记和未标记数据的方法。此外,给定的系统要求以SVM-STL规范的形式,我们提供了一种参数合成方法,以找到最大化此类规格满意度的参数。我们的学习框架和参数合成方法在反应扩散系统的示例中展示。
translated by 谷歌翻译
权重和激活的量化是减少深神经网络(DNN)训练的计算占地面积的主要方法之一。当前方法使得4位量化的前向阶段。但是,这仅构成了培训过程的三分之一。减少整个训练过程的计算占地面积需要定量神经梯度,即相对于中间神经层的输出的损耗梯度。在这项工作中,我们研究了在量化神经网络训练中具有无偏差值的重要性,以及如何维护它,以及如何。基于此,我们建议一个$ \ texit {logarithic unbiased量化} $(luq)方法,以将前向和向后阶段量化为4位,实现最先进的导致4位训练,没有开销。例如,在Imagenet的Reset50中,我们实现了1.18%的降级。我们进一步改善了这一点以降解仅在高精度微调的单一时期与差异减少方法结合后的单一时期 - 均增加与先前建议的方法相当的开销。最后,我们建议使用低精度格式的方法来避免在训练过程的三分之二期间乘法,从而减少乘法器使用的5倍。
translated by 谷歌翻译
深度估计是需要对环境的3D评估的广大应用程序的基石,例如机器人,增强现实和自主驱动来命名几个。深度估计的一个突出技术是立体声匹配,其具有多种优点:它被认为比其他深度传感技术更容易进入,可以实时产生密集的深度估计,并从近年来深度学习的进步中受益匪浅。然而,用于立体图像的深度估计的当前技术仍然遭受内置缺点。为了重建深度,立体声匹配算法首先在应用几何三角测量之前估计左图像和右图像之间的视差图。一个简单的分析表明,深度误差与对象距离相当成比例。因此,恒定的差异误差被转换为远离相机的物体的大深度误差。为了缓解这种二次关系,我们提出了一种简单但有效的方法,使用细化网络进行深度估计。我们展示了分析和经验结果表明所提出的学习程序减少了这种二次关系。我们评估了众所周知的基准和数据集的提出的细化程序,如演唱者和基提数据集,并在深度精度度量中展示了显着的改进。
translated by 谷歌翻译
异常检测方法识别偏离数据集的正常行为的样本。它通常用于训练集,其中包含来自多个标记类或单个未标记的类的普通数据。当前方法面对培训数据时争取多个类但没有标签。在这项工作中,我们首先发现自我监督的图像聚类方法学习的分类器为未标记的多级数据集上的异常检测提供了强大的基线。也许令人惊讶的是,我们发现初始化具有预先训练功能的聚类方法并不能改善其自我监督的对应物。这是由于灾难性遗忘的现象。相反,我们建议了两级方法。我们使用自我监督方法群集图像并为每个图像获取群集标签。我们使用群集标签作为“伪监督”,用于分销(OOD)方法。具体而言,我们通过群集标签对图像进行分类的任务进行预训练功能。我们提供了我们对方法的广泛分析,并展示了我们两级方法的必要性。我们评估符合最先进的自我监督和预用方法,并表现出卓越的性能。
translated by 谷歌翻译
姿态检测是一个重要的任务,支持许多下游任务,如话语解析和建模假新闻,谣言和科学否认。在本文中,我们提出了一种用于姿态检测的新颖框架。我们的框架是无人监督和域名独立的。鉴于索赔和多参与者讨论 - 我们构建了我们为每个扬声器获得拓扑嵌入的交互网络。这些扬声器嵌入式享有以下酒店:具有相同姿态的扬声器往往由类似的载体代表,而抗双向矢量代表具有相反阶段的扬声器。然后使用这些嵌入式将扬声器划分为姿态分区。我们在来自不同平台的三个不同数据集中评估我们的方法。我们的方法胜过或与监督模型相当,同时提供其输出的置信水平。此外,我们展示了结构嵌入方式如何涉及扬声器表达的价值。最后,我们讨论了框架内固有的一些限制。
translated by 谷歌翻译
Web的越来越受欢迎随后增加了对产品和服务的丰富评论。采矿这些评论对表达情绪有利于公司和消费者,因为可以根据这些信息改进质量。在本文中,我们考虑了用于基于宽方情感分析的最先进的HAABSA ++算法,该算法识别朝着审遍句子中的给定方面表达的情绪。具体而言,我们使用对抗网络训练该算法的神经网络部分,这是一种新型机器学习训练方法,其中发电机网络通过产生高度逼真的新样本来欺骗分类器网络,如这种增加的鲁棒性。该方法,截至目前从未应用于基于宽基的情感分析的古典形式,发现能够大大提高Haabsa ++的样品精度:对于Semeval 2015数据集,从81.7%增加了准确度82.5%,以及2016年半决赛的任务,准确性从84.4%增加到87.3%。
translated by 谷歌翻译
我们提出了卡通X(卡通解释),这是一种新的模型 - 不可知解释方法,朝向图像分类器定制,并基于速率 - 失真说明(RDE)框架。自然图像大致是典型的平滑信号 - 也称为卡通图像 - 并且在小波域中倾向于稀疏。CartoonX是通过要求其解释在小波域中的稀疏来利用这一点的第一种解释方法,从而提取图像的\ emph {相关的片状平滑}部分而不是相关的像素稀疏区域。我们实际证明了CartoCX由于其片断平稳性,但在解释错误分类时也特别恰当地展示了CardentX。
translated by 谷歌翻译