解决逆问题仍然是计算机视觉中的核心挑战。现有技术要么使用有关损坏的先验知识明确地构建逆映射,要么使用大量示例直接学习逆。然而,在实践中,腐败的性质可能是未知的,因此规范推理合理解决方案的问题具有挑战性。另一方面,收集任务特定的训练数据对于已知的损坏是繁琐的,对于未知的腐败是不可能的。我们提出了MimicGAN,一种无监督的技术,以生成对抗网络(GAN)的形式解决基于图像先验的一般反转问题。使用GAN之前,我们证明人们可以通过代理网络可靠地恢复解决方案确定的反问题,该代理网络在测试时学会了腐败。我们的系统在不需要监督培训的情况下连续估计出腐败和清洁图像,同时在盲图恢复方面表现优于现有基线。我们还证明了MimicGAN改进了最近基于GAN的对抗adversarialattacks的防御,并且代表了当今最强大的测试时间防御之一。
translated by 谷歌翻译
计算机断层扫描(CT)重建是从安全性到医疗保健等各种应用的基本组成部分。经典技术需要从对象的完整180 $ ^ \ circ $视图中测量投影,称为正弦图。当视角小于180°时,这在有限的角度范围内是不切实际的,这可能由于不同因素而发生,包括扫描时间的限制,扫描仪旋转的有限灵活性等。因此得到的正弦图导致现有技术产生高度神器重建的重建。在本文中,我们建议通过隐式正弦图完成来解决这个问题,这个问题包含一个包含普通签入式扫描扫描的具有挑战性的现实世界数据集。我们提出了一个由一维和二维卷积神经网络组成的系统,该系统在有限角度的正弦图上运行,直接产生重建的最佳估计。接下来,我们在这个重构上使用x射线变换来获得一个“完整的”正弦图,好像它来自一个完整的180 $ ^ \ circ $测量。我们将其提供给标准分析和迭代重构技术以获得最终重建。我们展示了经过深思熟虑的实验,这种组合策略优于许多竞争基线。我们还提出了对建筑的信任度,使从业者能够衡量我们网络的预测可靠性。我们表明,这一指标是PSNR衡量的一个强有力的质量指标,同时在测试时不需要基本事实。最后,通过分割实验,我们证明了我们的重建有效地保留了对象的三维结构。
translated by 谷歌翻译
Interpretability has emerged as a crucial aspect of machine learning, aimed at providing insights into the working of complex neural networks. However , existing solutions vary vastly based on the nature of the interpretability task, with each use case requiring substantial time and effort. This paper introduces MARGIN, a simple yet general approach to address a large set of interpretability tasks ranging from identifying prototypes to explaining image predictions. MARGIN exploits ideas rooted in graph signal analysis to determine influential nodes in a graph, which are defined as those nodes that maximally describe a function defined on the graph. By carefully defining task-specific graphs and functions, we demonstrate that MARGIN outperforms existing approaches in a number of disparate interpretability challenges.
translated by 谷歌翻译
音频驱动的3D面部动画已被广泛探索,但实现逼真的,类似人类的表现仍未得到解决。这是由于缺乏可用的3D数据集,模型和标准评估指标。为了补充这一点,我们推出了一个独特的4D人脸数据集,其中大约29分钟的4D扫描以60 fps捕获,同步音频来自12个扬声器。然后,我们在我们的数据集上训练神经网络,从而影响面部运动的身份。经过学习的模型,VOCA(语音操作角色动画)将任何语音信号作为输入 - 甚至是除英语以外的语言的语音 - 并且可以实际地动画化各种各样的成人面孔。在训练期间对主题标签进行调节允许模型学习各种现实主义风格。 VOCA还提供动画控制,以在动画期间改变说话风格,依赖身份的面部形状和姿势(即头部,下颌和眼球旋转)。据我们所知,VOCA是唯一真实的3D面部动画模型,可以很容易地应用于没有重定位的看不见的主题。这使得VOCA适用于诸如游戏内视频,虚拟现实化身或任何预先不知道说话者,语音或语言的情况的任务。我们在http://voca.is.tue.mpg.de上为研究目的提供了数据集和模型。
translated by 谷歌翻译
无监督的图像到图像转换方法学习将agiven类中的图像映射到不同类中的类似图像,绘制图像的非结构化(未注册)数据集。虽然非常成功,但是当前的方法需要在训练时访问源类和目标类中的许多图像。我们认为这极大地限制了它们的使用。从人类从一小部分例子中汲取新物体的本质的能力中汲取灵感,并从那里推广,我们寻求一种几乎没有监督的图像到图像的转换算法,该算法可以在之前未指定的目标类上工作,测试时间,只有一些示例图像。我们的模型通过将对抗训练方案与新颖的网络设计相结合来实现这种少数发射能力。通过广泛的实验验证和与基准数据集上的几种基线方法的比较,我们验证了所提出的框架的有效性。代码将在https://nvlabs.github.io/FUNIT上提供。
translated by 谷歌翻译
事件相机是新颖的,生物启发的视觉传感器,其像素在局部强度变化时输出异步和独立的时间戳尖峰,称为“事件”。在延迟,高动态范围(HDR)和时间分辨率方面,事件相机提供优于传统基于帧的相机的优势。最近,事件相机仅限于在强度通道中输出事件,然而,最近的进展导致了颜色事件的发展。相机,如Color-DAVIS346。在这项工作中,我们提出并发布第一个彩色事件相机数据集(CED),包含50分钟的彩色帧和事件。 CED具有各种各样的室内和室外场景,我们希望这将有助于推动基于事件的视觉研究。我们还提供了事件相机模拟器ESIM的扩展,可以模拟颜色事件。最后,我们对三种最先进的图像重建方法进行了评估,这些方法可用于将Color-DAVIS346转换为连续时间的HDR彩色摄像机,以便对事件流进行可视化,并用于下游视觉应用。
translated by 谷歌翻译
我们表明,3D点云的去噪可以无人监督地学习,直接来自嘈杂的3D点云数据。这是通过将学习无监督图像去噪器的新思想扩展到非结构化3D点云来实现的。无监督的图像去噪器在假设像素观察是围绕清洁像素值的分布的随机实现的假设下操作,这允许对该分布的适当学习最终收敛到正确的值。遗憾的是,这种假设对于非结构化点是无效的:3D点云受到总噪声的影响,即所有坐标中的偏差,没有可靠的像素网格。因此,观察可以实现整个清晰的三维点,这使得无监督的图像去噪器无法扩展到三维点云是不切实际的。克服这一点,我们引入一个空间先验术语,即步进收敛到最独特的最近点我们的结果表明,在给出足够的训练样例时,无监督的去噪性能类似于有干净数据的监督学习 - 我们不需要任何一对嘈杂和干净的训练数据。
translated by 谷歌翻译
准确检测3D物体是计算机视觉中的一个基本问题,对自动驾驶汽车,增强/虚拟现实以及机器人技术中的多种应用产生巨大影响。在这项工作中,我们提出了基于神经网络的最先进的3D检测器和自动驾驶环境中的视觉语义分割的新颖融合。此外,我们还引入了刻度 - 旋转 - 平移分数(SRT),这是一种快速且高度参数化的评估指标,用于对象检测的比较,可将我们的参考时间加速到20%,并将训练时间缩短一半。最重要的是,我们在对象测量上应用最先进的在线多目标特征跟踪,以利用时间信息进一步提高准确性和鲁棒性。我们在KITTI上的实验表明,我们在所有相关类别中获得与最先进技术相同的结果,同时保持性能和准确性的权衡并仍然实时运行。此外,我们的模型是第一个融合视觉语义和3D对象检测的模型。
translated by 谷歌翻译
评估计算模型性能的能力是驱动算法研究的重要要求。对于诸如生成对抗网络(GAN)之类的生成模型而言,这通常特别难以模拟仅由有限的训练示例间接指定的数据流形。在图像数据的常见情况下,样本存在于高维嵌入空间中,具有很少的结构,以帮助评估样本的整体质量或下面的歧管的覆盖范围。我们提出了一种评估指标,能够通过形成真实数据和生成数据的流形的显式非参数表示来分别和可靠地测量图像生成任务中的这两个方面。我们通过提供几个说明性示例来说明我们在StyleGAN和BigGAN中的度量标准的有效性,其中现有度量标准会产生无信息或相互矛盾的结果。此外,我们分析了StyleGAN的多种设计变体,以更好地理解模型体系结构,训练方法和结果样本分布的属性之间的关系。在这个过程中,我们确定了可以改进现有技术的新变种。我们还对截断方法进行了第一次原理分析,并确定了改进的方法。最后,我们扩展我们的度量来估计单个样本的感知质量,并用它来研究潜在的空间插值。
translated by 谷歌翻译
使用语言建模主题预训练深度神经网络架构为许多自然语言处理任务带来了巨大的改进。最近提出的这种架构BERT的例子表明,尽管受过大量数据的训练,但深层语言模型仍难以理解稀有词汇。为了解决这个问题,我们采用了一种旨在明确学习稀有词语嵌入的“静音模仿”方法,以深入语言模型。为了使这成为可能,我们引入了一个令牌近似,这种方法允许我们使用AttentiveMimicking,即使基础语言模型使用基于子词的语音化,即它不会为所有单词分配嵌入。为了评估我们的方法,我们创建了一个新的数据集,用于测试语言模型在没有任何特定任务的微调的情况下捕获单词的语义属性的能力。使用这个数据集,我们表明将我们改编的AttentiveMimicking版本添加到BERT确实大大改善了它了解rarewords。
translated by 谷歌翻译