我们提出了一种基于注意力的方法,该方法将局部图像特征聚合到主题级表示以预测疾病严重性。与需要固定维度输入的经典深度学习相比,我们的方法在一组图像补丁上运行;因此它可以容纳可变长度输入图像而无需调整图像大小。该模型学习临床解释的主题水平表示,反映疾病的严重程度。我们的模型由三个相互依赖的模块组成,这些模块相互调节:(1)一个辨别网络,它从局部特征中学习固定长度的表示,并将它们映射到疾病严重程度; (2)通过关注对预测任务贡献最大的解剖学区域来提供可解释性的注意机制; (3)生成网络可以促进当地潜在特征的多样性。生成的关键是注意力量是非退化的,同时保持局部区域与疾病严重程度的相关性。我们在慢性阻塞性肺病(COPD)的大规模肺CT研究中训练我们的模式到终点。我们的模型为预测COPD严重程度的临床指标提供了最先进的性能。注意力的分布提供了肺组织与临床测量的区域相关性。
translated by 谷歌翻译
用于视觉应用的大多数最先进的深度学习方法是有区别的方法,其模拟条件分布。这种方法的成功在很大程度上取决于高质量的标记实例,这些实例并不容易获得,特别是随着候选类数量的增加。在本文中,我们研究补充学习问题。与普通标签不同,互补标签很容易获得,因为注释器需要为随机选择的候选类foreach实例提供是/否答案。我们提出了一种生成 - 判别互补学习方法,通过对条件(判别)和实例(生成)分布建模来估计普通标签。我们的方法,我们称为互补条件GAN(CCGAN),提高了预测普通标签的准确性,并且能够在弱监督的情况下生成高质量的实例。除了广泛的实证研究之外,我们还从理论上证明了我们的模型可以从互补标记的数据中检索出真正的条件分布。
translated by 谷歌翻译
近年来,由于L2-Net [1]和基于三元组的度量学习[2]等强大的深度卷积神经网络体系结构,所学习的局部描述符大大超过了手工制作者。然而,目前存在两个问题。方法,阻碍了整体表现。首先,广泛使用的边际损失对于正确的对应敏感,这在现有的本地描述学习数据集中是普遍的。其次,L2距离忽略了特征向量已被归一化为单位范数的事实。为了解决这两个问题并进一步提高性能,我们提出了一种鲁棒的角度损失,其中1)使用余弦相似性代替L2距离来比较描述符,2)依赖于鲁棒损失函数,其给予具有负相关相似性的三元组更小的惩罚。生成的描述符显示不同数据集的稳健性,达到Brown数据集的最新结果,以及在Hpatches数据集和宽基线立体数据集上展示出色的泛化能力。
translated by 谷歌翻译
归一化流(NF)通过估计应用于从知识分布中抽取的样本的可逆变换来模拟一般概率密度。我们引入了一种新型NF,称为Deep DiffeomorphicNormalizing Flow(DDNF)。微分形流是一种可逆函数,其中函数及其反函数是平滑的。我们使用由时变平滑矢量场控制的非常微分方程(ODE)来构造流。我们使用神经网络参数化平滑矢量场和递归神经网络(RNN)来近似ODE的解。 RNN中的每个单元是实现一个Euler积分步骤的剩余网络。我们的流程结构实现了有效的似然评估,直接的流量反演,并且导致高度灵活的密度估计。端到端训练的DDNF通过一套密度估计和变分推理任务,采用最先进的方法获得竞争结果。最后,我们的方法带来了黎曼几何的概念,我们相信,它可以为神经密度估计开辟一个新的研究方向。
translated by 谷歌翻译
无监督域映射旨在学习在没有配对(X,Y)样本的情况下将域X转换为Y(GXY:X到Y)的函数。在没有配对数据的情况下找到最优的GXY是一个不适定的问题,因此需要适当的约束来获得合理的解决方案。最重要的约束之一是循环一致性,它通过GXX逆向映射将GXY转换后的图像强制转换回输入图像。虽然循环一致性需要同时训练GXY和GYX,但最近的方法已经证明了单侧域映射(只学习GXY)可以通过保留图像之前和翻译之间的成对距离来实现。虽然循环一致性和距离保持成功地解决了解空间,但它们忽略了图像的特殊属性,即简单的几何变换不会改变图像的语义。基于这一特殊属性,我们开发了一个几何一致的对抗网络(GcGAN),它可以实现一个无监督域映射。我们的GcGAN将原始图像及其对应图像转换为预定义的几何变换作为输入,并在新域中生成具有相应几何一致性约束的两个图像。几何一致性约束消除了不合理的解决方案并产生了更可靠的解决方案。对基线的定量比较(仅GAN)和最先进的方法,包括DistanceGAN和CycleGAN,证明了我们的方法在生成逼真图像方面的优越性。
translated by 谷歌翻译
Monocular depth estimation, which plays a crucial role in understanding 3Dscene geometry, is an ill-posed problem. Recent methods have gained significantimprovement by exploring image-level information and hierarchical features fromdeep convolutional neural networks (DCNNs). These methods model depthestimation as a regression problem and train the regression networks byminimizing mean squared error, which suffers from slow convergence andunsatisfactory local solutions. Besides, existing depth estimation networksemploy repeated spatial pooling operations, resulting in undesirablelow-resolution feature maps. To obtain high-resolution depth maps,skip-connections or multi-layer deconvolution networks are required, whichcomplicates network training and consumes much more computations. To eliminateor at least largely reduce these problems, we introduce a spacing-increasingdiscretization (SID) strategy to discretize depth and recast depth networklearning as an ordinal regression problem. By training the network using anordinary regression loss, our method achieves much higher accuracy and\dd{faster convergence in synch}. Furthermore, we adopt a multi-scale networkstructure which avoids unnecessary spatial pooling and captures multi-scaleinformation in parallel. The method described in this paper achieves state-of-the-art results on fourchallenging benchmarks, i.e., KITTI [17], ScanNet [9], Make3D [50], and NYUDepth v2 [42], and win the 1st prize in Robust Vision Challenge 2018. Code hasbeen made available at: https://github.com/hufu6371/DORN.
translated by 谷歌翻译
域适应中的一个基本问题是理解和利用跨域的分布变化。为此,我们首先提出具有特定潜变量的灵活的生成域适应网络(G-DAN),以捕获跨域的特征生成过程中的变化。通过明确地对变化进行建模,甚至可以使用生成过程在新域中生成数据,并使用G-DAN中潜在变量的新值。在实践中,一起生成所有特征的过程可能涉及高维潜在变量,需要在高维度上处理分布,并且难以从少数源域学习域变化。有趣的是,通过进一步利用关节分布的因果表示,我们然后将联合分布分解为单独的模块,每个模块涉及不同的低维潜变量并且可以单独学习,导致因果G-DAN(CG-DAN)。这提高了学习过程的统计和计算效率。最后,通过匹配目标域中的特征分布,我们可以恢复目标域联合分布并导出目标域的学习机。我们证明了G-DAN和CG-DAN在合成和实际数据实验中的域生成和跨域预测中的功效。
translated by 谷歌翻译
转移学习旨在通过从相关但不同的源域借用知识来改善目标领域的学习。为了减少源域和目标域之间的分布转移,最近的方法专注于探索跨域具有相似分布的不变表示。但是,在学习这种不变的知识时,现有方法假设源域中的标签未被污染,而在现实中,我们经常可以访问带有噪声标签的源数据。在本文中,我们首先展示标签噪声如何对各种转移学习情景中的不变表示的学习和标签转移的纠正产生不利影响。为了减少不利影响,我们提出了一种新的去噪条件不变分量(DCIC)框架,它可以证明(1)提取不变表示,给出了源域中带有噪声标记的示例和目标域中的未标记示例; (2)估计目标域中的标签分布,没有偏差。对合成数据和实际数据的实验结果验证了该方法的有效性。
translated by 谷歌翻译
神经网络很容易受到对抗性攻击 - 视觉上不易察觉的小噪声,当加到输入端时会大大改变输出。防御这些敌对攻击的最有效方法是使用对抗性训练的方法。我们分析了经过对侧训练的强大模型,以研究它们在潜层层面对抗对抗性攻击的脆弱性。我们的分析揭示了与对抗性攻击具有鲁棒性的输入层相反,这些鲁棒模型的特征层非常容易受到小幅度的对抗性扰动。利用这些信息,我们引入了一种新技术潜在对抗训练(LAT),其中包括对经过对侧训练的模型进行微调,以确保在特征层中的稳健性。我们还提出潜在攻击(LA),一种用于构建对抗性示例的新算法。 LAT导致测试精度的微小改进,并导致针对MNIST,CIFAR-10,CIFAR-100数据集显示的通用一阶对抗性PGD攻击的最新对抗精度。
translated by 谷歌翻译
虽然目前的通用游戏(GGP)系统促进了用于游戏的人工智能(AI)的有用研究,但它们通常是特定的,并且计算效率低。在本文中,我们描述了一个名为Ludii的“ludemic”通用游戏系统的初始版本,该系统具有为AI研究人员以及相关领域的游戏设计师,历史学家,教育工作者和从业者提供有效工具的潜力。 Ludiidefines游戏作为ludemes的结构,即高级,易于理解的游戏概念。我们通过概述其主要优点来建立Ludii的基础:通用性,可扩展性,可理解性和效率。实验上,Ludii优于Tiltyard GGP存储库中所有可用游戏的基于命题网络的最有效的Game DescriptionLanguage(GDL)reasoners之一。
translated by 谷歌翻译