用于视觉应用的大多数最先进的深度学习方法是有区别的方法,其模拟条件分布。这种方法的成功在很大程度上取决于高质量的标记实例,这些实例并不容易获得,特别是随着候选类数量的增加。在本文中,我们研究补充学习问题。与普通标签不同,互补标签很容易获得,因为注释器需要为随机选择的候选类foreach实例提供是/否答案。我们提出了一种生成 - 判别互补学习方法,通过对条件(判别)和实例(生成)分布建模来估计普通标签。我们的方法,我们称为互补条件GAN(CCGAN),提高了预测普通标签的准确性,并且能够在弱监督的情况下生成高质量的实例。除了广泛的实证研究之外,我们还从理论上证明了我们的模型可以从互补标记的数据中检索出真正的条件分布。
translated by 谷歌翻译
近年来,由于L2-Net [1]和基于三元组的度量学习[2]等强大的深度卷积神经网络体系结构,所学习的局部描述符大大超过了手工制作者。然而,目前存在两个问题。方法,阻碍了整体表现。首先,广泛使用的边际损失对于正确的对应敏感,这在现有的本地描述学习数据集中是普遍的。其次,L2距离忽略了特征向量已被归一化为单位范数的事实。为了解决这两个问题并进一步提高性能,我们提出了一种鲁棒的角度损失,其中1)使用余弦相似性代替L2距离来比较描述符,2)依赖于鲁棒损失函数,其给予具有负相关相似性的三元组更小的惩罚。生成的描述符显示不同数据集的稳健性,达到Brown数据集的最新结果,以及在Hpatches数据集和宽基线立体数据集上展示出色的泛化能力。
translated by 谷歌翻译
无监督域映射旨在学习在没有配对(X,Y)样本的情况下将域X转换为Y(GXY:X到Y)的函数。在没有配对数据的情况下找到最优的GXY是一个不适定的问题,因此需要适当的约束来获得合理的解决方案。最重要的约束之一是循环一致性,它通过GXX逆向映射将GXY转换后的图像强制转换回输入图像。虽然循环一致性需要同时训练GXY和GYX,但最近的方法已经证明了单侧域映射(只学习GXY)可以通过保留图像之前和翻译之间的成对距离来实现。虽然循环一致性和距离保持成功地解决了解空间,但它们忽略了图像的特殊属性,即简单的几何变换不会改变图像的语义。基于这一特殊属性,我们开发了一个几何一致的对抗网络(GcGAN),它可以实现一个无监督域映射。我们的GcGAN将原始图像及其对应图像转换为预定义的几何变换作为输入,并在新域中生成具有相应几何一致性约束的两个图像。几何一致性约束消除了不合理的解决方案并产生了更可靠的解决方案。对基线的定量比较(仅GAN)和最先进的方法,包括DistanceGAN和CycleGAN,证明了我们的方法在生成逼真图像方面的优越性。
translated by 谷歌翻译
域概括旨在将从多个标记源域获得的知识应用于看不见的目标域。主要困难来自数据集偏差:训练数据和测试数据具有不同的分布,训练集包含来自不同分布的异构样本。让$ X $表示功能,$ Y $表示类标签。现有的域优化方法通过学习多个源域中具有相同边际分布$ \ mathbb {P}(h(X))$的adomain不变表示$ h(X)$来解决数据集偏差问题。在$ \ mathbb {P}(Y | X)$中编码的函数关系通常被假定为跨域稳定,因此$ \ mathbb {P}(Y | h(X))$也是不变的。但是,目前还不清楚这种假设是否适用于实际问题。在本文中,我们考虑了一般情况,其中$ \ mathbb {P}(X)$和$ \ mathbb {P}(Y | X)$可以在所有域中进行更改。我们建议学习一个特征表示,它具有域不变类条件分布$ \ mathbb {P}(h(X)| Y)$。使用条件不变表示,如果先前$ \ mathbb {P}(Y)$的类在训练和测试域中没有变化,则可以保证联合分布$ \ mathbb {P}(h(X),Y)$的不变性。对合成数据和实际数据的广泛实验证明了所提方法的有效性。
translated by 谷歌翻译
我们提出了一种基于注意力的方法,该方法将局部图像特征聚合到主题级表示以预测疾病严重性。与需要固定维度输入的经典深度学习相比,我们的方法在一组图像补丁上运行;因此它可以容纳可变长度输入图像而无需调整图像大小。该模型学习临床解释的主题水平表示,反映疾病的严重程度。我们的模型由三个相互依赖的模块组成,这些模块相互调节:(1)一个辨别网络,它从局部特征中学习固定长度的表示,并将它们映射到疾病严重程度; (2)通过关注对预测任务贡献最大的解剖学区域来提供可解释性的注意机制; (3)生成网络可以促进当地潜在特征的多样性。生成的关键是注意力量是非退化的,同时保持局部区域与疾病严重程度的相关性。我们在慢性阻塞性肺病(COPD)的大规模肺CT研究中训练我们的模式到终点。我们的模型为预测COPD严重程度的临床指标提供了最先进的性能。注意力的分布提供了肺组织与临床测量的区域相关性。
translated by 谷歌翻译
场景解析是理解场景中语义的不可或缺的组成部分。传统方法依赖于手工制作的本地特征和概率图形模型来结合本地和全局线索。最近,基于完全卷积神经网络的方法已经在场景解析中实现了新的记录。这些方法的共同重要策略是通过深度卷积神经网络产生的分层特征的聚合。然而,典型算法通常通过串联或线性组合来聚合分层卷积特征,这不能充分利用多尺度特征中的上下文信息的多样性和场景的空间不均匀性。在本文中,我们提出了专家专家场景解析网络(MoE-SPNet),它结合了专家级的专家混合层,以评估不同层次和不同空间位置的特征的重要性。此外,我们提出了一种称为自适应分层特征聚合(AHFA)机制的专家混合体的变体,它可以结合到使用跳过连接以分层融合特征的现有解析网络中。在所提出的网络中,不同级别的特征在聚合之前,根据局部结构和周围的背景信息对每个空间位置进行自适应重新加权。我们基于两种基线模型FCN-8s和DeepLab-ASPP,证明了所提方法在两个场景解析数据集上的有效性,包括PASCAL VOC 2012和SceneParse150。
translated by 谷歌翻译
Monocular depth estimation, which plays a crucial role in understanding 3Dscene geometry, is an ill-posed problem. Recent methods have gained significantimprovement by exploring image-level information and hierarchical features fromdeep convolutional neural networks (DCNNs). These methods model depthestimation as a regression problem and train the regression networks byminimizing mean squared error, which suffers from slow convergence andunsatisfactory local solutions. Besides, existing depth estimation networksemploy repeated spatial pooling operations, resulting in undesirablelow-resolution feature maps. To obtain high-resolution depth maps,skip-connections or multi-layer deconvolution networks are required, whichcomplicates network training and consumes much more computations. To eliminateor at least largely reduce these problems, we introduce a spacing-increasingdiscretization (SID) strategy to discretize depth and recast depth networklearning as an ordinal regression problem. By training the network using anordinary regression loss, our method achieves much higher accuracy and\dd{faster convergence in synch}. Furthermore, we adopt a multi-scale networkstructure which avoids unnecessary spatial pooling and captures multi-scaleinformation in parallel. The method described in this paper achieves state-of-the-art results on fourchallenging benchmarks, i.e., KITTI [17], ScanNet [9], Make3D [50], and NYUDepth v2 [42], and win the 1st prize in Robust Vision Challenge 2018. Code hasbeen made available at: https://github.com/hufu6371/DORN.
translated by 谷歌翻译
域适应中的一个基本问题是理解和利用跨域的分布变化。为此,我们首先提出具有特定潜变量的灵活的生成域适应网络(G-DAN),以捕获跨域的特征生成过程中的变化。通过明确地对变化进行建模,甚至可以使用生成过程在新域中生成数据,并使用G-DAN中潜在变量的新值。在实践中,一起生成所有特征的过程可能涉及高维潜在变量,需要在高维度上处理分布,并且难以从少数源域学习域变化。有趣的是,通过进一步利用关节分布的因果表示,我们然后将联合分布分解为单独的模块,每个模块涉及不同的低维潜变量并且可以单独学习,导致因果G-DAN(CG-DAN)。这提高了学习过程的统计和计算效率。最后,通过匹配目标域中的特征分布,我们可以恢复目标域联合分布并导出目标域的学习机。我们证明了G-DAN和CG-DAN在合成和实际数据实验中的域生成和跨域预测中的功效。
translated by 谷歌翻译
在本文中,我们研究了分类问题,在该分类问题中,我们可以获得真正标签的易获得的替代品,即互补标签,其指定了观察文件属于\ textbf {not}所属的类。让$ Y $和$ \ bar {Y} $分别成为真实和互补的标签。我们首先通过转移概率模型补充标签的注释$ P(\ bar {Y} = i | Y = j),i \ neq j \ in \ {1,\ cdots,c \} $,其中$ c $是班级数量。以前的方法隐含地假设$ P(\ bar {Y} = i | Y = j),\ foralli \ neq j $是相同的,这在实践中是不正确的,因为人类偏向于他们自己的经验。例如,如图1所示,如果注释者在为猫鼬提供补充标签时比草原犬更熟悉猴子,她更有可能使用“猴子”作为辅助标签。因此,我们认为转换概率会有所不同。在本文中,我们提出了一个框架,它使用\ textbf {偏差}互补标签为学习提供了三个主要创新:(1)没有偏见地估计转移概率。 (2)它提供了修改传统损失函数的一般方法,并扩展了标准的深度神经网络分类器,以学习有偏差的互补标签。 (3)理论上确保分类器用互补标签学习到与真实标签学习的最佳分类。几个基准数据集的综合实验验证了我们的方法对当前最先进方法的优越性。
translated by 谷歌翻译
单眼深度估计在理解3D场景几何学中起着关键作用,从根本上说是一个不适定的问题。基于深度卷积神经网络(DCNN)的现有方法已经通过学习卷积网络来估计来自单眼图像的连续深度图来研究该问题。然而,我们发现训练网络来预测高空间分辨率的连续深度图经常遭受差的局部解决方案。在本文中,我们假设在空间和深度分辨率之间实现折衷可以改善网络训练。基于这种“折衷原则”,我们提出了一种回归分类级联网络(RCCN),它包括预测低空间分辨率连续深度图的入侵分支和预测高空间分辨率离散深度图的分类分支。这两个分支形成级联结构,允许分类和回归分支彼此受益。通过利用大规模的原始训练数据集和一些数据增强策略,我们的网络在纽约大学深度V2,KITTI和Make3Dbe​​nchmarks上取得了最佳成果或最先进的成果。
translated by 谷歌翻译