旨在概括在源域中训练的模型来看不见的目标域,域泛化(DG)最近引起了很多关注。 DG的关键问题是如何防止对观察到的源极域的过度接收,因为在培训期间目标域不可用。我们调查过度拟合不仅导致未经看不见的目标域的普遍推广能力,而且在测试阶段导致不稳定的预测。在本文中,我们观察到,在训练阶段采样多个任务并在测试阶段产生增强图像,很大程度上有利于泛化性能。因此,通过处理不同视图的任务和图像,我们提出了一种新颖的多视图DG框架。具体地,在训练阶段,为了提高泛化能力,我们开发了一种多视图正则化元学习算法,该算法采用多个任务在更新模型期间产生合适的优化方向。在测试阶段,为了减轻不稳定的预测,我们利用多个增强图像来产生多视图预测,这通过熔断测试图像的不同视图的结果显着促进了模型可靠性。三个基准数据集的广泛实验验证了我们的方法优于几种最先进的方法。
translated by 谷歌翻译
对于医学图像分割,想象一下,如果仅使用源域中的MR图像训练模型,它的性能如何直接在目标域中进行CT图像?这种设置,即概括的跨模块分割,拥有其临床潜力,其比其他相关设置更具挑战性,例如域适应。为实现这一目标,我们本文通过利用在我们更广泛的分割期间利用增强的源相似和源不同的图像来提出新的双标准化模块。具体而言,给定单个源域,旨在模拟未经证明的目标域中可能的外观变化,我们首先利用非线性变换来增加源相似和源不同的图像。然后,为了充分利用这两种类型的增强,我们所提出的基于双重定量的模型采用共享骨干但独立的批量归一化层,用于单独归一化。之后,我们提出了一种基于风格的选择方案来自动选择测试阶段的适当路径。在三个公开可用的数据集上进行了广泛的实验,即Brats,跨型心脏和腹部多器官数据集表明我们的方法优于其他最先进的域概括方法。
translated by 谷歌翻译
通过在多个观察到的源极域上培训模型,域概括旨在概括到无需进一步培训的任意看不见的目标领域。现有的作品主要专注于学习域不变的功能,以提高泛化能力。然而,由于在训练期间不可用目标域,因此前面的方法不可避免地遭受源极域中的过度。为了解决这个问题,我们开发了一个有效的基于辍学的框架,可以扩大模型的注意力,这可以有效地减轻过度的问题。特别地,与典型的辍学方案不同,通常在固定层上进行丢失,首先,我们随机选择一层,然后我们随机选择其通道以进行丢弃。此外,我们利用进步方案增加训练期间辍学的比率,这可以逐步提高培训模型的难度,以增强模型的稳健性。此外,为了进一步缓解过度拟合问题的影响,我们利用了在图像级和特征级别的增强方案来产生强大的基线模型。我们对多个基准数据集进行广泛的实验,该数据集显示了我们的方法可以优于最先进的方法。
translated by 谷歌翻译
域概括(DG)最近引起了人的重新识别(REID)的巨大关注。它旨在使在多个源域上培训的模型概括到未经看不见的目标域。虽然实现了有前进的进步,但现有方法通常需要要标记的源域,这可能是实际REID任务的重大负担。在本文中,我们通过假设任何源域都有任何标签可以调查Reid的无监督域泛化。为了解决这个具有挑战性的设置,我们提出了一种简单高效的域特定的自适应框架,并通过设计在批处理和实例归一化技术上的自适应归一化模块实现。在此过程中,我们成功地产生了可靠的伪标签来实现培训,并根据需要增强模型的域泛化能力。此外,我们表明,我们的框架甚至可以应用于在监督域泛化和无监督域适应的环境下改进人员Reid,展示了关于相关方法的竞争性能。对基准数据集进行了广泛的实验研究以验证所提出的框架。我们的工作的重要性在于它表明了对人Reid的无监督域概括的潜力,并为这一主题进一步研究了一个强大的基线。
translated by 谷歌翻译
少量学习,特别是几秒钟的图像分类,近年来受到了越来越多的关注,并目睹了重大进展。最近的一些研究暗示表明,许多通用技术或“诀窍”,如数据增强,预训练,知识蒸馏和自我监督,可能大大提高了几次学习方法的性能。此外,不同的作品可以采用不同的软件平台,不同的训练计划,不同的骨干架构以及甚至不同的输入图像大小,使得公平的比较困难,从业者与再现性斗争。为了解决这些情况,通过在Pytorch中的同一单个代码库中重新实施17个最新的框架,提出了几次射门学习(Libfewshot)的全面图书馆。此外,基于libfewshot,我们提供多个基准数据集的全面评估,其中包含多个骨干架构,以评估不同培训技巧的常见缺陷和效果。此外,鉴于近期对必要性或未培训机制的必要性怀疑,我们的评估结果表明,特别是当与预训练相结合时,仍然需要这种机制。我们希望我们的工作不仅可以降低初学者的障碍,可以在几次学习上工作,而且还消除了非动力技巧的影响,促进了几枪学习的内在研究。源代码可从https://github.com/rl-vig/libfewshot获取。
translated by 谷歌翻译
在本文中,我们专注于3D形式抽象和语义分析的两个任务。这与目前的方法形成对比,仅关注3D形状抽象或语义分析。此外,以前的方法难以产生实例级语义结果,其限制了它们的应用。我们提出了一种用于联合估计3D形式抽象和语义分析的新方法。我们的方法首先为3D形状产生许多3D语义候选区域;然后,我们采用这些候选者直接预测语义类别,并使用深卷积神经网络同时细化候选地区的参数。最后,我们设计一种融合预测结果并获得最终语义抽象的算法,该抽象被显示为对标准非最大抑制的改进。实验结果表明,我们的方法可以产生最先进的结果。此外,我们还发现我们的结果可以很容易地应用于实例级语义部分割和形状匹配。
translated by 谷歌翻译
我们开发了从运动管道的结构中恢复损坏的keypoint匹配的新统计信息。统计信息基于Keypoint匹配图的群集结构中出现的一致性约束。统计数据旨在为损坏的匹配和未损坏的匹配提供较小的值。这些新统计数据与迭代重新重量方案相结合以过滤关键点,然后可以将其从运动管道馈送到任何标准结构中。可以有效地实现该滤波方法并将其缩放到大规模的数据集,因为它仅需要稀疏矩阵乘法。我们展示了这种方法对来自运动数据集的合成和实际结构的功效,并表明它在这些任务中实现了最先进的准确性和速度。
translated by 谷歌翻译
基于深度学习的计算机辅助诊断在乳腺癌检测中取得了前所未有的性能。然而,大多数方法都是计算密集型的,这阻碍了他们在现实世界应用中的更广泛传播。在这项工作中,我们提出了一种高效和轻量加权的多任务学习架构,同时分类和分段乳腺肿瘤。我们将分段任务纳入肿瘤分类网络,使骨干网络学习侧重于肿瘤区域的陈述。此外,我们提出了一种新的数值稳定的损失功能,可容易地控制癌症检测的敏感性和特异性之间的平衡。使用具有1,511个图像的乳房超声数据集来评估所提出的方法。肿瘤分类的准确性,敏感性和特异性分别为88.6%,94.1%和85.3%。我们使用虚拟移动设备验证模型,每个图像的平均推断时间为0.35秒。
translated by 谷歌翻译
最近关于机器学习和优化集成的研究的扩散。该研究流中的一个膨胀区域是预测模型嵌入式优化,其使用预先接受训练的预测模型来实现优化问题的目标函数,因此预测模型的特征成为优化问题中的决策变量。尽管该领域最近出版物飙升,但这一决策管道的一个方面已经很大程度上被忽视的是培训相关性,即确保对优化问题的解决方案应该类似于用于训练预测模型的数据。在本文中,我们提出了旨在实施培训相关性的限制,并通过集合来展示添加建议的约束显着提高所获得的溶液质量。
translated by 谷歌翻译
基于光学传感器的运动跟踪系统通常遭受问题,例如差的照明条件,遮挡,有限的覆盖,并且可以提高隐私问题。最近,已经出现了使用商业WiFi设备的基于射频(RF)的方法,这些方法提供了低成本的普遍感感知,同时保留隐私。然而,RF感测系统的输出,例如范围多普勒谱图,不能直观地代表人类运动,并且通常需要进一步处理。在本研究中,提出了基于WiFi微多普勒签名的人类骨骼运动重建的新颖框架。它提供了一种有效的解决方案,通过重建具有17个关键点的骨架模型来跟踪人类活动,这可以帮助以更易于理解的方式解释传统的RF感测输出。具体地,MDPose具有各种增量阶段来逐渐地解决一系列挑战:首先,实现去噪算法以去除可能影响特征提取的任何不需要的噪声,并增强弱多普勒签名。其次,应用卷积神经网络(CNN)-Recurrent神经网络(RNN)架构用于从清洁微多普勒签名和恢复关键点的速度信息学习时间空间依赖性。最后,采用姿势优化机制来估计骨架的初始状态并限制误差的增加。我们在各种环境中使用了许多受试者进行了全面的测试,其中许多受试者具有单个接收器雷达系统,以展示MDPOST的性能,并在所有关键点位置报告29.4mm的绝对误差,这优于最先进的RF-基于姿势估计系统。
translated by 谷歌翻译