在本文中,我们研究如何从视觉数据和新的audiodata模态(即声学图像)中学习用于音频分类的丰富且强大的特征表示。以前的模型从单个麦克风获取的原始信号或光谱数据中学习听觉呈现,在分类和检索方面取得了显着成果。然而,这种表示对于可变的环境声音条件并不那么强大。我们通过利用由混合视听传感器获取的新的多模式标记操作识别数据集来解决这个缺点,该混合视听传感器提供RGB视频,原始音频信号和空间化声学数据,也称为声学图像,其中视觉和声学图像在空间中对齐并且在时间。利用这些更丰富的信息,我们以师生方式培训audiodeep学习模型。特别是,我们从视觉和声学图像教师那里了解到音频网络。 Ourexperiments表明,学习的表示比使用视觉或单麦克风音频数据从模型学习中学到的特征更强大,并且具有更强的泛化能力。
translated by 谷歌翻译
我们提出了引导式缩放,这种方法利用空间接地来做出更明智的预测。它通过确保模型具有预测的“正确理由”来实现,被定义为与在训练时间做出类似正确决策的一致的原因。深度神经网络进行预测的原因/证据被定义为在像素空间中对于模型输出中的特定类条件概率的空间基础。引导缩放问题用于进行预测的证据是多么合理。在最先进的深单标签分类模型中,top-k(k = 2,3,4,...)精度通常显着高于top-1精度。这是更明显的细粒度数据集,其中类之间的差异非常微妙。通过引导式缩放,可以在三个细粒度分类数据集上细化模型的分类精度。我们还探讨了不同基础技术的互补性,通过将它们的整体与一种对抗性擦除方法进行比较,该方法迭代地揭示了下一个最具歧视性的证据。
translated by 谷歌翻译
在本文中,我们提出了一种从多模态脑磁共振图像中分割多发性硬化(MS)病变的自动化方法。我们的方法基于深度端到端2D卷积神经网络(CNN)基于福斯莱克的3D体积数据分割。所提出的CNN包括多分支下采样路径,其使得网络能够分别对来自多个模态的切片进行编码。提出了多尺度特征融合块,以在网络的不同阶段组合来自不同模态的特征图。然后,提出了多尺度特征上采样块来组合具有不同分辨率的组合特征图,以利用来自病变的形状和位置的信息。我们使用每个3D模态的正交平面方向训练和测试我们的模型,以利用所有方向的上下文信息。拟议的管道在两个不同的数据集上进行评估,包括37名MS患者的私人数据集和称为ISBI 2015纵向MS病变分段挑战数据集的公共数据集,由14名MS患者组成。考虑到ISBI挑战,在提交时,我们的方法是最佳表现解决方案之一。在私有数据集上,在ISBI挑战中使用相同的性能指标数组,与其他公开可用的工具相比,所提出的方法显示了MSlesion细分的高度改进。
translated by 谷歌翻译
异构数据模式可以为多个任务提供补充线索,通常会导致更强大的算法和更好的性能。但是,虽然可以准确地收集训练数据以包括各种感觉模式,但通常情况下并非所有这些都可用于现实生活中(测试)场景,必须部署模型。这提出了如何在训练阶段从多模态数据中提取信息的挑战,其形式可以在测试时被利用,考虑诸如噪声或缺失模态的限制。本文为在对抗性学习和特权信息框架内开发的RGB-D视觉任务提供了一个新的方法。我们考虑从深度和RGB视频学习表示的实际情况,而在测试时仅依赖于RGB数据。我们提出了一种新的方法来训练分析网络,该网络通过对抗性学习来学习提取深度信息,从而产生一种干净的方法,没有多少损失来平衡或过度参数。我们报告了NYUD数据集上的对象分类的最新结果,以及可用于此任务的最大多模数据的视频动作识别,NTU RGB + D以及西北UCLA。
translated by 谷歌翻译
不同的输入数据模式可以为多个任务提供补充线索,通常会产生更强大的算法和更好的性能。但是,虽然(训练)数据集可以精确设计以包含多种感官输入,但通常情况下并非所有模态都可以在现实生活(测试)场景中可用,其中必须部署模型。这提出了如何在训练阶段学习稳健表示平均多模态数据的挑战,同时考虑测试时间的限制,例如噪声或丢失模态。本文提出了一种新的多模态视频动作识别方法,该方法是在蒸馏和特权信息的统一框架内开发的,称为广义蒸馏。特别是,我们考虑从深度和RGB视频学习表示的情况,而仅在测试时依赖RGBdata。我们提出了一种新的方法来训练幻觉网络,通过时空表示的乘法连接,利用软标签和硬标签以及特征图之间的距离来学习提取深度特征。我们报告了关于此任务可用的最大多模数据NTU RGB + D的视频动作分类的最新结果。
translated by 谷歌翻译
We are concerned with learning models that generalize well to different\emph{unseen} domains. We consider a worst-case formulation over datadistributions that are near the source domain in the feature space. Only usingtraining data from a single source distribution, we propose an iterativeprocedure that augments the dataset with examples from a fictitious targetdomain that is "hard" under the current model. We show that our iterativescheme is an adaptive data augmentation method where we append adversarialexamples at each iteration. For softmax losses, we show that our method is adata-dependent regularization scheme that behaves differently from classicalregularizers that regularize towards zero (e.g., ridge or lasso). On digitrecognition and semantic segmentation tasks, our method learns models improveperformance across a range of a priori unknown target domains.
translated by 谷歌翻译
手动注释对象分割掩码非常耗时。交互式对象分割方法提供了一种更有效的替代方法,即人类注释器和机器分割模型协作。在本文中,我们为交互式分割做出了一些贡献:(1)系统地探索了深度交互式分割模型的设计空间,并报告了新的见解和注意事项; (2)我们使用真实的人类注释器执行大规模注释活动,为OpenImages数据集上的2.5M新实例生成掩码。我们计划发布此数据,这些数据构成了用于实例分段的最大现有数据集。此外,通过重新注释部分COCO数据集,我们证明我们可以比传统的多边形绘制工具生成实例掩模的速度快3倍。 (3)我们提出了一种自动估计生成的掩模质量的技术,该技术利用来自注释过程的间接信号。
translated by 谷歌翻译
本文描述了主成分分析(PCA)的增量实现的一些应用。该算法在线更新每个新样本的变换系数矩阵,而不需要将所有样本保存在存储器中。该算法在形式上等同于通常的批量版本,在给定样本集的意义上,在过程结束时的变换系数是相同的。在数据分析实例的帮助下,讨论了实时应用PCA的影响。特别是我们关注的是在线分析过程中PC的连续性问题。
translated by 谷歌翻译
我们提出了一个统一的框架来解决两个问题:从单个图像中进行类特定的3D重构,以及生成新的3D形状样本。这些任务最近受到了相当多的关注;然而,mostexisting方法依赖于3D监督,具有关键点或姿势的2D图像的注释,和/或具有每个对象实例的多个视图的训练。我们的框架非常笼统:它可以在现有方法的类似设置下进行培训,同时也支持较弱的监督。重要的是,它可以纯粹来自2D图像,没有姿势注释,每个实例只有一个视图。我们使用网格作为输出表示,而不是大多数先前工作中使用的体素。这允许我们在训练期间推理过度参数并利用阴影信息,而以前的2D监督方法不能。因此,我们的方法可以学习生成和重建凹对象类。我们在各种设置中评估我们的方法,表明:(i)它学会从形状和光照中解开形状; (ii)与损失相比,在损失中使用阴影改善了性能; (iii)当使用标准的单一白光时,由于利用了阴影线索,我们的模型完成了最先进的2D监督方法,无论是否有姿势监视; (iv)当使用多个彩色灯时,性能进一步提高,甚至接近最先进的3D监督方法; (v)由我们的模型捕获产生的形状光滑的表面和精细的细节比基于体素的方法更好;并且(vi)我们的方法支持凹形类,如浴缸和沙发,基于轮廓的方法无法学习。
translated by 谷歌翻译
对象类标签是在给定类词汇表中存在或不存在对象时使用标签注释图像的任务。然而,简单地询问oneyes-每个类别的问题,其成本在词汇表中是线性的,因此对于大型词汇表来说效率低下。现代方法依赖于词汇表的层次组织来减少注释时间,但是仍然很昂贵(ILSVRC中200个类的每个图像几分钟)。相反,我们提出了一个新的接口,其中类通过语音进行注释。说话快速且允许直接访问类名,无需通过列表或层次结构进行搜索。作为额外的优点,注释器可以同时说话和扫描图像以寻找对象,界面可以非常简单,并且使用它需要较少的鼠标移动。然而,一个关键的挑战是训练注释者只能说出来自给定的类词汇表的单词。我们提出了一种解决这一挑战的方法,并表明我们的方法可以在显着的速度增益下获得高质量的注释(2.3 - 14.9x紧接现有方法)。
translated by 谷歌翻译