解决逆问题仍然是计算机视觉中的核心挑战。现有技术要么使用有关损坏的先验知识明确地构建逆映射,要么使用大量示例直接学习逆。然而,在实践中,腐败的性质可能是未知的,因此规范推理合理解决方案的问题具有挑战性。另一方面,收集任务特定的训练数据对于已知的损坏是繁琐的,对于未知的腐败是不可能的。我们提出了MimicGAN,一种无监督的技术,以生成对抗网络(GAN)的形式解决基于图像先验的一般反转问题。使用GAN之前,我们证明人们可以通过代理网络可靠地恢复解决方案确定的反问题,该代理网络在测试时学会了腐败。我们的系统在不需要监督培训的情况下连续估计出腐败和清洁图像,同时在盲图恢复方面表现优于现有基线。我们还证明了MimicGAN改进了最近基于GAN的对抗adversarialattacks的防御,并且代表了当今最强大的测试时间防御之一。
translated by 谷歌翻译
我们提出了一种新的无监督域适应(DA)方法用于跨域视觉识别。虽然子空间方法在DA中取得了成功,但由于假设使用单个低维子空间逼近整个数据集,因此它们的性能通常是有限的。相反,我们开发了一种方法,通过收集低维子空间来有效地表示源数据集和目标数据集,然后通过在Grassmannmanifold上开发子空间空间的自然几何来对齐它们。我们使用两个广泛使用的基准测试的经验研究证明了这种方法的有效性,具有最先进的领域适应性能
translated by 谷歌翻译
现有技术的扬声器二值化系统以预训练的距离度量的形式利用来自外部数据的知识,以有效地确定相对于看不见的数据的相对说话者身份。然而,最近的重点主要集中在选择适当的特征提取器,从预先训练的$ i- $向量到通过不同序列建模体系学习(例如1D-CNN,LSTM,注意力模型)学习的表示,同时采用现成的度量标准学习方案。在本文中,我们认为,无论特征提取器如何,为了构建稳健的二值化系统,仔细设计一个metriclearning管道,即损失函数,采样策略和残差边界参数,是至关重要的。此外,我们建议采用一个细粒度验证过程,以获得度量学习管道的泛化能力的综合评估。为此,我们衡量不同语言使用者的分娩表现,以及录音中发言人数量的变化。使用实证研究,我们提供有趣的见解,了解不同设计选择的有效性并提出建议。
translated by 谷歌翻译
可以利用数据固有结构的机器学习模型具有突出的优势。特别是,由于其在多个领域的广泛应用,因此图形结构数据的深度学习解决方案激增。图形关注网络(GAT)是图表中广泛类别的特征学习模型的最新成员,它利用注意机制有效地学习半监督学习问题的连续向量表示。在本文中,我们对GAT模型进行了详细分析,并对其行为提出了有趣的见解。特别是,我们表明这些模型容易受到攻击者(流氓节点)的影响,因此我们会提出正则化策略,以提高GAT模型的鲁棒性。使用基准数据集,我们使用提出的GAT强大变体证明了半监督学习的性能改进。
translated by 谷歌翻译
无监督维度选择是寻求降低数据维度的重要问题,同时保留最有用的特征。降维度通常用于构建低维度嵌入,它们产生难以解释的特征空间。此外,在诸如传感器设计之类的应用中,需要直接在输入域中执行缩减,而不是构造变换空间。因此,维度选择(DS)旨在解决识别最高$ k $维度的组合问题,这是有效实验设计所需的,在保持可解释性的同时减少数据,以及设计更好的感知机制。在本文中,我们基于图形信号分析开发了一种新的DS方法来测量特征影响。通过分析具有蓝色噪声谱的合成图形信号,我们表明我们可以测量每个维度的重要性。通过在监督学习和图像掩蔽中的实验,我们证明了所提出的方法优于现有技术在捕获高维空间的关键特征方面的优越性,仅使用原始特征的一小部分。
translated by 谷歌翻译
理解复杂机器学习模型功能的技术正变得越来越流行,不仅要改进验证过程,还要通过探索性分析提取有关数据的新见解。虽然目前存在大量此类工具,但大多数人认为预测是点估计并使用这些估计的敏感性分析来解释模型。使用轻量概率网络可以了解如何在灵敏度分析中包含预测不确定性:(i)更强大和可推广的模型; (ii)通过不确定性分解进行模型解释的新方法。特别是,我们引入了一种新的正则化,它将预测的均值和方差都考虑在内,并证明了所得到的网络为不可见的数据提供了改进的广义化。此外,我们提出了一种新技术,通过输入域中的不确定性来解释预测不确定性,从而提供验证和解释深度学习模型的新方法。
translated by 谷歌翻译
假设计算模型足够可靠,可用于预后和患者护理,这正在改变医疗保健。特别是,深度学习在构建预测模型方面已经改变了游戏规则,并且可以在社区范围内进行数据管理工作。然而,由于种群特征和生物系统的固有变量,这些模型通常偏向于训练数据集。当在新环境中部署模型时,这可能是有限的,特别是当存在未知先验的系统域移位时。在本文中,我们通过模拟临床设置中可能发生的大量域转换来形式化这些挑战,并认为根据这些转变评估预测模型的行为是量化临床模型可靠性的有效方法。更具体地说,我们基于对\ textit {疾病景观}的分析开发了一种构建挑战的方法,并利用未监督的域适应来补偿域的变化。使用可用的MIMIC-III EHR数据集进行表型分析,我们生成了一大类场景,并评估了这些场景中深层临床模型的能力。由于源和景观之间的疾病景观发生了重大变化,我们的工作首次揭示了深度临床模型无法概括的数据体系。本研究强调需要由现实世界领域转变驱动的复杂评估机制,以建立有效的医疗保健AI解决方案。
translated by 谷歌翻译
在自动语音处理系统中,扬声器二值化是将片段与不同扬声器分开的关键前端组件。受最近语义推理中深度神经网络(DNN)成功的启发,基于三重态丢失的体系结构已成功用于此问题。然而,现有工作利用传统的i向量作为输入表示,并为度量学习构建简单的完全连接网络,因此没有充分利用DNN架构的建模能力。本文研究了直接在公制学习流程中从这些序列中学习有效表示对于说话人日记化的重要性。更具体地说,我们建议采用注意力模型以端到端的方式共同学习嵌入和主题。实验在CALLHOME会话语音库上进行。二值化结果表明,除了提供统一模型之外,与现有方法相比,所提出的方法实现了改进的性能。
translated by 谷歌翻译
计算机断层扫描(CT)重建是从安全性到医疗保健等各种应用的基本组成部分。经典技术需要从对象的完整180 $ ^ \ circ $视图中测量投影,称为正弦图。当视角小于180°时,这在有限的角度范围内是不切实际的,这可能由于不同因素而发生,包括扫描时间的限制,扫描仪旋转的有限灵活性等。因此得到的正弦图导致现有技术产生高度神器重建的重建。在本文中,我们建议通过隐式正弦图完成来解决这个问题,这个问题包含一个包含普通签入式扫描扫描的具有挑战性的现实世界数据集。我们提出了一个由一维和二维卷积神经网络组成的系统,该系统在有限角度的正弦图上运行,直接产生重建的最佳估计。接下来,我们在这个重构上使用x射线变换来获得一个“完整的”正弦图,好像它来自一个完整的180 $ ^ \ circ $测量。我们将其提供给标准分析和迭代重构技术以获得最终重建。我们展示了经过深思熟虑的实验,这种组合策略优于许多竞争基线。我们还提出了对建筑的信任度,使从业者能够衡量我们网络的预测可靠性。我们表明,这一指标是PSNR衡量的一个强有力的质量指标,同时在测试时不需要基本事实。最后,通过分割实验,我们证明了我们的重建有效地保留了对象的三维结构。
translated by 谷歌翻译
Interpretability has emerged as a crucial aspect of machine learning, aimed at providing insights into the working of complex neural networks. However , existing solutions vary vastly based on the nature of the interpretability task, with each use case requiring substantial time and effort. This paper introduces MARGIN, a simple yet general approach to address a large set of interpretability tasks ranging from identifying prototypes to explaining image predictions. MARGIN exploits ideas rooted in graph signal analysis to determine influential nodes in a graph, which are defined as those nodes that maximally describe a function defined on the graph. By carefully defining task-specific graphs and functions, we demonstrate that MARGIN outperforms existing approaches in a number of disparate interpretability challenges.
translated by 谷歌翻译