多模式数据通过将来自来自各个域的数据与具有非常不同的统计特性的数据集成来提供自然现象的互补信息。捕获多模式数据的模态和跨换体信息是多模式学习方法的基本能力。几何感知数据分析方法通过基于其几何底层结构隐式表示各种方式的数据来提供这些能力。此外,在许多应用中,在固有的几何结构上明确地定义数据。对非欧几里德域的深度学习方法是一个新兴的研究领域,最近在许多研究中被调查。大多数流行方法都是为单峰数据开发的。本文提出了一种多模式多缩放图小波卷积网络(M-GWCN)作为端到端网络。 M-GWCN同时通过应用多尺度图小波变换来找到模态表示,以在每个模态的图形域中提供有用的本地化属性,以及通过学习各种方式之间的相关性的学习置换的跨模式表示。 M-GWCN不限于具有相同数量的数据的均匀模式,或任何指示模式之间的对应关系的现有知识。已经在三个流行的单峰显式图形数据集和五个多模式隐式界面进行了几个半监督节点分类实验。实验结果表明,与光谱图域卷积神经网络和最先进的多模式方法相比,所提出的方法的优越性和有效性。
translated by 谷歌翻译
近年来,由于深度学习体系结构的有希望的进步,面部识别系统取得了非凡的成功。但是,当将配置图像与额叶图像的画廊匹配时,它们仍然无法实现预期的准确性。当前方法要么执行姿势归一化(即额叶化)或脱离姿势信息以进行面部识别。相反,我们提出了一种新方法,通过注意机制将姿势用作辅助信息。在本文中,我们假设使用注意机制姿势参加的信息可以指导剖面面上的上下文和独特的特征提取,从而进一步使嵌入式域中的更好表示形式学习。为了实现这一目标,首先,我们设计了一个统一的耦合曲线到额定面部识别网络。它通过特定于类的对比损失来学习从面孔到紧凑的嵌入子空间的映射。其次,我们开发了一个新颖的姿势注意力块(PAB),以专门指导从剖面面上提取姿势 - 不合稳定的特征。更具体地说,PAB旨在显式地帮助网络沿着频道和空间维度沿着频道和空间维度的重要特征,同时学习嵌入式子空间中的歧视性但构成不变的特征。为了验证我们提出的方法的有效性,我们对包括多PIE,CFP,IJBC在内的受控和野生基准进行实验,并在艺术状态下表现出优势。
translated by 谷歌翻译
当肿瘤学家估计癌症患者的生存时,他们依靠多模式数据。尽管文献中已经提出了一些多模式的深度学习方法,但大多数人都依靠拥有两个或多个独立的网络,这些网络在整个模型的稍后阶段共享知识。另一方面,肿瘤学家在分析中没有这样做,而是通过多种来源(例如医学图像和患者病史)融合大脑中的信息。这项工作提出了一种深度学习方法,可以在量化癌症和估计患者生存时模仿肿瘤学家的分析行为。我们提出了TMSS,这是一种基于端到端变压器的多模式网络,用于分割和生存预测,该网络利用了变压器的优越性,这在于其能力处理不同模态的能力。该模型经过训练并验证了从头部和颈部肿瘤分割的训练数据集上的分割和预后任务以及PET/CT图像挑战(Hecktor)中的结果预测。我们表明,所提出的预后模型显着优于最先进的方法,其一致性指数为0.763 +/- 0.14,而与独立段模型相当的骰子得分为0.772 +/- 0.030。该代码公开可用。
translated by 谷歌翻译
在本文中,我们试图在抽象嵌入空间中绘制额叶和轮廓面图像之间的连接。我们使用耦合编码器网络利用此连接将额叶/配置文件的面部图像投影到一个常见的潜在嵌入空间中。提出的模型通过最大化面部两种视图之间的相互信息来迫使嵌入空间中表示的相似性。拟议的耦合编码器从三个贡献中受益于与极端姿势差异的匹配面。首先,我们利用我们的姿势意识到的对比学习来最大程度地提高身份额叶和概况表示之间的相互信息。其次,由在过去的迭代中积累的潜在表示组成的内存缓冲区已集成到模型中,因此它可以比小批量大小相对较多的实例。第三,一种新颖的姿势感知的对抗结构域适应方法迫使模型学习从轮廓到额叶表示的不对称映射。在我们的框架中,耦合编码器学会了扩大真实面孔和冒名顶替面部分布之间的边距,这导致了相同身份的不同观点之间的高度相互信息。通过对四个基准数据集的广泛实验,评估和消融研究来研究拟议模型的有效性,并与引人入胜的最新算法进行比较。
translated by 谷歌翻译
具有数百万参数的过度参数化模型取得了巨大成功。在这项工作中,我们问:至少由于学习者的\ emph {计算}限制,对大型模型的需求至少可以部分原因吗?此外,我们问,这种情况是否加剧了\ emph {robust}学习?我们证明确实可能是这种情况。我们展示了与信息理论学习者所需的学习任务相比,计算有限的学习者需要\ emph {明显更多的模型参数。此外,我们表明,对于健壮的学习可能需要更多的模型参数。特别是,对于计算有限的学习者,我们扩展了Bubeck and Sellke [Neurips'2021]的最新结果,该结果表明,强大的模型可能需要更多的参数,并表明有限学习者可能需要更多的参数数量。然后,我们解决以下相关的问题:我们是否希望通过限制\ emph {fersversaries}来纠正强大计算界限学习的情况,以便为了获得更少的参数获得模型而在计算上进行计算?再次,我们证明这是可能的。具体而言,在Garg,Jha,Mahloujifar和Mahmoody [Alt'2020]的基础上,我们演示了一项学习任务,可以有效,强大地对计算界限的攻击者进行有效,强大的学习,同时对信息理论攻击者需要强大学习者要使用更多参数。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
在本文中,我们介绍了超模块化$ \ mf $ -Diverences,并为它们提供了三个应用程序:(i)我们在基于超模型$ \ MF $ - 基于独立随机变量的尾部引入了Sanov的上限。分歧并表明我们的广义萨诺夫(Sanov)严格改善了普通的界限,(ii)我们考虑了有损耗的压缩问题,该问题研究了给定失真和代码长度的一组可实现的速率。我们使用互助$ \ mf $ - 信息扩展了利率 - 延伸函数,并使用超模块化$ \ mf $ -Diverences在有限的区块长度方面提供了新的,严格的更好的界限,并且(iii)我们提供了连接具有有限输入/输出共同$ \ mf $的算法的概括误差和广义率延伸问题。该连接使我们能够使用速率函数的下限来限制学习算法的概括误差。我们的界限是基于对利率延伸函数的新下限,该函数(对于某些示例)严格改善了以前最著名的界限。此外,使用超模块化$ \ mf $ -Divergences来减少问题的尺寸并获得单字母界限。
translated by 谷歌翻译
对比度学习已在许多应用程序中有限的许多应用中有用。缺乏注释数据在医学图像分割中尤其有问题,因为很难让临床专家手动注释大量数据,例如心脏超声图像中的心脏结构。在本文中,我们认为对比训练是否有助于超声心动图图像中左心室的分割。此外,我们研究了对比预处理对两个众所周知的分割网络UNET和DEEPLABV3的影响。我们的结果表明,对比预处理有助于改善左心室分割的性能,尤其是当带注释的数据稀缺时。我们展示了如何以自我监督的方式训练模型时,与最先进的完全监督算法获得可比的结果,然后仅对5%的数据进行微调。我们表明,我们的解决方案优于当前在大型公共数据集(Echonet-Dynemic)上达到的骰子分数为0.9211的内容。我们还将解决方案在另一个较小的数据集(CAMUS)上的性能进行比较,以证明我们提出的解决方案的普遍性。该代码可在(https://github.com/biomedia-mbzuai/contrastive-echo)上获得。
translated by 谷歌翻译
我们研究机器学习(ML)和深度学习(DL)算法的能力,基于地下温度观察推断表面/地面交换通量。观察和助势是由代表哥伦比亚河附近的高分辨率数值模型,位于华盛顿州东南部的能源部汉福德遗址附近。随机测量误差,不同幅度的加入合成温度观察。结果表明,两个ML和DL方法可用于推断表面/地面交换通量。 DL方法,尤其是卷积神经网络,当用于用施加的平滑滤波器解释噪声温度数据时越高。然而,ML方法也表现良好,它们可以更好地识别减少数量的重要观察,这对于测量网络优化也是有用的。令人惊讶的是,M1和DL方法比向下通量更好地推断出向上的助焊剂。这与使用数值模型从温度观测推断出来的先前发现与先前的发现与先前的发现相反,并且可能表明将ML或DL推断的组合使用与数值推断相结合可以改善河流系统下方的助焊剂估计。
translated by 谷歌翻译
现在是车辆轨迹预测是自动驾驶汽车的基本支柱。行业和研究社区都通过运行公共基准来承认这一柱的需求。而最先进的方法令人印象深刻,即,他们没有越野预测,他们对基准之外的城市的概括是未知的。在这项工作中,我们表明这些方法不会概括为新场景。我们提出了一种新颖的方法,可自动生成逼真的场景,导致最先进的模型越野。我们通过对抗场景生成的镜头来框架问题。我们推广基于原子场景生成功能的简单而有效的生成模型以及物理约束。我们的实验表明,可以在制作预测方法失败的方式中修改来自当前基准的超过60 000 \%$ 60 \%。我们进一步表明(i)生成的场景是现实的,因为它们确实存在于现实世界中,并且(ii)可用于使现有型号强大30-40%。代码可在https://sattack.github.io/处获得。
translated by 谷歌翻译