实体对齐是将知识图(KGS)与多个源集成的重要步骤。以前的实体对齐尝试已经探索了不同的kg结构,例如基于邻域和基于路径的上下文,以学习实体嵌入物,但它们受到捕获多上下文特征的限制。此外,大多数方法直接利用嵌入相似性以确定实体对齐,而不考虑实体和关系之间的全局互动。在这项工作中,我们提出了一个明智的多上下文实体对齐(IMEA)模型来解决这些问题。特别是,我们引入变压器以灵活地捕获关系,路径和邻域背景,并根据嵌入相似度和关系/实体功能设计整体推理以估计对齐概率。从整体推理获得的对准证据通过所提出的软标签编辑进一步注入变压器,以通知嵌入学习。与现有的最先进的实体对准方法相比,若干基准数据集上的实验结果证明了IMEA模型的优越性。
translated by 谷歌翻译
生成三维城市模型迅速对许多应用是至关重要的。单眼高度估计是最有效的,及时的方式来获得大型几何信息之一。但是,现有的工作主要集中在训练和测试模型中使用的数据集不偏不倚,不与现实世界的应用以及对齐。因此,我们提出了一个新的基准数据集,研究高度估计模型的可转移性在跨数据集的设置。为此,我们首先设计和构建跨数据集上的高度估计任务迁移学习了大规模的基准数据集。这个基准测试数据集包括一个新提出的大规模合成数据集,新集真实世界的数据集,并从不同的城市四个现有的数据集。接下来,两个新的实验方案,零次和几个次跨数据集传输,设计。对于一些次跨数据集的转移,我们增强了基于窗口的变压器与拟议规模变形卷积模块来处理严重的尺度变化问题。为了改善零射门跨数据集设置深模型的普遍性,基于最大规范化变压器网被设计成分离从绝对高度的相对高度的地图。实验结果表明在传统的和跨数据集传送设置两者所提出的方法的有效性。该数据集和代码是公开的,在https://thebenchmarkh.github.io/。
translated by 谷歌翻译
最近,Vision-Language预训练的零拍图像分类已经表现出令人难以置信的成就,即该模型可以对任意类别进行分类而不看到该类别的其他注释图像。然而,目前尚不清楚如何在更广泛的视觉问题上进行零射识别,例如对象检测和语义分割。在本文中,我们通过在现成的预训练的视觉模型,即剪辑上建立零拍语义分割来定位零拍语义分割。很难因为语义分割和剪辑模型在不同的视觉粒度上执行,该语义分段处理在像素上时,而剪辑在图像上执行。为了解决处理粒度的差异,我们拒绝使用普遍的一级FCN基于FCN的框架,并倡导一个两级语义分割框架,其中第一阶段提取一个完全提取的掩模提案和第二阶段利用基于图像的剪辑模型在第一阶段生成的蒙版图像作物上执行零拍分类。我们的实验结果表明,这种简单的框架通过大型利润率超越了先前的最先进:+29.5 Hiou On Pascal VOC 2012 DataSet,+8.9 Hiou On Coco Stuff DataSet。凭借其简单性和强大的表现,我们希望本框架成为促进未来研究的基准。
translated by 谷歌翻译
最近出现的联邦学习(FL)是一个有吸引力的分布式学习框架,其中许多无线最终用户设备可以训练全局模型,数据仍然自动加载。与传统的机器学习框架相比,收集集中存储的用户数据,这为数据隐私带来了巨大的沟通负担和担忧,这种方法不仅可以保存网络带宽,还可以保护数据隐私。尽管前景有前景,但拜占庭袭击,传统分布式网络中的棘手威胁,也被发现对FL相当有效。在本文中,我们对佛罗里达州的抗议袭击进行了全面调查了捍卫拜占庭袭击的最先进战略。我们首先根据他们使用的技术为现有的防御解决方案提供分类法,然后是在整个板上的比较和讨论。然后,我们提出了一种新的拜占庭攻击方法,称为重量攻击,以击败这些防御计划,并进行实验以证明其威胁。结果表明,现有的防御解决方案虽然丰富,但仍远未完全保护FL。最后,我们表明体重攻击可能的可能对策,并突出了一些挑战和未来的研究方向,以减轻百灵鱼袭击杂志。
translated by 谷歌翻译
在我们的日常生活中,视听场景是普遍存在的。对于人类来说是常见的常见地定位不同的探测物体,但是对于在没有类别注释的情况下实现类感知的声音对象本地化的机器非常具有挑战性,即,本地化声音对象并识别其类别。为了解决这个问题,我们提出了一个两阶段的逐步学习框架,以仅使用音频和视觉之间的对应方式本地化和识别复杂的视听方案中的探测对象。首先,我们建议通过单一源案例中通过粗粒化的视听对应来确定声音区域。然后,声音区域中的视觉功能被利用为候选对象表示,以建立类别表示对象字典,用于表达视觉字符提取。我们在鸡尾酒会方案中生成类感知对象本地化映射,并使用视听对应来抑制静音区域来引用此字典。最后,我们使用类别级视听一致性作为达到细粒度音频和探测物体分布对齐的监督。关于现实和综合视频的实验表明,我们的模型在本地化和识别物体方面是优越的,以及滤除静音。我们还将学习的视听网络转移到无监督的对象检测任务中,获得合理的性能。
translated by 谷歌翻译
AI代理应该能够与人类协调以解决任务。我们考虑培训加强学习(RL)代理的问题,而不使用任何人类数据,即在零射击设置中,使其能够与人类合作。标准RL代理商通过自我播放学习。不幸的是,这些代理商只知道如何与自己合作,通常不会与人类的看不见的伙伴表现良好。如何以零射时的方式训练强大的代理的方法仍然需要研究。从最大熵RL激励,我们推出了集中的人口熵目标,以便于学习各种各样的代理商,后来用于培训坚强的代理与看不见的合作伙伴合作。所提出的方法与基线方法相比,其有效性,包括自助PPO,在流行的过度烹制的游戏环境中,包括自行式PPO,标准群体的培训(PBT)和基于轨迹分集的PBT。我们还通过真实人类进行在线实验,并进一步证明了该方法在现实世界中的功效。显示实验结果的补充视频可在https://youtu.be/xh-fkd0aake上获得。
translated by 谷歌翻译
使用DataSet的真实标签培训而不是随机标签导致更快的优化和更好的泛化。这种差异归因于自然数据集中的输入和标签之间的对齐概念。我们发现,随机或真正标签上的具有不同架构和优化器的培训神经网络在隐藏的表示和训练标签之间强制执行相同的关系,阐明为什么神经网络表示为转移如此成功。我们首先突出显示为什么对齐的特征在经典的合成转移问题中促进转移和展示,即对齐是对相似和不同意任务的正负传输的确定因素。然后我们调查各种神经网络架构,并发现(a)在各种不同的架构和优化器中出现的对齐,并且从深度(b)对准产生的更多对准对于更接近输出的层和(c)现有的性能深度CNN表现出高级别的对准。
translated by 谷歌翻译
部署在野外的机器学习系统通常在源分布上培训,但部署在不同的目标分布上。未标记的数据可以是用于缓解这些分布班次的强大的利用点,因为它通常比标记数据更具可用。然而,未标记数据的现有分配转换基准不反映现实世界应用中出现的方案的广度。在这项工作中,我们介绍了Wilds 2.0更新,该更新在分发转移的野外基准中扩展了10个数据集中的8个,以包括将在部署中逼真获得的策划未标记数据。为了保持一致性,标记的培训,验证和测试集以及评估度量与原始野外基准中的标记与评估度量完全相同。这些数据集涵盖了广泛的应用程序(从组织学到野生动物保护),任务(分类,回归和检测)和方式(照片,卫星图像,显微镜载玻片,文本,分子图)。我们系统地基准测试最先进的方法,可以利用未标记的数据,包括域不变,自我培训和自我监督方法,并表明他们在野外的成功2.0是有限的。为了方便方法开发和评估,我们提供了一个自动化数据加载的开源包,并包含本文中使用的所有模型架构和方法。代码和排行榜可在https://wilds.stanford.edu获得。
translated by 谷歌翻译
Muilti-Delicality数据在生物学中普遍存在,特别是我们进入了多OMICS时代,当我们可以测量来自不同方面(OMIC)的相同生物对象(单元)来提供更全面的洞察蜂窝系统。在处理此类多个OMICS数据时,第一步是确定不同模式之间的对应关系。换句话说,我们应该与与相同对象相对应的不同空格匹配数据。这个问题在单细胞多OMICS场景中特别具有挑战性,因为这种数据具有极高的尺寸。其次,匹配的单细胞多OMICS数据是罕见的且难以收集的。此外,由于实验环境的局限性,数据通常非常嘈杂。为了促进单细胞多OMICS研究,我们克服了上述挑战,提出了一种新颖的框架来对齐和集成单细胞RNA-SEQ数据和单细胞ATAC-SEQ数据。我们的方法可以通过在统一空间中有效地将上述数据与来自不同空间的高稀疏性和噪声从不同空间的噪声映射到低维歧管,使下游对准和直接集成。与其他最先进的方法相比,我们的方法在模拟和实际单细胞数据中执行更好。所提出的方法有助于单细胞多OMICS研究。对模拟数据集成的改进是显着的。
translated by 谷歌翻译
准确预测交通参与者的可能行为是自治车辆的基本能力。由于自主车辆需要在动态变化的环境中导航,因此它们预计无论它们在哪里以及它们遇到的驾驶环境如何,它们都会准确。因此,当在现实世界中部署自动车辆时,对看不见域的概念能力对于预测模型至关重要。在本文中,我们旨在解决车辆意图预测任务的域泛化问题,提出了基于因果序列域泛化(CTSDG)模型。我们构建用于车辆意图预测任务的结构因果模型,以学习域泛型输入驱动数据的不变表示。我们进一步将反复潜变量模型进一步集成到我们的结构因果模型中,以更好地捕获时间序列输入数据的时间潜在依赖关系。我们的方法的有效性通过现实世界的驾驶数据进行评估。我们证明,与其他最新的域泛化和行为预测方法相比,我们所提出的方法对预测精度一致地改善。
translated by 谷歌翻译