知识图(kg)嵌入是一种主流方法,用于推理不完整的kg。但是,受其固有浅层和静态体系结构的限制,它们几乎无法处理对复杂逻辑查询的不断上升,这些查询包括逻辑运算符,估算的边缘,多个源实体和未知的中间实体。在这项工作中,我们通过掩盖的预训练和微调策略介绍了知识图变压器(kgtransformer)。我们设计了一种kg三重变换方法,以使变压器能够处理kg,这是通过稀疏(MOE)稀疏激活的混合物进一步增强的。然后,我们将复杂的逻辑查询作为掩盖预测提出,并引入了两阶段掩盖的预训练策略,以提高可转移性和概括性。在两个基准上进行的广泛实验表明,KGTRANSFORMER可以始终超过基于KG的基准和九个内域和室外推理任务的高级编码。此外,KGTRANSFORMER可以通过提供解释给定答案的完整推理路径来解释性。
translated by 谷歌翻译
及时调整尝试更新预训练模型中的一些特定任务参数。它的性能与在语言理解和发电任务上的完整参数设置的微调相当。在这项工作中,我们研究了迅速调整神经文本检索器的问题。我们引入参数效率的及时调整,以调整跨内域,跨域和跨主题设置的文本检索。通过广泛的分析,我们表明该策略可以通过基于微调的检索方法来减轻两个问题 - 参数 - 信息和弱推广性。值得注意的是,它可以显着改善检索模型的零零弹性概括。通过仅更新模型参数的0.1%,及时调整策略可以帮助检索模型获得比所有参数更新的传统方法更好的概括性能。最后,为了促进回猎犬的跨主题概括性的研究,我们策划并发布了一个学术检索数据集,其中包含18K查询的87个主题,使其成为迄今为止特定于特定于主题的主题。
translated by 谷歌翻译
近年来,自我监督学习(SSL)已广泛探索。特别是,生成的SSL在自然语言处理和其他AI领域(例如BERT和GPT的广泛采用)中获得了新的成功。尽管如此,对比度学习 - 严重依赖结构数据的增强和复杂的培训策略,这是图SSL的主要方法,而迄今为止,生成SSL在图形上的进度(尤其是GAES)尚未达到潜在的潜力。正如其他领域所承诺的。在本文中,我们确定并检查对GAE的发展产生负面影响的问题,包括其重建目标,训练鲁棒性和错误指标。我们提出了一个蒙版的图形自动编码器Graphmae,该图可以减轻这些问题,以预处理生成性自我监督图。我们建议没有重建图形结构,而是提议通过掩盖策略和缩放余弦误差将重点放在特征重建上,从而使GraphMae的强大训练受益。我们在21个公共数据集上进行了大量实验,以实现三个不同的图形学习任务。结果表明,Graphmae-A简单的图形自动编码器具有仔细的设计-CAN始终在对比度和生成性最新基准相比,始终产生优于性的表现。这项研究提供了对图自动编码器的理解,并证明了在图上的生成自我监督预训练的潜力。
translated by 谷歌翻译
近年来,异构图形神经网络(HGNNS)一直在开花,但每个工作所使用的独特数据处理和评估设置会让他们的进步完全了解。在这项工作中,我们通过使用其官方代码,数据集,设置和超参数来展示12个最近的HGNN的系统再现,揭示了关于HGNN的进展的令人惊讶的结果。我们发现,由于设置不当,简单的均匀GNN,例如GCN和GAT在很大程度上低估了。具有适当输入的GAT通常可以匹配或优于各种场景的所有现有HGNN。为了促进稳健和可重复的HGNN研究,我们构建异构图形基准(HGB),由具有三个任务的11个不同数据集组成。 HGB标准化异构图数据分割,特征处理和性能评估的过程。最后,我们介绍了一个简单但非常强大的基线简单 - HGN - 这显着优于HGB上以前的所有模型 - 以加速未来HGNN的进步。
translated by 谷歌翻译
可控图像合成模型允许根据文本指令或来自示例图像的指导创建不同的图像。最近,已经显示出去噪扩散概率模型比现有方法产生更现实的图像,并且已在无条件和类条件设置中成功展示。我们探索细粒度,连续控制该模型类,并引入了一种新颖的统一框架,用于语义扩散指导,允许语言或图像指导,或两者。使用图像文本或图像匹配分数的梯度将指导注入预训练的无条件扩散模型中。我们探讨基于剪辑的文本指导,以及以统一形式的基于内容和类型的图像指导。我们的文本引导综合方法可以应用于没有相关文本注释的数据集。我们对FFHQ和LSUN数据集进行实验,并显示出细粒度的文本引导图像合成的结果,与样式或内容示例图像相关的图像的合成,以及具有文本和图像引导的示例。
translated by 谷歌翻译
对图形的对抗攻击对图形机器学习(GML)模型的鲁棒性构成了重大威胁。当然,攻击者和捍卫者之间存在一场易于升级的军备竞赛。但是,在相同和现实的条件下,双方背后的策略往往不相当。为了弥合这一差距,我们展示了Graph稳健性基准(GRB),其目的是为GML模型的对抗鲁棒性提供可扩展,统一,模块化和可重复的评估。 GRB将攻击和防御过程标准化1)开发可扩展和多样化的数据集,2)模块化攻击和防御实现,以及统一精细方案中的评估协议。通过利用GRB管道,最终用户可以专注于具有自动数据处理和实验评估的强大GML模型的开发。为了支持对图形对抗性学习的开放和可重复研究,GRB还遍布不同方案的公共排行榜。作为起点,我们对基准基线技术进行了广泛的实验。 GRB是开放的,欢迎社区的贡献。数据集,代码,排行榜可在https://cogdl.ai/grb/home获得。
translated by 谷歌翻译
基于图的异常检测已被广泛用于检测现实世界应用中的恶意活动。迄今为止,现有的解决此问题的尝试集中在二进制分类制度中的结构特征工程或学习上。在这项工作中,我们建议利用图形对比编码,并提出监督的GCCAD模型,以将异常节点与正常节点的距离与全球环境(例如所有节点的平均值)相比。为了使用稀缺标签处理场景,我们通过设计用于生成合成节点标签的图形损坏策略,进一步使GCCAD成为一个自制的框架。为了实现对比目标,我们设计了一个图形神经网络编码器,该编码器可以在消息传递过程中推断并进一步删除可疑链接,并了解输入图的全局上下文。我们在四个公共数据集上进行了广泛的实验,表明1)GCCAD显着且始终如一地超过各种高级基线,2)其自我监督版本没有微调可以通过其完全监督的版本来实现可比性的性能。
translated by 谷歌翻译
图形神经网络(GNNS)在各种现实世界应用中取得了有希望的性能。然而,最近的研究表明,GNN易受对抗性发作的影响。在本文中,我们研究了关于图表 - 图 - 图注射攻击(GIA)的最近引入的现实攻击情景。在GIA场景中,对手无法修改输入图的现有链路结构和节点属性,而是通过将逆势节点注入到它中来执行攻击。我们对GIA环境下GNN的拓扑脆弱性分析,基于该拓扑结构,我们提出了用于有效注射攻击的拓扑缺陷图注射攻击(TDGIA)。 TDGIA首先介绍了拓扑有缺陷的边缘选择策略,可以选择与注入的原始节点连接。然后,它设计平滑功能优化目标,以生成注入节点的功能。大规模数据集的广泛实验表明,TDGIA可以一致而明显优于攻击数十个防御GNN模型中的各种攻击基线。值得注意的是,来自TDGIA的目标GNNS上的性能下降比KDD-CUP 2020上的数百个提交所带来的最佳攻击解决方案所带来的损坏多于两倍。
translated by 谷歌翻译
多标签文本分类是指从标签集中分配其最相关标签的问题。通常,在现实世界应用中提供给定文件的元数据和标签的层次结构。然而,大多数现有的研究专注于仅建模文本信息,几次尝试利用元数据或层次结构,而不是它们都是。在本文中,我们通过在大型标签层次结构中正式化Metadata感知文本分类问题来弥合差距(例如,数万个标签)。为了解决这个问题,我们介绍了匹配解决方案 - 一个端到端的框架,它利用元数据和层次结构。为了合并元数据,我们预先培训了同一空间中的文本和元数据的嵌入,并且还利用完全连接的关注来捕获它们之间的相互关系。要利用标签层次结构,我们提出了不同的方法来规范其父母每个子标签的参数和输出概率。在具有大规模标签层次结构的两个大规模文本数据集上的广泛实验证明了匹配最先进的深度学习基线的有效性。
translated by 谷歌翻译
随着图形表示学习的快速出现,新的大规模数据集的构建是区分模型能力,并准确评估每种技术的优点和弱点。通过仔细分析现有的图形数据库,我们确定了3个关键组件,对于推进图形表示学习领域迄今为止,没有单图数据库提供所有这些所需的属性。我们介绍了Malnet,是有史以来的最大的公共图表数据库,代表了恶意软件功能调用图的大规模本体。 MALNET包含超过120万个图表,平均超过15k节点和35k边缘,横跨47种类型和696个系列的层次结构。与流行的Reddit-12K数据库相比,MARNET提供了105倍的图表,平均较大的图39倍,课程更多63倍。我们对Malnet进行了详细的分析,讨论了其性质和出处,以及最先进的机器学习和图形神经网络技术的评估。 MARNET的前所未有的规模和多样性提供了令人兴奋的机会,推动图形表示学习的前沿 - 使新发现和研究进入不平衡的分类,解释性和阶级硬度的影响。数据库在www.mal-net.org上公开提供。
translated by 谷歌翻译