变压器验证引起了机器学习研究和行业的越来越多的关注。它正式验证了变压器对对抗性攻击的鲁棒性,例如用同义词交换单词。但是,由于以中线为中心的计算,变压器验证的性能仍然不令人满意,这与标准神经网络有显着差异。在本文中,我们提出了信仰,这是用于GPU的变压器验证的有效框架。我们首先提出一个语义意识的计算图转换,以识别语义信息,例如变压器验证中的结合计算。我们利用此类语义信息,以在计算图级别启用有效的内核融合。其次,我们提出了一个验证专门的内核手工艺品,以有效地将变压器验证映射到现代GPU。该手工艺者利用了一组GPU硬件支持,以加速通常是内存密集型的验证专业操作。第三,我们提出了一个专家指导的自动调整,以纳入有关GPU后端的专家知识,以促进大型搜索空间探索。广泛的评估表明,Faith在最先进的框架上实现了$ 2.1 \ times $至$ 3.4 \ times $($ 2.6 \ times $)的加速。
translated by 谷歌翻译
基于激光雷达的3D对象检测,语义分割和全景分段通常在具有独特架构的专业网络中实现,这些网络很难相互适应。本文介绍了Lidarmultinet,这是一个基于激光雷达的多任务网络,该网络统一了这三个主要的激光感知任务。在其许多好处中,多任务网络可以通过在多个任务中分享权重和计算来降低总成本。但是,与独立组合的单任务模型相比,它通常表现不佳。拟议的Lidarmultinet旨在弥合多任务网络和多个单任务网络之间的性能差距。 Lidarmultinet的核心是一个强大的基于3D Voxel的编码器架构,具有全局上下文池(GCP)模块,从激光雷达框架中提取全局上下文特征。特定于任务的头部添加在网络之上,以执行三个激光雷达感知任务。只需添加新的任务特定的头部,可以在引入几乎没有额外成本的同时,就可以实现更多任务。还提出了第二阶段来完善第一阶段的分割并生成准确的全景分割结果。 Lidarmultinet在Waymo Open数据集和Nuscenes数据集上进行了广泛的测试,这首先证明了主要的激光雷达感知任务可以统一在单个强大的网络中,该网络是经过训练的端到端,并实现了最先进的性能。值得注意的是,Lidarmultinet在Waymo Open数据集3D语义分割挑战2022中达到了最高的MIOU和最佳准确性,对于测试集中的22个类中的大多数,仅使用LIDAR点作为输入。它还为Waymo 3D对象检测基准和三个Nuscenes基准测试的单个模型设置了新的最新模型。
translated by 谷歌翻译
知识图完成(KGC)最近已扩展到多个知识图(kg)结构,启动了新的研究方向,例如静态kgc,颞kgc和少数kgc。以前的作品通常设计了KGC模型与特定的图形结构紧密结合,这不可避免地会导致两个缺点:1)结构特异性KGC模型是互不兼容的; 2)现有的KGC方法不适合新兴KG。在本文中,我们提出了KG-S2S,即SEQ2SEQ生成框架,可以通过将KG事实的表示形式统一为“平坦”文本,无论其原始形式如何,可以通过将KG事实的表示来解决不同的语言图形结构。为了纠正“平面”文本的KG结构信息损失,我们进一步改善了实体和关系的输入表示,以及KG-S2中的推理算法。五个基准测试的实验表明,KG-S2S的表现优于许多竞争基线,从而创造了新的最新性能。最后,我们分析了KG-S2S在不同关系和非实体世代上的能力。
translated by 谷歌翻译
链接预测的任务旨在解决由于难以从现实世界中收集事实而引起的不完整知识的问题。基于GCN的模型由于其复杂性而广泛应用于解决链接预测问题,但基于GCN的模型在结构和培训过程中遇到了两个问题。 1)GCN层的转化方法在基于GCN的知识表示模型中变得越来越复杂; 2)由于知识图收集过程的不完整,标记为负样本中有许多未收集的真实事实。因此,本文研究了相邻节点的信息聚合系数(自我注意)的特征,并重新设计了GAT结构的自我注意力。同时,受到人类思维习惯的启发,我们在预训练的模型上设计了一种半监督的自训练方法。基准数据集FB15K-237和WN18RR上的实验结果表明,我们提出的自我发项机制和半监督的自我训练方法可以有效地提高链接预测任务的性能。例如,如果您查看FB15K-237,则建议的方法将@1的命中率提高了约30%。
translated by 谷歌翻译
当前对象检测器通常具有用于多级特征融合(MFF)的特征金字塔(FP)模块,该模块旨在减轻不同级别的特征之间的差距,并形成全面的对象表示以实现更好的检测性能。但是,它们通常需要较重的跨层次连接或迭代精炼才能获得更好的MFF结果,从而使它们在结构上变得复杂且计算效率低下。为了解决这些问题,我们提出了一种新颖有效的上下文建模机制,可以帮助现有的FPS提供更好的MFF结果,同时有效地降低计算成本。特别是,我们介绍了一种新颖的见解,即可以将综合背景分解并凝结成两种类型的表示,以提高效率。这两种表示包括本地集中的表示和全球汇总表示形式,前者着重于从附近地区提取上下文提示,而后者将整个图像场景的关键表示形式提取为全局上下文提示。通过收集凝结的环境,我们采用变压器解码器来研究它们与FP的每个局部特征之间的关系,然后相应地完善MFF结果。结果,我们获得了一个简单且轻巧的基于变压器的上下文冷凝(TCC)模块,该模块可以提高各种FPS并同时降低其计算成本。关于挑战性的可可数据集的广泛实验结果表明,TCC与四个代表性FPS兼容,并始终将其检测准确性提高到平均精度高达7.8%,并将其复杂性降低到GFLOPS上,以帮助高达20%。他们更有效地实现最先进的绩效。代码将发布。
translated by 谷歌翻译
本文介绍了我们针对CVPR2022通用事件边界字幕(GEBC)竞赛的冠军解决方案。 GEBC要求字幕模型对给定视频边界周围的瞬时状态变化具有理解,这使其比传统的视频字幕任务更具挑战性。在本文中,提出了对视频内容编码和字幕生成的改进的双流变压器:(1)我们利用三个预训练的模型从不同的粒度中提取视频功能。此外,我们利用边界的类型作为提示,以帮助模型生成字幕。 (2)我们特别设计一个称为双流变压器的模型,以学习边界字幕的区分表示。 (3)为了生成与内容相关和类似人类的标题,我们通过设计单词级合奏策略来提高描述质量。 GEBC测试拆分的有希望的结果证明了我们提出的模型的功效。
translated by 谷歌翻译
开放式综合分割(OPS)问题是一个新的研究方向,旨在对\已知类别和\未知类进行细分,即在培训集中从未注释的对象(“事物”)。 OPS的主要挑战是双重的:(1)\未知物体出现的无限可能性使得很难从有限数量的培训数据中对其进行建模。 (2)在培训时,我们仅提供“空白”类别,该类别实质上将“未知事物”和“背景”类混合在一起。我们从经验上发现,直接使用“ void”类别监督\已知类别或“背景”而不筛选的“背景”不会导致满足的OPS结果。在本文中,我们提出了一个分裂和争议计划,以制定OPS的两阶段决策过程。我们表明,通过将\已知的类别歧视器与其他类别的对象预测头正确相结合,可以显着提高OPS性能。具体而言,我们首先建议创建一个仅具有\已知类别的分类器,并让“ void”类建议从这些类别中实现较低的预测概率。然后,我们使用其他对象预测头将“未知事物”与背景区分开。为了进一步提高性能,我们介绍了从最新模型产生的“未知事物”伪标签,以及丰富训练集的启发式规则。我们广泛的实验评估表明,我们的方法显着提高了\未知的类圆形质量,比现有最佳表现最佳方法的相对改进超过30 \%。
translated by 谷歌翻译
该技术报告介绍了Waymo打开数据集3D语义分割挑战2022的第一名获胜解决方案。我们的网络称为Lidarmultinet,统一了单个框架中的3D语义细分,对象检测和泛型分割等主要激光镜感知任务。 Lidarmultinet的核心是一个强大的基于3D Voxel的编码器网络,具有新型的全局上下文池(GCP)模块,从激光雷达框架中提取全局上下文特征,以补充其本地功能。提出了一个可选的第二阶段,以完善第一阶段的分割或生成准确的全景分割结果。我们的解决方案达到了71.13的MIOU,对于Waymo 3D语义细分测试集的22个类中的大多数是最好的,它的表现优于官方排行榜上所有其他3D语义分段方法。我们首次证明,可以在可以端对端训练的单个强大网络中统一重大激光感知任务。
translated by 谷歌翻译
最近,场景文本检测是一个具有挑战性的任务。具有任意形状或大宽高比的文本通常很难检测。以前的基于分段的方法可以更准确地描述曲线文本,但遭受过分分割和文本粘附。在本文中,我们提出了基于关注的特征分解 - 改变 - 用于场景文本检测,它利用上下文信息和低级功能来增强基于分段的文本检测器的性能。在特征融合的阶段,我们引入交叉级注意模块来通过添加融合多缩放功能的注意机制来丰富文本的上下文信息。在概率图生成的阶段,提出了一种特征分解 - 重建模块来缓解大宽高比文本的过分分割问题,其根据其频率特性分解文本特征,然后通过添加低级特征来重建它。实验已经在两个公共基准数据集中进行,结果表明,我们的提出方法实现了最先进的性能。
translated by 谷歌翻译
虽然机器学习(ML)在过去十年中取得了巨大进展,但最近的研究表明,ML模型易受各种安全和隐私攻击的影响。到目前为止,这场领域的大部分攻击都专注于由分类器代表的歧视模型。同时,一点关注的是生成模型的安全性和隐私风险,例如生成的对抗性网络(GANS)。在本文中,我们提出了对GANS的第一组培训数据集财产推论攻击。具体地,对手旨在推断宏观级训练数据集属性,即用于训练目标GaN的样本的比例,用于某个属性。成功的财产推理攻击可以允许对手来获得目标GaN的训练数据集的额外知识,从而直接违反目标模型所有者的知识产权。此外,它可以用作公平审计员,以检查目标GAN是否接受偏置数据集进行培训。此外,财产推理可以用作其他高级攻击的构建块,例如隶属推断。我们提出了一般的攻击管道,可以根据两个攻击场景量身定制,包括全黑盒设置和部分黑盒设置。对于后者,我们介绍了一种新颖的优化框架来增加攻击效果。在五个房产推理任务上超过四个代表性GaN模型的广泛实验表明我们的攻击实现了强大的表现。此外,我们表明我们的攻击可用于增强隶属推断对GANS的绩效。
translated by 谷歌翻译