知识图(kg)对齐 - 指识别不同kgs中同一件事的实体的任务 - 被认为是KG构造领域中最重要的操作之一。然而,现有的对齐技术通常假设输入kgs是完整的并且同性的,这是由于域,大小和稀疏性的现实世界异质性而不是真实。在这项工作中,我们解决了与代表学习对齐不完整的KG对齐的问题。我们的KG嵌入式框架利用了两个特征频道:基于传输型和基于接近的。前者通过翻译路径捕获实体之间的一致性约束,而后者通过注意引导关系感知图形神经网络捕获KG的邻域结构。两个特征频道共同学习以在输入kgs之间交换重要特征,同时强制在同一嵌入空间中强制输入kg的输出表示。此外,我们开发了缺失的链接检测器,该探测器发现并恢复培训过程中输入kgs中的缺失链接,这有助于减轻不完整性问题,从而提高学习象征的兼容性。然后将嵌入的熔合融合以生成对准结果,并且高置信匹配节点对被更新为预先调整的监控数据以逐渐改善嵌入。经验结果表明,我们的型号比SOTA更准确,而且对不同级别的不完整性较高,高达15.2 \%。我们还证明了KGS之间交换的知识有助于揭示知识图表(A.K.A.知识完成)的看不见的事实,结果比SOTA知识图形完成技术高3.5 \%。
translated by 谷歌翻译
近年来,视觉伪造达到了人类无法识别欺诈的复杂程度,这对信息安全构成了重大威胁。出现了广泛的恶意申请,例如名人的假新闻,诽谤或勒索,政治战中的政治家冒充,以及谣言的传播吸引观点。结果,已经提出了一种富有的视觉验证技术,以试图阻止这种危险的趋势。在本文中,我们使用全面的和经验方法,提供了一种基准,可以对视觉伪造和视觉取证进行深入的洞察。更具体地,我们开发一个独立的框架,整合最先进的假冒生成器和探测器,并使用各种标准来测量这些技术的性能。我们还对基准测试结果进行了详尽的分析,确定了在措施与对策之间永无止境的战争中的比较参考的方法的特征。
translated by 谷歌翻译
在本文中,我们介绍了一种新的基于GNN的知识图形嵌入模型,命名为WGE,以捕获聚焦的图形结构和关联的图形结构。特别是,鉴于知识图形,WGE构建一个无向实体的聚焦图,该图形将实体视为节点。此外,WGE还从关联的约束构造另一个无向图形,将实体和关系视为节点。然后,WGE提出了一种新的架构,即直接在这两个单个图表上使用两个vanilla GNNS,以更好地更新实体和关系的矢量表示,然后是加权得分函数来返回三重分数。实验结果表明,WGE在三个新的和具有挑战性的基准数据集Codex上获得最先进的表演,用于知识图形完成。
translated by 谷歌翻译
我们介绍了一个名为Nuge的新型嵌入式模型,旨在将实体和关系之间的共同发生整合到图形神经网络中,以改善知识图形完成(即,链接预测)。鉴于知识图形,Nuge将单个图形构建,考虑实体和关系作为单个节点。然后,Nuge基于实体和关系的共同发生来计算节点之间的边缘的权重。接下来,Nuge提出双季型图形神经网络(DualQGNN),并利用DualQGNN更新实体和关系节点的向量表示。然后采用分数函数来产生三重分数。综合实验结果表明,NOGE在三个新的和困难的基准数据集Codex上获得最先进的结果,用于知识图形完成。
translated by 谷歌翻译
包含丰富信息的元素图像和视频需要大量的数据存储和高传输成本。虽然对元素图像编码进行了很多研究,但对元素视频编码的研究非常有限。我们通过查看射线空间域中的问题而不是在常规像素域中的问题来研究元素视频编码的运动补偿。在这里,我们在射线空间运动的两个子轴上,即整数射线空间运动和分数射线空间运动,为Lenslet视频开发了一种新颖的运动补偿方案。拟议的新方案设计了光场运动补偿预测,使其可以轻松地集成到众所周知的视频编码技术中,例如HEVC。与现有方法相比,实验结果显示出显着的压缩效率,平均增益为19.63%,峰值增长率为29.1%。
translated by 谷歌翻译
尽管有启发式方法,贪婪的算法以及对数据统计变化的变化,但3D实例分割中的当前最新方法通常涉及聚类步骤。相比之下,我们提出了一种以每点预测方式起作用的全面3D点云实例分割方法。为此,它可以避免基于聚类的方法面临的挑战:在模型的不同任务之间引入依赖性。我们发现其成功的关键是为每个采样点分配一个合适的目标。我们建议使用最佳的传输方法来根据动态匹配成本最佳地将目标掩码分配给采样点。我们的方法在扫描仪和S3DIS基准测试方面取得了令人鼓舞的结果。所提出的方法消除了插入依赖性,因此比其他竞争方法代表了更简单,更灵活的3D实例分割框架,同时实现了提高的分割精度。
translated by 谷歌翻译
Context-aware decision support in the operating room can foster surgical safety and efficiency by leveraging real-time feedback from surgical workflow analysis. Most existing works recognize surgical activities at a coarse-grained level, such as phases, steps or events, leaving out fine-grained interaction details about the surgical activity; yet those are needed for more helpful AI assistance in the operating room. Recognizing surgical actions as triplets of <instrument, verb, target> combination delivers comprehensive details about the activities taking place in surgical videos. This paper presents CholecTriplet2021: an endoscopic vision challenge organized at MICCAI 2021 for the recognition of surgical action triplets in laparoscopic videos. The challenge granted private access to the large-scale CholecT50 dataset, which is annotated with action triplet information. In this paper, we present the challenge setup and assessment of the state-of-the-art deep learning methods proposed by the participants during the challenge. A total of 4 baseline methods from the challenge organizers and 19 new deep learning algorithms by competing teams are presented to recognize surgical action triplets directly from surgical videos, achieving mean average precision (mAP) ranging from 4.2% to 38.1%. This study also analyzes the significance of the results obtained by the presented approaches, performs a thorough methodological comparison between them, in-depth result analysis, and proposes a novel ensemble method for enhanced recognition. Our analysis shows that surgical workflow analysis is not yet solved, and also highlights interesting directions for future research on fine-grained surgical activity recognition which is of utmost importance for the development of AI in surgery.
translated by 谷歌翻译
我们为神经机翻译(NMT)提供了一个开源工具包。新工具包主要基于拱形变压器(Vaswani等,2017)以及下面详述的许多其他改进,以便创建一个独立的,易于使用,一致和全面的各个领域的机器翻译任务框架。它是为了支持双语和多语言翻译任务的工具,从构建各个语料库的模型开始推断新的预测或将模型打包给提供功能的JIT格式。
translated by 谷歌翻译
我们提出了一种基于动态卷积的3D点云的实例分割方法。这使其能够在推断时适应变化的功能和对象尺度。这样做避免了一些自下而上的方法的陷阱,包括对超参数调整和启发式后处理管道的依赖,以弥补物体大小的不可避免的可变性,即使在单个场景中也是如此。通过收集具有相同语义类别并为几何质心进行仔细投票的均匀点,网络的表示能力大大提高了。然后通过几个简单的卷积层解码实例,其中参数是在输入上生成的。所提出的方法是无建议的,而是利用适应每个实例的空间和语义特征的卷积过程。建立在瓶颈层上的轻重量变压器使模型可以捕获远程依赖性,并具有有限的计算开销。结果是一种简单,高效且健壮的方法,可以在各种数据集上产生强大的性能:ScannETV2,S3DIS和Partnet。基于体素和点的体系结构的一致改进意味着提出的方法的有效性。代码可在以下网址找到:https://git.io/dyco3d
translated by 谷歌翻译
As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.
translated by 谷歌翻译