We discuss two kinds of semantics relevant to Computer Vision (CV) systems - Visual Semantics and Lexical Semantics. While visual semantics focus on how humans build concepts when using vision to perceive a target reality, lexical semantics focus on how humans build concepts of the same target reality through the use of language. The lack of coincidence between visual and lexical semantics, in turn, has a major impact on CV systems in the form of the Semantic Gap Problem (SGP). The paper, while extensively exemplifying the lack of coincidence as above, introduces a general, domain-agnostic methodology to enforce alignment between visual and lexical semantics.
translated by 谷歌翻译
随着大规模分析的越来越重视,我们面临着整合来自多个来源的数据的需求。问题在于这些数据不可能重复使用。最终结果是高成本,进一步的缺点是,所得的集成数据将再次被重复使用。Itelos是一种通用方法,旨在最大程度地减少此过程的影响。直觉是,数据将根据其受欢迎程度而受到不同的处理:重复使用的一组数据越多,将其重复使用越多,并且在重复使用中更改的数据越少,从而降低了整体数据预处理成本,而这些成本却降低了。增加向后兼容性和未来共享
translated by 谷歌翻译
科学家在寻找最佳的输入资源来解决目标预测任务的最佳输入资源方面的困难是在知识图图图上训练算法的主要障碍之一。除此之外,一个关键的挑战是确定如何操纵(和嵌入)这些数据,这些数据通常以特定的三元组(即主题,谓词,对象)的形式来启用学习过程。在本文中,我们描述了Liveschema倡议,即一个门户,该网关提供了一个服务家庭,可以轻松访问,分析,转换和利用知识图模式,其主要目标是促进这些资源在机器学习用例中的重复使用。作为该计划的早期实施,我们还推进了一个在线目录,该目录依赖于800多个资源,并提供了第一组示例服务。
translated by 谷歌翻译
通常将语义异质性理解为在目标现实的表示,由独立各方,不同数据库,模式和/或数据建模时的差异。我们认为,仅仅是必要的差异的编码不足以应对代表性异质性问题,因为也有必要编码表现出这种差异的统一基础。为此,本文从表示统一和表示多样性的共同概念方面介绍了表示异质性的概念。当两个异质表示以相同的目标现实模型,否则表示多样性时,我们就会有代表统一。反过来,本文还强调了这两个概念如何在任何表示的两层(即语言和知识)中实例化。
translated by 谷歌翻译
Sigmorphon 2022关于词素分割的共享任务挑战了将单词分解为一系列词素的系统,并涵盖了大多数类型的形态:化合物,衍生和弯曲。子任务1,单词级词素细分,涵盖了9种语言的500万个单词(捷克,英语,西班牙语,匈牙利语,法语,意大利语,俄语,拉丁语,蒙古语),并收到了7个团队的13个系统提交,最佳系统平均为97.29%F1在所有语言中得分,英语(93.84%)到拉丁语(99.38%)。子任务2,句子级的词素细分,涵盖了3种语言的18,735个句子(捷克,英语,蒙古人),从3个团队中收到10个系统提交,最好的系统优于所有三种最先进的子字体化方法(BPE(BPE),Ulm,Morfessor2)绝对30.71%。为了促进错误分析并支持任何类型的未来研究,我们发布了所有系统预测,评估脚本和所有黄金标准数据集。
translated by 谷歌翻译
通用形态(UNIMORPH)项目是一项合作的努力,可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力:一种无独立的特征架构,用于丰富的形态注释,并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进(自McCarthy等人(2020年)以来)。众多语言学家的合作努力增加了67种新语言,其中包括30种濒危语言。我们已经对提取管道进行了一些改进,以解决一些问题,例如缺少性别和马克龙信息。我们还修改了模式,使用了形态学现象所需的层次结构,例如多肢体协议和案例堆叠,同时添加了一些缺失的形态特征,以使模式更具包容性。鉴于上一个UniMorph版本,我们还通过16种语言的词素分割增强了数据库。最后,这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。
translated by 谷歌翻译
我们将我们的工作基于概念的电讯大西洋建模,作为实施识别和分类唯一功能的能力。因此,我们模拟了两种类型的概念 - 适用于物体识别的物质概念,该概念适用于对象识别利用视觉属性,适用于利用语言基础特性的物质概念分类的分类概念。本文的目标是展示对象识别可以被解释为视觉属性的分类,与主流计算机视觉中的工作不同。为此,我们提出了一种基于Ranganathan的四相面对面知识组织过程的对象识别过程,基于物质概念和分类概念的Teleosmantic区别。我们还简要介绍了正在进行的项目多媒体UKC,其目的是在我们提出的过程之后构建对象识别资源
translated by 谷歌翻译
我们在标签噪声下解决序列学习,在可以查询人类主管的应用程序中,以抢购可疑的例子。现有方法存在缺陷,因为它们只重新标记向模型看起来“可疑”的传入示例。因此,那些误标定的例子,即躲避(或不经历)这种清洁步骤最终污染训练数据和模型,没有进一步清洁的机会。我们提出辛凯,一种新的方法,通过识别相互不相容的例子对新的和过去数据进行清洁。每当它检测到可疑示例时,CINCER在训练集中识别 - 根据模型的训练集中 - 与可疑示例最大限度地不兼容,并询问注释器以重新标记或两个示例,解决这些可能的不一致。选择反例是最大不兼容的,以便用作模型的怀疑和高度影响力的解释,从而在重新标记时尽可能多地传达任何信息。 CINCER通过利用基于FISHER信息矩阵(FIM)利用影响功能的高效和强大的近似来实现这一点。我们广泛的经验评估表明,通过清洁反击示例,阐明了模型背后的原因,有助于获得基本更好的数据和模型,特别是在与我们的FIM近似配对时。
translated by 谷歌翻译
在构建新的应用程序时,我们越来越多地面对从多个来源重用和集成预先存在的知识,例如本体,模式,任何类型的数据。然而,事实上,这一事先知识几乎不可能重复使用。这种困难是高成本的原因,通过进一步的缺点,结果应用程序将再次难以重复使用。它是一个负环,这一直始终加强本身。 itelos是一种通用方法,旨在尽可能最大限度地减少这种环路的效果。 itelos基于应用程序的数据级别和架构级别的直观应独立开发,从而允许在先前知识的重用中进行最大的灵活性,但是在需要满足的整体指导下,正式化为能力查询。通过对所有要求(包括重用的要求)来实现这种直觉,作为一种先验定义目的的一部分,然后用于驱动中间开发过程,其中应用程序模式和数据连续对齐。
translated by 谷歌翻译
With the increasing use of Graph Neural Networks (GNNs) in critical real-world applications, several post hoc explanation methods have been proposed to understand their predictions. However, there has been no work in generating explanations on the fly during model training and utilizing them to improve the expressive power of the underlying GNN models. In this work, we introduce a novel explanation-directed neural message passing framework for GNNs, EXPASS (EXplainable message PASSing), which aggregates only embeddings from nodes and edges identified as important by a GNN explanation method. EXPASS can be used with any existing GNN architecture and subgraph-optimizing explainer to learn accurate graph embeddings. We theoretically show that EXPASS alleviates the oversmoothing problem in GNNs by slowing the layer wise loss of Dirichlet energy and that the embedding difference between the vanilla message passing and EXPASS framework can be upper bounded by the difference of their respective model weights. Our empirical results show that graph embeddings learned using EXPASS improve the predictive performance and alleviate the oversmoothing problems of GNNs, opening up new frontiers in graph machine learning to develop explanation-based training frameworks.
translated by 谷歌翻译