酒吧 - 希利尔的结构是正式语言理论的经典结果。它通过构造表明,无上下文语言与普通语言之间的相交本身是无上下文的。但是,其原始配方(Bar-Hillel等人,1961年)都不是其加权扩展(Nederhof和Satta,2003年)都无法使用$ \ epsilon $ -Arcs处理自动机。在此简短的说明中,我们将Bar-Hillel结构概括为即使自动机包含$ \ epsilon $ -Arcs,也可以正确计算交叉路口。我们进一步证明,我们的广义结构导致语法编码输入自动机和语法的结构,同时保留原始结构的渐近尺寸。
translated by 谷歌翻译
识别概率上下文无语法的问题有两个方面:第一个是确定语法的拓扑(语法规则),第二个是估计每个规则的概率权重。考虑到一般来说,尤其是学习无上下文语法的硬度结果,尤其是概率语法,大多数文献都集中在第二个问题上。在这项工作中,我们解决了第一个问题。我们将注意力限制在结构上明确的无上下文语法(SUWCFG)上,并为\提供了一种查询学习算法,用于\结构上明确的概率无上下文语法(SUPCFG)。我们表明,可以使用\ emph {Co-Linear多重树自动机}(CMTA)表示SUWCFG,并提供一种学习CMTA的多项式学习算法。我们表明,学到的CMTA可以转换为概率语法,从而提供了一种完整的算法,用于学习结构明确的概率上下文无语法(语法拓扑和概率权重),并使用结构化的成员资格查询和结构化的等价Queries。这项工作的摘要版本在AAAI 21上发布。
translated by 谷歌翻译
任何涉及一组随机变量的概率模型的主要用途是在其上运行推理和采样查询。经典概率模型中的推理查询是通过计算作为输入的事件的边际或条件概率的计算。当概率模型是顺序的时,涉及复杂语法的更复杂的边际推理查询可能会在计算语言学和NLP等领域中引起人们的关注。在这项工作中,我们解决了在隐藏的马尔可夫模型(HMMS)中计算无上下文语法(CFG)的可能性的问题。我们提供了一种动态算法,用于确切计算无上下文的语法类别的可能性。我们表明问题是NP-HARD,即使输入CFG的歧义性程度小于或等于2。然后我们提出了一种完全多项式随机近似方案(FPRAS)算法,以近似案例的可能性多项式结合的模棱两可的CFG。
translated by 谷歌翻译
Language modeling, a central task in natural language processing, involves estimating a probability distribution over strings. In most cases, the estimated distribution sums to 1 over all finite strings. However, in some pathological cases, probability mass can ``leak'' onto the set of infinite sequences. In order to characterize the notion of leakage more precisely, this paper offers a measure-theoretic treatment of language modeling. We prove that many popular language model families are in fact tight, meaning that they will not leak in this sense. We also generalize characterizations of tightness proposed in previous works.
translated by 谷歌翻译
Probabilistic context-free grammars have a long-term record of use as generative models in machine learning and symbolic regression. When used for symbolic regression, they generate algebraic expressions. We define the latter as equivalence classes of strings derived by grammar and address the problem of calculating the probability of deriving a given expression with a given grammar. We show that the problem is undecidable in general. We then present specific grammars for generating linear, polynomial, and rational expressions, where algorithms for calculating the probability of a given expression exist. For those grammars, we design algorithms for calculating the exact probability and efficient approximation with arbitrary precision.
translated by 谷歌翻译
存在的规则语言是一系列本体语言,已广泛用于本体介导的查询应答(OMQA)。然而,对于大多数人来说,代表OMQA的域知识的表现力,称为节目表现力,尚未得到很好的理解。在本文中,我们为几个重要存在的存在规则语言的节目表现力建立了许多新颖的特征,包括元组生成依赖性(TGDS),线性TGDS以及分离TGD。这些特征采用自然模型 - 理论性质,有时采用自动机构性质,因此有时提供了强大的工具,用于识别这些语言中OMQA的域知识的可定定性。
translated by 谷歌翻译
我们认为张力语法是基于古典(而不是直观的)线性逻辑的卷曲语法。它们可以被视为抽象分类语法ACG的表面表示,即ACG转换为派生的感觉张于语法和这种翻译是弦语言水平的同构。基本成分是张量术语,可以看作是编码和概括的证明网。使用张量术语使语法非常简单,直接几何含义变得透明。然后我们解决了在我们的环境中编码非容性行动的问题。在使用新的机构运算符丰富系统后,这使得可以将ACG和Lambek语法作为保守碎片代表,而形式主义仍然存在,因此在我们看来,相当简单和直观。
translated by 谷歌翻译
我们回答以下问题,哪些结合性查询以多种方式上的许多正和负面示例以及如何有效地构建此类示例的特征。结果,我们为一类连接的查询获得了一种新的有效的精确学习算法。我们的贡献的核心是两种新的多项式时间算法,用于在有限结构的同态晶格中构建前沿。我们还讨论了模式映射和描述逻辑概念的独特特征性和可学习性的影响。
translated by 谷歌翻译
在结构证明理论中,设计和研究大量微积分使得很难单独和作为整个系统的一部分获得有关每个规则的直觉。我们介绍了两种新颖的工具,以使用图理论和自动机理论的方法来帮助计算。第一个工具是证明树自动机(PTA):树自动机哪种语言是微积分的派生语言。第二个工具是称为证明树图(PTG)的演算的图形表示。在此定向超图中,顶点是术语(例如序列),而Hyperarcs是规则。我们探索PTA和PTG的属性以及它们如何相互关系。我们表明,我们可以将PTA分解为从微积分到传统树自动机的部分地图。我们在改进系统理论中制定了这一说法。最后,我们将框架与证明网和弦图进行比较。
translated by 谷歌翻译
将已知的原始概念重组为更大的新型组合是一种典型的人类认知能力。NLP中的大型神经模型是否在从数据中学习时获得此能力是一个悬而未决的问题。在本文中,我们从形式语言的角度看一下这个问题。我们使用确定性有限状态传感器来制作具有控制组合性的可控属性的无限数量数据集。通过对许多传感器进行随机采样,我们探讨了它们的哪些属性(状态数,字母大小,过渡次数等)有助于通过神经网络的组成关系可学习。通常,我们发现模型要么完全学习关系。关键是过渡覆盖范围,以每个过渡为400个示例设置软可学习性限制。
translated by 谷歌翻译
我们根据描述逻辑ALC和ALCI介绍并研究了本体论介导的查询的几个近似概念。我们的近似值有两种:我们可以(1)用一种以易访问的本体语言为例,例如ELI或某些TGD,以及(2)用可拖动类的一个替换数据库,例如其treewidth的数据库,由常数界定。我们确定所得近似值的计算复杂性和相对完整性。(几乎)所有这些都将数据复杂性从Conp-Complete降低到Ptime,在某些情况下甚至是固定参数可拖动和线性时间。虽然种类(1)的近似也降低了综合复杂性,但这种近似(2)往往并非如此。在某些情况下,联合复杂性甚至会增加。
translated by 谷歌翻译
我们概述了在其知识表示和声明问题解决的应用中的视角下的时间逻辑编程。这些程序是将通常规则与时间模态运算符组合的结果,如线性时间时间逻辑(LTL)。我们专注于最近的非单调形式主义的结果​​称为时间平衡逻辑(电话),该逻辑(电话)为LTL的全语法定义,但是基于平衡逻辑执行模型选择标准,答案集编程的众所周知的逻辑表征(ASP )。我们获得了稳定模型语义的适当延伸,以进行任意时间公式的一般情况。我们记得电话和单调基础的基本定义,这里的时间逻辑 - 和那里(THT),并研究无限和有限迹线之间的差异。我们还提供其他有用的结果,例如将转换成其他形式主义,如量化的平衡逻辑或二阶LTL,以及用于基于自动机计算的时间稳定模型的一些技术。在第二部分中,我们专注于实际方面,定义称为较近ASP的时间逻辑程序的句法片段,并解释如何在求解器Telingo的构建中被利用。
translated by 谷歌翻译
形状约束语言(SHACL)是通过验证图表上的某些形状来验证RDF数据的最新W3C推荐语言。先前的工作主要集中在验证问题上,并且仅针对SHACL的简化版本研究了对设计和优化目的至关重要的可满足性和遏制的标准决策问题。此外,SHACL规范不能定义递归定义的约束的语义,这导致文献中提出了几种替代性递归语义。尚未研究这些不同语义与重要决策问题之间的相互作用。在本文中,我们通过向新的一阶语言(称为SCL)的翻译提供了对SHACL的不同特征的全面研究,该语言精确地捕获了SHACL的语义。我们还提出了MSCL,这是SCL的二阶扩展,它使我们能够在单个形式的逻辑框架中定义SHACL的主要递归语义。在这种语言中,我们还提供了对过滤器约束的有效处理,这些滤镜经常在相关文献中被忽略。使用此逻辑,我们为不同的SHACL片段的可满足性和遏制决策问题提供了(联合)可决定性和复杂性结果的详细图。值得注意的是,我们证明这两个问题对于完整的语言都是不可避免的,但是即使面对递归,我们也提供了有趣的功能的可决定性组合。
translated by 谷歌翻译
在本手稿中,我们向常规语言的有限替换等同性的不可剥离性提供详细证明$ b \ {0,1 \} ^ * c $。证据是基于Leonid P. Lisovik的作品。
translated by 谷歌翻译
在概念学习,数据库查询的反向工程,生成参考表达式以及知识图中的实体比较之类的应用中,找到以标记数据项形式分开的逻辑公式,该公式分开以标记数据项形式给出的正面和负面示例。在本文中,我们研究了存在本体论的数据的分离公式的存在。对于本体语言和分离语言,我们都专注于一阶逻辑及其以下重要片段:描述逻辑$ \ Mathcal {alci} $,受保护的片段,两变量的片段和受保护的否定片段。为了分离,我们还考虑(工会)连接性查询。我们考虑了几种可分离性,这些可分离性在负面示例的治疗中有所不同,以及他们是否承认使用其他辅助符号来实现分离。我们的主要结果是(所有变体)可分离性,不同语言的分离能力的比较以及确定可分离性的计算复杂性的研究。
translated by 谷歌翻译
语法推断是计算学习理论中的一个经典问题,也是自然语言处理中更广泛影响的话题。我们将语法视为计算模型,并提出了一种新型的神经方法,以从正面和负面实例中诱导常规语法。我们的模型是完全可以解释的,其中间结果可直接解释为部分分析,并且可以在提供足够的数据时将其用于学习任意的常规语法。我们的方法始终在各种复杂性测试中获得高召回和精确得分。我们使详细的结果和代码随时可用。
translated by 谷歌翻译
我们在答案集编程(ASP)中,提供了全面的可变实例化或接地的理论基础。在ASP的建模语言的语义上构建,我们在(固定点)运营商方面介绍了接地算法的正式表征。专用良好的运营商扮演了一个主要作用,其相关模型提供了划定接地结果以及随机简化的语义指导。我们地址呈现出一种竞技级逻辑程序,该程序包含递归聚合,从而达到现有ASP建模语言的范围。这伴随着一个普通算法框架,详细说明递归聚集体的接地。给定的算法基本上对应于ASP接地器Gringo中使用的算法。
translated by 谷歌翻译
本文涉及可逆计算的分类结构。特别是,我们专注于基于忒修斯的键入的功能可逆语言。我们讨论如何加入逆钻机类别不在一般捕获模式匹配中,核心构造忒修斯用于强制执行可逆性。然后,我们得出了一个分类的结构来添加加入逆钻机类别,以捕获模式匹配。我们展示了这种结构如何为可逆模式匹配做出足够的模型。
translated by 谷歌翻译
我们首先部分发展了稳定一致性的数学概念,该概念旨在反映人类的实际一致性。然后,我们将第一和第二个g \“ ODEL不完整定理的概括为稳定为$ 1,2 $ cosististers的正式系统。我们的论点尤其是从第一原理中重新提供了原始不完整定理,使用图灵机器使用Turing Machine语言(可计算)直接构建我们的“ g \ odel句子”,特别是我们不使用对角线引理,也不使用任何元逻辑,而是在集合理论中自然化的证据。在实践中,如此稳定的正式系统可以旨在代表人类的数学输出,以便上述对G \” Odel的著名脱节的形式化,从而阻碍了智力的计算。
translated by 谷歌翻译
This paper presents a new approach for analyzing and identifying potentially useful generalized plans. It presents a new conceptual framework along with an algorithmic process for assessing termination and reachability related properties of generalized plans. The presented framework builds upon classic results on the analysis of graphs to decompose generalized plans into smaller components in a novel algorithm for conducting a hierarchical analysis for termination of arbitrary generalized plans. Theoretical analysis of the new framework establishes soundness of the presented algorithms and shows how it goes beyond existing approaches; empirical analysis illustrates the scope of this approach. Our analysis shows that this new approach can effectively identify termination for a significantly larger class of generalized plans than was possible using existing methods.
translated by 谷歌翻译