电子表格广泛用于桌面操作和演示。这些表的风格格式是演示和分析的重要属性。结果,流行的电子表格软件(例如Excel)支持基于数据依赖性规则的自动格式表。不幸的是,编写这些格式规则对于用户来说可能是具有挑战性的,因为这需要了解基础规则语言和数据逻辑。在本文中,我们提出了Cornet,这是一种神经符号系统,该系统解决了从格式化细胞的用户示例中自动学习此类格式规则的新问题。 Cornet从归纳计划的合成中汲取灵感,并根据半监督聚类和迭代决策树学习结合了符号规则,并与神经排名者一起产生条件格式的规则。为了激励和评估我们的方法,我们从超过40k真实电子​​表格的语料库中提取了表格的表格。使用这些数据,我们将短号与各种符号和神经基线进行了比较。我们的结果表明,与这些基线相比,Cornet可以在不同条件下更准确地学习规则。除了从用户示例中学习规则外,我们还提出了两个案例研究,以激发Cornet的其他用途:简化用户条件格式规则并恢复规则,即使用户可能手动格式化了其数据。
translated by 谷歌翻译
大多数低编码平台的用户,例如Excel和PowerApps,都以特定于域的公式语言编写程序来执行非平凡的任务。用户通常可以编写他们想要的大部分程序,但是引入了一些小错误,这些错误会产生破损的公式。这些错误既可以是句法和语义,也很难让低代码用户识别和修复,即使只能通过一些编辑解决。我们正式化了产生最后一英里维修问题等编辑的问题。为了解决这个问题,我们开发了Lamirage,这是一种最后一英里的维修发动机发电机,结合了符号和神经技术,以低代码公式语言进行最后一英里维修。 Lamirage采用语法和一组特定领域的约束/规则,它们共同近似目标语言,并使用它们来生成可以用该语言修复公式的维修引擎。为了应对本地化错误和对候选维修进行排名的挑战,Lamirage利用神经技术,而它依赖于符号方法来生成候选维修。这种组合使Lamirage可以找到满足提供的语法和约束的维修,然后选择最自然的修复。我们将Lamirage与400个Real Excel和PowerFX公式的最新神经和符号方法进行了比较,其中Lamirage的表现优于所有基线。我们释放这些基准,以鼓励在低代码域中进行后续工作。
translated by 谷歌翻译
归纳逻辑编程(ILP)是一种机器学习的形式。ILP的目标是诱导推广培训示例的假设(一组逻辑规则)。随着ILP转30,我们提供了对该领域的新介绍。我们介绍了必要的逻辑符号和主要学习环境;描述ILP系统的构建块;比较几个维度的几个系统;描述四个系统(Aleph,Tilde,Aspal和Metagol);突出关键应用领域;最后,总结了未来研究的当前限制和方向。
translated by 谷歌翻译
尽管在现代的机器学习算法的最新进展,其内在机制的不透明仍是采用的障碍。在人工智能系统灌输信心和信任,解释的人工智能已成为提高现代机器学习算法explainability的响应。归纳逻辑程序(ILP),符号人工智能的子场中,起着产生,因为它的直观的逻辑驱动框架的可解释的解释有希望的作用。 ILP有效利用绎推理产生从实例和背景知识解释的一阶分句理论。然而,在发展中通过ILP需要启发方法的几个挑战,在实践中他们的成功应用来解决。例如,现有的ILP系统通常拥有广阔的解空间,以及感应解决方案是对噪声和干扰非常敏感。本次调查总结在ILP的最新进展和统计关系学习和神经象征算法的讨论,其中提供给ILP协同意见。继最新进展的严格审查,我们划定观察的挑战,突出对发展不言自明的人工智能系统进一步ILP动机研究的潜在途径。
translated by 谷歌翻译
程序中的魔术值是一个恒定的符号,对于执行程序至关重要,但对其选择没有明确的解释。对于现有的程序综合方法,很难学习具有魔法价值的学习程序。为了克服这一限制,我们引入了一种归纳逻辑编程方法,以有效地学习具有魔术价值的程序。我们对包括程序合成,药物设计和游戏玩法在内的各种领域的实验表明,我们的方法可以(i)在预测精度和学习时间方面优于现有方法,(ii)从无限领域中学习魔法价值观,例如PI的值和(iii)比例为具有数百万个恒定符号的域。
translated by 谷歌翻译
表的智能分析和可视化表使用技术自动从数据中推荐有用的知识,从而使用户免于乏味的多维数据挖掘。尽管许多研究成功地通过规则或机器学习来自动化建议,但很难概括专家知识并提供可解释的建议。在本文中,我们首次提出条件格式的建议,以及图表建议,以示例智能表分析。我们建议对表上的分析语义,以发现用户创建的分析背后的共同分析模式。在这里,我们通过将数据重点与用户意图分开,从而分别从数据和人类的角度提取了用户的动机来设计分析语义。此外,我们设计的ASTA框架是为了将分析语义应用于多个自动化建议。 ASTA框架通过根据专家知识设计签名来提取数据功能,并在现场(图)或细胞级(条件格式)(条件格式化)中启用数据引用。实验表明,我们的框架在公共图表中的62.86%中的前1位获得了召回率,在公共图表中,最佳基准优于14%的最佳基准,并在收集的语料库中获得了72.31%的召回,证明ASTA框架有效地提供了准确且可解释的建议。
translated by 谷歌翻译
Computational notebooks, such as Jupyter notebooks, are interactive computing environments that are ubiquitous among data scientists to perform data wrangling and analytic tasks. To measure the performance of AI pair programmers that automatically synthesize programs for those tasks given natural language (NL) intents from users, we build ARCADE, a benchmark of 1082 code generation problems using the pandas data analysis framework in data science notebooks. ARCADE features multiple rounds of NL-to-code problems from the same notebook. It requires a model to understand rich multi-modal contexts, such as existing notebook cells and their execution states as well as previous turns of interaction. To establish a strong baseline on this challenging task, we develop PaChiNCo, a 62B code language model (LM) for Python computational notebooks, which significantly outperforms public code LMs. Finally, we explore few-shot prompting strategies to elicit better code with step-by-step decomposition and NL explanation, showing the potential to improve the diversity and explainability of model predictions.
translated by 谷歌翻译
反向工程师受益于二进制中的标识符(例如函数名称)的存在,但通常将其删除以释放。训练机器学习模型自动预测功能名称是有希望的,但从根本上讲很难:与自然语言中的单词不同,大多数函数名称仅出现一次。在本文中,我们通过引入极端功能标签(XFL)来解决此问题,这是一种极端的多标签学习方法,可为二进制功能选择适当的标签。 XFL将函数名称分为代币,将每个功能视为具有自然语言标记文本的问题的信息标签。我们将二进制代码的语义与通过dexter进行标签,这是一种新颖的函数,将基于静态分析的特征与来自呼叫图的本地上下文和整个二进制的全局上下文相结合。我们证明,XFL/Dexter在Debian Project的10,047个二进制数据集上的功能标签上优于最新技术,获得了83.5%的精度。我们还研究了XFL与文献中的替代二进制嵌入的组合,并表明Dexter始终为这项任务做得最好。结果,我们证明了二进制函数标记可以通过多标签学习有效地措辞,并且二进制函数嵌入得益于包括明确的语义特征。
translated by 谷歌翻译
随着未来以数据为中心的决策,对数据库的无缝访问至关重要。关于创建有效的文本到SQL(Text2SQL)模型以访问数据库的数据有广泛的研究。使用自然语言是可以通过有效访问数据库(尤其是对于非技术用户)来弥合数据和结果之间差距的最佳接口之一。它将打开门,并在精通技术技能或不太熟练的查询语言的用户中引起极大的兴趣。即使提出或研究了许多基于深度学习的算法,在现实工作场景中使用自然语言来解决数据查询问题仍然非常具有挑战性。原因是在不同的研究中使用不同的数据集,这带来了其局限性和假设。同时,我们确实缺乏对这些提议的模型及其对其训练的特定数据集的局限性的彻底理解。在本文中,我们试图介绍过去几年研究的24种神经网络模型的整体概述,包括其涉及卷积神经网络,经常性神经网络,指针网络,强化学习,生成模型等的架构。我们还概述11个数据集,这些数据集被广泛用于训练Text2SQL技术的模型。我们还讨论了无缝数据查询中文本2SQL技术的未来应用可能性。
translated by 谷歌翻译
人工智能代理必须从周围环境中学到学习,并了解所学习的知识,以便做出决定。虽然从数据的最先进的学习通常使用子符号分布式表示,但是使用用于知识表示的一阶逻辑语言,推理通常在更高的抽象级别中有用。结果,将符号AI和神经计算结合成神经符号系统的尝试已经增加。在本文中,我们呈现了逻辑张量网络(LTN),一种神经组织形式和计算模型,通过引入许多值的端到端可分别的一阶逻辑来支持学习和推理,称为真实逻辑作为表示语言深入学习。我们表明LTN为规范提供了统一的语言,以及多个AI任务的计算,如数据聚类,多标签分类,关系学习,查询应答,半监督学习,回归和嵌入学习。我们使用TensorFlow2的许多简单的解释例实施和说明上述每个任务。关键词:神经组音恐怖症,深度学习和推理,许多值逻辑。
translated by 谷歌翻译
回答集编程(ASP)已成为一种流行的和相当复杂的声明问题解决方法。这是由于其具有吸引力的地址解决方案的工作流程,这是可以轻松解决问题解决的方法,即使对于计算机科学外的守护者而言。与此不同,底层技术的高度复杂性使得ASP专家越来越难以将想法付诸实践。有关解决此问题,本教程旨在使用户能够构建自己的基于ASP的系统。更确切地说,我们展示了ASP系统Clingo如何用于扩展ASP和实现定制的专用系统。为此,我们提出了两个替代方案。我们从传统的AI技术开始,并展示元编程如何用于扩展ASP。这是一种相当轻的方法,依赖于Clingo的reation特征来使用ASP本身表达新功能。与此不同,本教程的主要部分使用传统的编程(在Python中)来通过其应用程序编程接口操纵Clingo。这种方法允许改变和控制ASP的整个模型 - 地面解决工作流程。 COMENT of Clingo的新应用程序课程使我们能够通过自定义类似于Clingo中的进程来绘制Clingo的基础架构。例如,我们可能会互动到程序的抽象语法树,控制各种形式的多射击求解,并为外国推论设置理论传播者。另一种横截面结构,跨越元以及应用程序编程是Clingo的中间格式,即指定底层接地器和求解器之间的界面。我们通过示例和几个非琐碎的案例研究说明了本教程的前述概念和技术。
translated by 谷歌翻译
与此同时,在可解释的人工智能(XAI)的研究领域中,已经开发了各种术语,动机,方法和评估标准。随着XAI方法的数量大大增长,研究人员以及从业者以及从业者需要一种方法:掌握主题的广度,比较方法,并根据特定用例所需的特征选择正确的XAI方法语境。在文献中,可以找到许多不同细节水平和深度水平的XAI方法分类。虽然他们经常具有不同的焦点,但它们也表现出许多重叠点。本文统一了这些努力,并提供了XAI方法的分类,这是关于目前研究中存在的概念的概念。在结构化文献分析和元研究中,我们识别并审查了XAI方法,指标和方法特征的50多个最引用和最新的调查。总结在调查调查中,我们将文章的术语和概念合并为统一的结构化分类。其中的单一概念总计超过50个不同的选择示例方法,我们相应地分类。分类学可以为初学者,研究人员和从业者提供服务作为XAI方法特征和方面的参考和广泛概述。因此,它提供了针对有针对性的,用例导向的基础和上下文敏感的未来研究。
translated by 谷歌翻译
通过归纳逻辑编程(ILP)综合大型逻辑程序通常需要中间定义。但是,用强化谓词混乱假设空间通常会降低性能。相比之下,梯度下降提供了一种有效的方法来在此类高维空间中找到溶液。到目前为止,神经符号ILP方法尚未完全利用这一点。我们提出了一种基于ILP的合成方法,该方法受益于大规模谓词发明,利用了高维梯度下降的功效。我们发现包含十个辅助定义以上的符号解决方案。这超出了现有的神经符号ILP系统的成就,因此构成了该领域的里程碑。
translated by 谷歌翻译
在软件开发过程中,开发人员需要回答有关代码语义方面的查询。即使已经用神经方法进行了广泛的自然语言研究,但尚未探索使用神经网络对代码回答语义查询的问题。这主要是因为没有现有的数据集,具有提取性问答和答案对,涉及复杂概念和较长推理的代码。我们通过构建一个名为Codequeries的新的,策划的数据集并提出了一种关于代码的神经问题方法来弥合这一差距。我们基于最先进的预训练的代码模型,以预测答案和支持事实跨度。给定查询和代码,只有一些代码可能与回答查询有关。我们首先在理想的环境下进行实验,其中仅给出了模型的相关代码,并表明我们的模型做得很好。然后,我们在三个务实的考虑因素下进行实验:(1)扩展到大尺寸的代码,(2)从有限数量的示例中学习,(3)代码中对次要语法错误的鲁棒性。我们的结果表明,虽然神经模型可以抵御代码中的次要语法错误,代码的大小增加,与查询无关的代码的存在以及减少的培训示例数量限制了模型性能。我们正在释放数据和模型,以促进未来关于回答代码语义查询的问题的工作。
translated by 谷歌翻译
象征性推理,基于规则的符号操作,是人类智慧的标志。然而,基于规则的系统的成功有限与基于学习的系统在外面的正式域之外的竞争中,例如自动定理证明。我们假设这是由于过去尝试中的规则的手动构建。在这项工作中,我们询问我们如何构建基于规则的系统,可以推理自然语言输入,但没有手动构建规则。我们提出了Metaqnl,这是一种“准自然”语言,可以表达正式逻辑和自然语言句子,并梅多斯诱惑,一种学习算法,它从训练数据组成的训练和答案,有或没有中间推理步骤。我们的方法在多个推理基准上实现了最先进的准确性;它学习具有更少数据的紧凑型号,不仅可以答案,而且产生答案。此外,对现实世界的形态学分析基准测试的实验表明,我们可以处理噪音和歧义。代码将在https://github.com/princeton-vl/metaqnl发布。
translated by 谷歌翻译
General mathematical reasoning is computationally undecidable, but humans routinely solve new problems. Moreover, discoveries developed over centuries are taught to subsequent generations quickly. What structure enables this, and how might that inform automated mathematical reasoning? We posit that central to both puzzles is the structure of procedural abstractions underlying mathematics. We explore this idea in a case study on 5 sections of beginning algebra on the Khan Academy platform. To define a computational foundation, we introduce Peano, a theorem-proving environment where the set of valid actions at any point is finite. We use Peano to formalize introductory algebra problems and axioms, obtaining well-defined search problems. We observe existing reinforcement learning methods for symbolic reasoning to be insufficient to solve harder problems. Adding the ability to induce reusable abstractions ("tactics") from its own solutions allows an agent to make steady progress, solving all problems. Furthermore, these abstractions induce an order to the problems, seen at random during training. The recovered order has significant agreement with the expert-designed Khan Academy curriculum, and second-generation agents trained on the recovered curriculum learn significantly faster. These results illustrate the synergistic role of abstractions and curricula in the cultural transmission of mathematics.
translated by 谷歌翻译
我们提出了一种可解释的关系提取方法,通过共同训练这两个目标来减轻概括和解释性之间的张力。我们的方法使用多任务学习体系结构,该体系结构共同训练分类器以进行关系提取,并在解释关系分类器的决策的关系中标记单词的序列模型。我们还将模型输出转换为规则,以将全局解释带入这种方法。使用混合策略对此序列模型进行训练:有监督,当可获得预先存在的模式的监督时,另外还要半监督。在后一种情况下,我们将序列模型的标签视为潜在变量,并学习最大化关系分类器性能的最佳分配。我们评估了两个数据集中的提议方法,并表明序列模型提供了标签,可作为关系分类器决策的准确解释,并且重要的是,联合培训通常可以改善关系分类器的性能。我们还评估了生成的规则的性能,并表明新规则是手动规则的重要附加功能,并使基于规则的系统更接近神经模型。
translated by 谷歌翻译
知识基础问题回答(KBQA)旨在通过知识库(KB)回答问题。早期研究主要集中于回答有关KB的简单问题,并取得了巨大的成功。但是,他们在复杂问题上的表现远非令人满意。因此,近年来,研究人员提出了许多新颖的方法,研究了回答复杂问题的挑战。在这项调查中,我们回顾了KBQA的最新进展,重点是解决复杂问题,这些问题通常包含多个主题,表达复合关系或涉及数值操作。详细说明,我们从介绍复杂的KBQA任务和相关背景开始。然后,我们描述用于复杂KBQA任务的基准数据集,并介绍这些数据集的构建过程。接下来,我们提出两个复杂KBQA方法的主流类别,即基于语义解析的方法(基于SP)的方法和基于信息检索的方法(基于IR)。具体而言,我们通过流程设计说明了他们的程序,并讨论了它们的主要差异和相似性。之后,我们总结了这两类方法在回答复杂问题时会遇到的挑战,并解释了现有工作中使用的高级解决方案和技术。最后,我们结论并讨论了与复杂的KBQA有关的几个有希望的方向,以进行未来的研究。
translated by 谷歌翻译
最近关于神经象征性归纳逻辑编程的工作导致了有希望的方法,可以从嘈杂,现实世界数据中学习解释规则。虽然一些提议近似逻辑运算符,具有不同的逻辑,从模糊或实际值逻辑,无参数,从而无参数,从而减少它们适合数据的容量,其他方法仅基于逻辑摆动,使得难以解释学习的“规则”。在本文中,我们提出了与最近提出的逻辑神经网络(LNN)的学习规则。与其他人相比,LNN与经典布尔逻辑的强大连接,从而允许精确地解释学习规则,同时覆盆可以用基于梯度的优化训练的参数来有效地拟合数据。我们将LNN扩展以在一阶逻辑中引导规则。我们对标准基准测试任务的实验证实,LNN规则是高度可解释的,并且由于其灵活的参数化而可以实现可比或更高的准确性。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译