When people think of everyday things like an "egg," they typically have a mental image associated with it. This commonsense knowledge helps us understand how these everyday things work and how to interact with them. For example, when someone tries to make a fried egg, they know that it has a shell and that it can be cracked open to reveal the egg white and yolk inside. However, if a system does not have a coherent picture of such everyday things, thinking that the egg yolk surrounds the shell, then it might have to resort to ridiculous approaches such as trying to scrape the egg yolk off the shell into the pan. Do language models have a coherent picture of such everyday things? To investigate this, we propose a benchmark dataset consisting of 100 everyday things, their parts, and the relationships between these parts. We observe that state-of-the-art pre-trained language models (LMs) like GPT-3 and Macaw have fragments of knowledge about these entities, but they fail to produce consistent parts mental models. We propose a simple extension to these LMs where we apply a constraint satisfaction layer on top of raw predictions from LMs to produce more consistent and accurate parts mental models of everyday things.
translated by 谷歌翻译
Reinforcement learning (RL) operating on attack graphs leveraging cyber terrain principles are used to develop reward and state associated with determination of surveillance detection routes (SDR). This work extends previous efforts on developing RL methods for path analysis within enterprise networks. This work focuses on building SDR where the routes focus on exploring the network services while trying to evade risk. RL is utilized to support the development of these routes by building a reward mechanism that would help in realization of these paths. The RL algorithm is modified to have a novel warm-up phase which decides in the initial exploration which areas of the network are safe to explore based on the rewards and penalty scale factor.
translated by 谷歌翻译
数学推理是人类智力的核心能力,在抽象思维和逻辑推理中对机器提出了独特的挑战。最近的大型预训练的语言模型(例如GPT-3)在以文本形式(例如数学单词问题(MWP))编写的数学推理任务上取得了显着的进步。但是,未知模型是否可以处理更复杂的问题,这些问题涉及数学推理,例如表格数据。为了填补空白,我们提出了表格数学单词问题(TABMWP),这是一个包含38,431个开放域级等级问题的新数据集,这些问题需要在文本和表格数据上进行数学推理。 TABMWP中的每个问题都与表格上下文对齐,该上下文作为图像,半结构化文本和结构化表。有两种类型的问题:自由文本和多选择,每个问题都用金解决方案注释以揭示多步推理过程。我们在TABMWP上评估了不同的预训练模型,包括在几次设置中的GPT-3模型。正如先前的研究所表明的那样,由于很少有GPT-3依赖于内在的示例的选择,因此其性能是不稳定的,并且可能会降解为几乎机会。处理TABMWP等复杂问题时,不稳定的问题更为严重。为了减轻这种情况,我们进一步提出了一种新颖的方法,即PresspG,该方法利用策略梯度学习从少量培训数据中选择中文示例,然后为测试示例构造相应的提示。实验结果表明,与随机选择相比,我们的方法在准确性度量上优于最佳基线,并显着降低了预测方差,这验证了其在选择性上下文示例中的有效性。
translated by 谷歌翻译
在回答问题时,人类会利用跨不同模式可用的信息来综合一致,完整的思想链(COT)。在深度学习模型(例如大规模语言模型)的情况下,这个过程通常是黑匣子。最近,科学问题基准已用于诊断AI系统的多跳推理能力和解释性。但是,现有数据集无法为答案提供注释,或仅限于仅文本模式,小尺度和有限的域多样性。为此,我们介绍了科学问题答案(SQA),这是一个新的基准,由〜21k的多模式多种选择问题组成,其中包含各种科学主题和答案的注释,并提供相应的讲座和解释。我们进一步设计语言模型,以学习将讲座和解释作为思想链(COT),以模仿回答SQA问题时的多跳上推理过程。 SQA在语言模型中展示了COT的实用性,因为COT将问题的答案绩效提高了1.20%的GPT-3和3.99%的unifiedqa。我们还探索了模型的上限,以通过喂食输入中的那些来利用解释;我们观察到它将GPT-3的少量性能提高了18.96%。我们的分析进一步表明,与人类类似的语言模型受益于解释,从较少的数据中学习并仅使用40%的数据实现相同的性能。
translated by 谷歌翻译
蜂窝提供商和数据聚合公司从用户设备中占群体的Celluar信号强度测量以生成信号映射,可用于提高网络性能。认识到这种数据收集可能与越来越多的隐私问题的认识可能存在赔率,我们考虑在数据离开移动设备之前混淆这些数据。目标是提高隐私,使得难以从混淆的数据(例如用户ID和用户行踪)中恢复敏感功能,同时仍然允许网络提供商使用用于改进网络服务的数据(即创建准确的信号映射)。要检查本隐私实用程序权衡,我们识别适用于信号强度测量的隐私和公用事业度量和威胁模型。然后,我们使用几种卓越的技术,跨越差异隐私,生成的对抗性隐私和信息隐私技术进行了衡量测量,以便基准,以基准获得各种有前景的混淆方法,并为真实世界的工程师提供指导,这些工程师是负责构建信号映射的现实工程师在不伤害效用的情况下保护隐私。我们的评估结果基于多个不同的现实世界信号映射数据集,展示了同时实现了充足的隐私和实用程序的可行性,并使用了使用该结构和预期使用数据集的策略以及目标平均案例的策略,而不是最坏的情况,保证。
translated by 谷歌翻译
最终用户如何提供反馈,如果部署的结构化预测模型生成不正确的输出,则提供反馈?我们的目标是允许用户通过对模型输出的反馈来直接通过交互直接纠正错误。我们创建动态内存架构,具有越来越多的反馈记忆,关于输出中的错误。鉴于新的,看不见的输入,我们的模型可以使用类似于类似的过去的错误状态的反馈。在脚本生成任务上,我们凭经验显示模型的学习有效地应用反馈(最多30分),同时避免在部署后的类似过去错误(在看不见的方案集上提高了10分。这是加强部署模型的第一步,潜在地扩大其实用程序。
translated by 谷歌翻译
语言模型(LMS)在多大程度上在答案时在多大程度上建立场景的“心理模型”(例如,关于特定伦理困境的问题)?虽然认知科学表明,心理模型在人类问题解决中发挥着基本作用,但目前尚不清楚现有LMS的高问答性能是由类似的模型建设进行支持 - 如果不是,那是否可以解释他们众所周知的灾难性的失败。我们观察到Magaw是一种现有的基于T5的LM,当探测时提供了一些有用但是情境问题的有用但不足的心理模型(估计精度= 43%,有用= 21%,一致性= 42%)。我们提出梦想,一种采用情境问题作为输入,以产生精神模型的表现,没有任何其他任务的心理模型培训数据。它通过来自现有NLP资源的遥远监督来继承其社会型号。我们的分析显示,与金刚鹦鹉相比,梦想可以产生明显更好的精神模型(估计精度= 67%,有用= 37%,一致性= 71%)。最后,梦想生成的心理模型可以用作情境QA任务的其他背景。此附加上下文将MACAW零拍摄模型的答案精度提高到三个不同数据集上的+ 1%和+ 4%(绝对)。
translated by 谷歌翻译
最终用户如何提供反馈,如果部署的结构化预测模型产生不一致的输出,忽略人类语言的结构复杂性?这是一个新兴主题,最近合成或约束设置的进展,下一个大的飞跃需要在现实世界中进行测试和调整模型。我们呈现了一个新的DataSet,interscript,包含有关已部署模型的用户反馈,该模型生成复杂的日常任务。依据包含8,466个数据点 - 输入是可能是错误的脚本和用户反馈,输出是修改的脚本。我们分散了两种用例,这可能会在互动学习中显着推进最先进的。数据集可用于:https://github.com/allenai/interscript。
translated by 谷歌翻译
许多现实世界问题需要综合应用采用合适的抽象,致辞认识和创造性的解决问题策略的多种推理能力。为了帮助推进AI系统实现这种能力,我们提出了一个新的推理挑战,即费银问题(FPS),这是答案只能估计的问题,因为它们的精确计算是不切实际或不可能的。例如,“如果世界上所有的冰融化,那么海平面会增加多少海平面?” FPS通常用于测验和访谈,以发出和评估人类的创造性推理能力。为AI系统做同样的事情,我们展示了两个数据集:1)来自测验和奥林匹克的1K现实世界FPS的集合; 2)一个10K的中间复杂合成FPS的银行,作为较难的真实挑战的沙箱。除问题答案对之外,数据集还包含可执行计划形式的详细解决方案,并提供支持事实,帮助监督和评估中间步骤。我们展示了甚至广泛的微调大规模语言模型在这些数据集上表现不佳,平均估计是由两个数量级的估计值。因此,我们的贡献是几个未解决的AI问题的结晶,以至于我们希望将促进可以推理的建筑系统进一步前进。
translated by 谷歌翻译
Supervised Question Answering systems (QA systems) rely on domain-specific human-labeled data for training. Unsupervised QA systems generate their own question-answer training pairs, typically using secondary knowledge sources to achieve this outcome. Our approach (called PIE-QG) uses Open Information Extraction (OpenIE) to generate synthetic training questions from paraphrased passages and uses the question-answer pairs as training data for a language model for a state-of-the-art QA system based on BERT. Triples in the form of <subject, predicate, object> are extracted from each passage, and questions are formed with subjects (or objects) and predicates while objects (or subjects) are considered as answers. Experimenting on five extractive QA datasets demonstrates that our technique achieves on-par performance with existing state-of-the-art QA systems with the benefit of being trained on an order of magnitude fewer documents and without any recourse to external reference data sources.
translated by 谷歌翻译