最近在计算机视觉和认知推理中的工作引起了越来越多地通过了违反了合成数据集中的预期(voe)范式。受婴儿心理学的启发,研究人员现在正在评估模型的标签场景的能力,只有预期的场景知识。然而,物理推理中现有的基于VOE的3D数据集主要提供似乎没有启发式或归纳偏差的视觉数据。物理推理的认知模型揭示婴儿创造了对象和互动的高级抽象表示。利用这一知识,我们建立了通过策划具有因果关系和规则的地面真理启发式标签的新型大型合成3D VoO数据集来研究体力学推理的基准。为了验证我们的数据集五个事件的物理推理,我们基准和分析人类性能。我们还提出了对象文件的物理推理网络(OFPR-NET),它利用DataSet的新型启发式机构来胜过我们的基线和消融模型。 OFPR-NET在学习替代物理现实方面也是灵活的,展示其能够在物理推理中学习普遍因果关系,以创建具有更好可解释性的系统。
translated by 谷歌翻译
最近在认知推理和计算机愿景中的工作在合成数据集中违反期望(voe)范式的违反期望(voe)范式的越来越受欢迎。研究人员在婴儿心理学中受到影响,研究人员已经开始评估模型的能力,以歧视预期和令人惊讶的场景,作为其推理能力的迹象。物理推理中现有的基于VOE的3D数据集仅提供视觉数据。然而,心理学家的现有认知模型揭示婴儿创造了对象和互动的高级抽象表示。关于这一知识,我们提出了禽兽:基于合成的3D VOE的数据集,呈现来自多个新型子类别的刺激,用于五种事件的物理推理。与现有工作相比,Avoe武装有抽象特征和规则的地面真理标签,增强到视觉数据,为物理推理任务中的高级符号预测铺平了道路。
translated by 谷歌翻译
尽管当前的视觉算法在许多具有挑战性的任务上都表现出色,但尚不清楚他们如何理解现实世界环境的物理动态。在这里,我们介绍了Physion,一种数据集和基准,用于严格评估预测物理场景如何随着时间而发展的能力。我们的数据集具有对各种物理现象的现实模拟,包括刚性和软体体碰撞,稳定的多对象配置,滚动,滑动和弹丸运动,因此比以前的基准提供了更全面的挑战。我们使用Physion来基准一套模型,其体系结构,学习目标,投入输出结构和培训数据各不相同。同时,我们在同一场景上获得了人类预测行为的精确测量,从而使我们能够直接评估任何模型能够近似人类行为的效果。我们发现,学习以对象为中心的表示的视觉算法通常优于那些没有人的表现,但仍未达到人类绩效。另一方面,绘制具有直接访问物理状态信息的神经网络的表现效果更好,并且做出与人类制作的预测更相似。这些结果表明,提取场景的物理表征是在视力算法中实现人类水平和类似人类的物理理解的主要瓶颈。我们已公开发布了所有数据和代码,以促进使用物理以完全可重现的方式对其他模型进行基准测试,从而使对视觉算法的进度进行系统的评估,这些算法像人们一样坚固地了解物理环境。
translated by 谷歌翻译
精确预测物理交互结果是人类智能的关键组成部分,对于真实世界中的机器人安全和有效地部署是重要的。虽然存在基于视觉的直观物理模型,用于学习预测物理交互结果,而它们主要专注于根据从视觉输入或潜在空间提取的物理性质(例如质量,摩擦和速度)产生未来框架的短序列。然而,缺乏直观的物理模型,这些模型是在具有不同对象之间的多个交互的长物理相互作用序列上进行测试。我们假设在近似精神模拟期间的选择性时间关注有助于人类在物理相互作用结果预测中。通过这些动机,我们提出了一种新颖的方案:通过用跨度选择(PIP)通过精神模拟物理交互预测。它利用深度生成模型来模拟近似精神模拟,通过在采用跨度选择的形式以预测物理交互结果的形式中采用选择性的时间关注之前产生近似的物理相互作用。为了评估我们的模型,我们进一步提出了具有3D环境中的三个主要物理交互的长序列的大规模空间+数据集。我们的实验表明,PIP优于利用精神模拟的人类,基线和相关直观的物理模型。此外,PIP的跨度选择模块有效地识别指示对象之间的关键物理交互的帧,允许添加额外的解释性。
translated by 谷歌翻译
我们提出了一种小型任务,可以衡量人们如何基于观察单个(实验1)或几个(实验2)对象对之间的因果相互作用来概括物体的因果动力。我们提出了一种计算建模框架,可以在我们的任务环境中综合人类的泛化模式,并阐明人们如何有效地浏览可能的因果函数和类别的组成空间。我们的建模框架结合了使用代理和收件人对象的特征和关系的因果函数发生器,以及贝叶斯非参数推断过程,以控制基于相似性的概念。我们的模型具有自然的“资源合理的”变体,可以在描述参与者时优于一个天真的贝叶斯账户,特别是在我们的行为实验中再现透明阶效应和因果不对称。我们认为,该建模框架为真实世界因果概念提供了计算上的合理机制。
translated by 谷歌翻译
为了实现对日常生活的人类常识,机器学习系统必须理解和理解环境中其他代理人的目标,偏好和行动。在他们的第一年的生命结束时,人类婴儿直观地实现了如此常识,这些认知成就为人类丰富而复杂地了解他人的心理状态。Can Machines可以实现更广泛的,致辞推理对人类婴儿这样的其他药剂吗?婴儿直觉的基准(围兜)挑战机器,以预测代理人行为的合理性,基于其行动的基本原因。由于BIB的内容和范式从发育认知科学中采用,因此BIB允许在人类和机器性能之间直接比较。尽管如此,最近提出的深度学习的机构推理模型未能表现出婴儿的推理,让围兜成为一个开放的挑战。
translated by 谷歌翻译
Recent progress in artificial intelligence (AI) has renewed interest in building systems that learn and think like people. Many advances have come from using deep neural networks trained end-to-end in tasks such as object recognition, video games, and board games, achieving performance that equals or even beats humans in some respects. Despite their biological inspiration and performance achievements, these systems differ from human intelligence in crucial ways. We review progress in cognitive science suggesting that truly human-like learning and thinking machines will have to reach beyond current engineering trends in both what they learn, and how they learn it. Specifically, we argue that these machines should (a) build causal models of the world that support explanation and understanding, rather than merely solving pattern recognition problems; (b) ground learning in intuitive theories of physics and psychology, to support and enrich the knowledge that is learned; and (c) harness compositionality and learning-to-learn to rapidly acquire and generalize knowledge to new tasks and situations. We suggest concrete challenges and promising routes towards these goals that can combine the strengths of recent neural network advances with more structured cognitive models.
translated by 谷歌翻译
人类视野的一个基本组成部分是我们解析复杂的视觉场景并判断其组成物体之间的关系的能力。近年来,随着最先进的系统在其中一些基准上达到人类的准确性,近年来,视觉推理的AI基准驱动了快速进步。然而,就样本效率而言,人类和AI系统学习新的视觉推理任务的样本效率仍然存在。人类在学习方面的非凡效率至少部分归因于其利用组成性的能力,以便他们可以在学习新任务时有效利用先前获得的知识。在这里,我们介绍了一种新颖的视觉推理基准组成视觉关系(CVR),以推动发展更多数据有效学习算法的进步。我们从流体智能和非语言推理测试中汲取灵感,并描述一种新的方法,用于创建抽象规则和相关图像数据集的组成。我们提出的基准包括跨任务规则的样本效率,概括和转移的度量,以及利用组合性的能力。我们系统地评估现代神经体系结构,发现令人惊讶的是,在大多数数据制度中,卷积架构在所有性能指标中都超过了基于变压器的体系结构。但是,即使在使用自学意见书学习信息性的视觉表示之后,与人类相比,所有计算模型的数据效率要少得多。总体而言,我们希望我们的挑战能够激发人们对可以学会利用构图朝着更高效学习的神经体系结构发展的兴趣。
translated by 谷歌翻译
近年来,随着新颖的策略和应用,神经网络一直在迅速扩展。然而,尽管不可避免地会针对关键应用程序来解决这些挑战,例如神经网络技术诸如神经网络技术中仍未解决诸如神经网络技术的挑战。已经尝试通过用符号表示来表示和嵌入域知识来克服神经网络计算中的挑战。因此,出现了神经符号学习(Nesyl)概念,其中结合了符号表示的各个方面,并将常识带入神经网络(Nesyl)。在可解释性,推理和解释性至关重要的领域中,例如视频和图像字幕,提问和推理,健康信息学和基因组学,Nesyl表现出了有希望的结果。这篇综述介绍了一项有关最先进的Nesyl方法的全面调查,其原理,机器和深度学习算法的进步,诸如Opthalmology之类的应用以及最重要的是该新兴领域的未来观点。
translated by 谷歌翻译
精确了解人造网络中为何对某些刺激作出反应的单位会致力于解释人工智能的一步。一个广泛使用的方法对此目标是通过激活最大化来可视化单元响应。这些合成特征可视化被声称提供了具有关于导致单元被激活的图像特征的精确信息的人类 - 在其他替代方案中具有强烈激活的自然数据集样本的优点。如果人类确实获得了可视化的因果洞察,这应该使它们能够预测干预的效果,例如如何遮挡图像的某些斑块(例如,狗的头部)改变单位的激活。在这里,我们通过询问人类来确定两个方形遮挡中的哪一个来测试这个假设,导致单元的激活更大。具有专家的大规模众群实验和测量结果表明,平均奥拉等人的激活特征可视化。 (2017)确实帮助人类对此任务(68美元\ PM 4 $%的准确性;没有任何可视化的基线表现为60份\ PM 3 $%)。然而,它们不提供其他可视化(例如DataSet样本)的任何实质性优势,其产生类似的性能(66美元,PM3 $%至67美元\ PM3 $%准确性)。我们联合起来,提出了一个客观的心理物理任务来量化单位级别解释性方法对人类的益处,并且没有证据表明,广泛使用的特征可视化方法提供了比简单的替代可视化的单位激活更好的“因果理解”。
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
We present a retrospective on the state of Embodied AI research. Our analysis focuses on 13 challenges presented at the Embodied AI Workshop at CVPR. These challenges are grouped into three themes: (1) visual navigation, (2) rearrangement, and (3) embodied vision-and-language. We discuss the dominant datasets within each theme, evaluation metrics for the challenges, and the performance of state-of-the-art models. We highlight commonalities between top approaches to the challenges and identify potential future directions for Embodied AI research.
translated by 谷歌翻译
There has been a recent resurgence in the area of explainable artificial intelligence as researchers and practitioners seek to make their algorithms more understandable. Much of this research is focused on explicitly explaining decisions or actions to a human observer, and it should not be controversial to say that looking at how humans explain to each other can serve as a useful starting point for explanation in artificial intelligence. However, it is fair to say that most work in explainable artificial intelligence uses only the researchers' intuition of what constitutes a 'good' explanation. There exists vast and valuable bodies of research in philosophy, psychology, and cognitive science of how people define, generate, select, evaluate, and present explanations, which argues that people employ certain cognitive biases and social expectations towards the explanation process. This paper argues that the field of explainable artificial intelligence should build on this existing research, and reviews relevant papers from philosophy, cognitive psychology/science, and social psychology, which study these topics. It draws out some important findings, and discusses ways that these can be infused with work on explainable artificial intelligence.
translated by 谷歌翻译
我们介绍了ThreedWorld(TDW),是交互式多模态物理模拟的平台。 TDW能够模拟高保真感官数据和富裕的3D环境中的移动代理和对象之间的物理交互。独特的属性包括:实时近光 - 真实图像渲染;对象和环境库,以及他们定制的例程;有效构建新环境课程的生成程序;高保真音频渲染;各种材料类型的现实物理相互作用,包括布料,液体和可变形物体;可定制的代理体现AI代理商;并支持与VR设备的人类交互。 TDW的API使多个代理能够在模拟中进行交互,并返回一系列表示世界状态的传感器和物理数据。我们在计算机视觉,机器学习和认知科学中的新兴的研究方向上提供了通过TDW的初始实验,包括多模态物理场景理解,物理动态预测,多代理交互,像孩子一样学习的模型,并注意研究人类和神经网络。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
为了使AI安全地在医院,学校和工作场所等现实世界中安全部署,它必须能够坚定地理解物理世界。这种推理的基础是物理常识:了解可用对象的物理特性和提供的能力,如何被操纵以及它们如何与其他对象进行交互。物理常识性推理从根本上是一项多感官任务,因为物理特性是通过多种模式表现出来的,其中两个是视觉和声学。我们的论文通过贡献PACS来朝着现实世界中的物理常识推理:第一个用于物理常识属性注释的视听基准。 PACS包含13,400对答案对,涉及1,377个独特的物理常识性问题和1,526个视频。我们的数据集提供了新的机会来通过将音频作为此多模式问题的核心组成部分来推进物理推理的研究领域。使用PACS,我们在我们的新挑战性任务上评估了多种最先进的模型。尽管某些模型显示出令人鼓舞的结果(精度为70%),但它们都没有人类的绩效(精度为95%)。我们通过证明多模式推理的重要性并为未来的研究提供了可能的途径来结束本文。
translated by 谷歌翻译
Understanding the 3D world from 2D images involves more than detection and segmentation of the objects within the scene. It also includes the interpretation of the structure and arrangement of the scene elements. Such understanding is often rooted in recognizing the physical world and its limitations, and in prior knowledge as to how similar typical scenes are arranged. In this research we pose a new challenge for neural network (or other) scene understanding algorithms - can they distinguish between plausible and implausible scenes? Plausibility can be defined both in terms of physical properties and in terms of functional and typical arrangements. Hence, we define plausibility as the probability of encountering a given scene in the real physical world. We build a dataset of synthetic images containing both plausible and implausible scenes, and test the success of various vision models in the task of recognizing and understanding plausibility.
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
这项调查回顾了对基于视觉的自动驾驶系统进行行为克隆训练的解释性方法。解释性的概念具有多个方面,并且需要解释性的驾驶强度是一种安全至关重要的应用。从几个研究领域收集贡献,即计算机视觉,深度学习,自动驾驶,可解释的AI(X-AI),这项调查可以解决几点。首先,它讨论了从自动驾驶系统中获得更多可解释性和解释性的定义,上下文和动机,以及该应用程序特定的挑战。其次,以事后方式为黑盒自动驾驶系统提供解释的方法是全面组织和详细的。第三,详细介绍和讨论了旨在通过设计构建更容易解释的自动驾驶系统的方法。最后,确定并检查了剩余的开放挑战和潜在的未来研究方向。
translated by 谷歌翻译
人们如何积极学习学习?也就是说,人们如何以及何时选择促进长期学习和选择更有益的行动的行动?我们在积极的因果学习领域中探索这些问题。我们提出了一个层次的贝叶斯模型,该模型通过预测人们不仅追求有关因果关系的信息,而且还涉及因果关系的信息,$ \ unicode {x2014} $摘要信念关于因果关系的抽象信念,这些关系跨越了多种情况,并约束了我们如何约束我们如何限制了我们如何限制我们的因果关系。在每种情况下学习细节。在具有14个受试者间操作的两个主动“泡沫检测器”实验中,我们的模型受到参与者行为的定性趋势和基于个体差异的模型比较的支持。我们的结果表明,当在积极的因果学习问题之间存在抽象相似之处时,人们很容易就这些相似性学习和转移过度的疏忽。此外,人们利用这些夸张的人来促进长期的积极学习。
translated by 谷歌翻译