Recent times have witnessed an increasing number of applications of deep neural networks towards solving tasks that require superior cognitive abilities, e.g., playing Go, generating art, question answering (such as ChatGPT), etc. Such a dramatic progress raises the question: how generalizable are neural networks in solving problems that demand broad skills? To answer this question, we propose SMART: a Simple Multimodal Algorithmic Reasoning Task and the associated SMART-101 dataset, for evaluating the abstraction, deduction, and generalization abilities of neural networks in solving visuo-linguistic puzzles designed specifically for children in the 6-8 age group. Our dataset consists of 101 unique puzzles; each puzzle comprises a picture and a question, and their solution needs a mix of several elementary skills, including arithmetic, algebra, and spatial reasoning, among others. To scale our dataset towards training deep neural networks, we programmatically generate entirely new instances for each puzzle while retaining their solution algorithm. To benchmark the performance on the SMART-101 dataset, we propose a vision and language meta-learning model using varied state-of-the-art backbone neural networks. Our experiments reveal that while powerful deep models offer reasonable performances on puzzles that they are trained on, they are not better than random accuracy when analyzed for generalization. We also evaluate the recent ChatGPT large language model on a subset of our dataset and find that while ChatGPT produces convincing reasoning abilities, the answers are often incorrect.
translated by 谷歌翻译
This paper introduces corpus-guided top-down synthesis as a mechanism for synthesizing library functions that capture common functionality from a corpus of programs in a domain specific language (DSL). The algorithm builds abstractions directly from initial DSL primitives, using syntactic pattern matching of intermediate abstractions to intelligently prune the search space and guide the algorithm towards abstractions that maximally capture shared structures in the corpus. We present an implementation of the approach in a tool called Stitch and evaluate it against the state-of-the-art deductive library learning algorithm from DreamCoder. Our evaluation shows that Stitch is 3-4 orders of magnitude faster and uses 2 orders of magnitude less memory while maintaining comparable or better library quality (as measured by compressivity). We also demonstrate Stitch's scalability on corpora containing hundreds of complex programs that are intractable with prior deductive approaches and show empirically that it is robust to terminating the search procedure early -- further allowing it to scale to challenging datasets by means of early stopping.
translated by 谷歌翻译
We present a retrospective on the state of Embodied AI research. Our analysis focuses on 13 challenges presented at the Embodied AI Workshop at CVPR. These challenges are grouped into three themes: (1) visual navigation, (2) rearrangement, and (3) embodied vision-and-language. We discuss the dominant datasets within each theme, evaluation metrics for the challenges, and the performance of state-of-the-art models. We highlight commonalities between top approaches to the challenges and identify potential future directions for Embodied AI research.
translated by 谷歌翻译
基于领域的模型计划者通常通过通过放松或抽象的符号世界模型来构建搜索启发式方法来得出他们的普遍性。我们说明抽象解释如何作为这些基于抽象的启发式方法的统一框架,将启发式搜索的范围扩展到更丰富的世界模型,这些模型利用更复杂的数据类型和功能(例如集合,几何形状),甚至具有不确定性和不确定性和不确定性和模型概率效应。这些启发式方法也可以与学习相结合,从而使代理可以通过抽象衍生的信息在新颖的世界模型中开始计划,这些信息随后通过经验来完善。这表明抽象的解释可以在构建通用推理系统中起关键作用。
translated by 谷歌翻译
为了促进开发新模型以弥合机器和人类社会情报之间的差距,最近提议的婴儿直觉基准(Arxiv:2102.11938)提供了一系列任务,旨在评估代理商的目标和行动,即使是年轻的婴儿也表现出的表现,。在这里,我们根据层次的贝叶斯心理理论(HBTOM)提出了该基准的原则性贝叶斯解决方案。通过在代理目标和处置上包括层次的先验,对我们的HBTOM模型的推断几乎可以学习代理的效率和偏好,然后可以将其用于常识性的合理性判断,以判断有关后续代理行为。这种方法在大多数基准任务上实现了几乎完美的准确性,在产生可解释的人类的推论的同时,超过了深度学习和模仿学习基准,证明了结构化贝叶斯人的人类社会认知模型的优势。
translated by 谷歌翻译
对环境变化进行推理的能力对于长时间运行的机器人至关重要。期望代理在操作过程中捕获变化,以便可以采取行动以确保工作会议的平稳进展。但是,由于低观测重叠和漂移对象关联,不同的视角和累积的本地化错误使机器人可以轻松地检测周围世界的变化。在本文中,基于最近提出的类别级神经描述符字段(NDFS),我们开发了一种对象级在线变更检测方法,该方法可用于部分重叠观测和嘈杂的本地化结果。利用形状的完成功能和NDF的SE(3) - 均衡性,我们表示具有紧凑形状代码的对象,从部分观测中编码完整的对象形状。然后,基于从NDF恢复的对象中心以快速查询对象社区的对象中心,将对象组织在空间树结构中。通过通过形状代码相似性与对象关联并比较局部对象 - 邻居空间布局,我们提出的方法证明了对低观察重叠和本地化噪声的鲁棒性。与多种基线方法相比,我们对合成和现实世界序列进行实验,并获得改进的变化检测结果。项目网页:https://yilundu.github.io/ndf_change
translated by 谷歌翻译
人类的感知可靠地识别3D场景的可移动和不可移动的部分,并通过不完整的观测来完成对象和背景的3D结构。我们不是通过标记的示例来学习此技能,而只是通过观察对象移动来学习。在这项工作中,我们提出了一种方法,该方法在训练时间观察未标记的多视图视频,并学会绘制对复杂场景的单个图像观察,例如带有汽车的街道,将其绘制为3D神经场景表示,该表演将其分解为可移动和可移动和不可移动的零件,同时合理地完成其3D结构。我们通过2D神经地面计划分别参数可移动和不可移动的场景部分。这些地面计划是与接地平面对齐的2D网格,可以将其局部解码为3D神经辐射场。我们的模型通过神经渲染受过训练的自我监督。我们证明,使用简单的启发式方法,例如提取对象以对象的3D表示,新颖的视图合成,实例段和3D边界框预测,预测,预测,诸如提取以对象为中心的3D表示,诸如提取街道规模的3D场景中的各种下游任务可以实现各种下游任务。强调其作为数据效率3D场景理解模型的骨干的价值。这种分离进一步通过对象操纵(例如删除,插入和刚体运动)进行了现场编辑。
translated by 谷歌翻译
在本文中,我们通过查看RGBD图像以及有关配对问题和答案的推理来解决3D概念接地(即细分和学习视觉概念)的挑战性问题。现有的视觉推理方法通常利用监督的方法来提取概念接地的2D分割面具。相比之下,人类能够将图像的基础3D表示基础。但是,传统上推断出的3D表示(例如,点云,体素格林和网格)无法灵活地捕获连续的3D特征,从而使基于所指对象的语言描述对3D区域的地面概念充满挑战。为了解决这两个问题,我们建议利用神经领域的连续,可区分的性质来细分和学习概念。具体而言,场景中的每个3D坐标都表示为高维描述符。然后,可以通过计算3D坐标的描述符向量与语言概念的向量嵌入之间的相似性来执行概念接地,这使得能够以不同的方式在神经领域中共同学习分割和概念。结果,3D语义和实例分割都可以直接通过使用神经场顶上的一组定义的神经操作员来回答监督(例如,过滤和计数)。实验结果表明,我们提出的框架优于语义和实例细分任务上的无监督/语言介导的分割模型,并且在具有挑战性的3D意识到的视觉推理任务上优于现有模型。此外,我们的框架可以很好地概括为看不见的形状类别和真正的扫描。
translated by 谷歌翻译
对象看起来和声音的方式提供了对其物理特性的互补反射。在许多设置中,视觉和试听的线索都异步到达,但必须集成,就像我们听到一个物体掉落在地板上,然后必须找到它时。在本文中,我们介绍了一个设置,用于研究3D虚拟环境中的多模式对象定位。一个物体在房间的某个地方掉落。配备了摄像头和麦克风的具体机器人剂必须通过将音频和视觉信号与知识的基础物理学结合来确定已删除的对象以及位置。为了研究此问题,我们生成了一个大规模数据集 - 倒下的对象数据集 - 其中包括64个房间中30个物理对象类别的8000个实例。该数据集使用Threedworld平台,该平台可以模拟基于物理的影响声音和在影片设置中对象之间的复杂物理交互。作为解决这一挑战的第一步,我们基于模仿学习,强化学习和模块化计划,开发了一组具体的代理基线,并对这项新任务的挑战进行了深入的分析。
translated by 谷歌翻译
深度学习在复杂的模式识别任务上表现出色,例如图像分类和对象识别。但是,它与需要非平凡推理的任务(例如算法计算)斗争。人类能够通过迭代推理来解决此类任务 - 花更多的时间思考更艰难的任务。但是,大多数现有的神经网络都表现出由神经网络体系结构控制的固定计算预算,从而阻止了对更艰难任务的其他计算处理。在这项工作中,我们为神经网络提供了一个新的迭代推理框架。我们训练神经网络以在所有输出上参数化能量景观,并实施迭代推理的每个步骤,作为能量最小化步骤,以找到最小的能量解决方案。通过将推理作为一个能量最小化问题,对于导致更复杂的能源景观的更严重的问题,我们可以通过运行更复杂的优化程序来调整我们的基本计算预算。我们从经验上说明,我们的迭代推理方法可以在图和连续域中解决更准确和可推广的算法推理任务。最后,我们说明我们的方法可以递归解决需要嵌套推理的算法问题
translated by 谷歌翻译