We introduce OPEND, a benchmark for learning how to use a hand to open cabinet doors or drawers in a photo-realistic and physics-reliable simulation environment driven by language instruction. To solve the task, we propose a multi-step planner composed of a deep neural network and rule-base controllers. The network is utilized to capture spatial relationships from images and understand semantic meaning from language instructions. Controllers efficiently execute the plan based on the spatial and semantic understanding. We evaluate our system by measuring its zero-shot performance in test data set. Experimental results demonstrate the effectiveness of decision planning by our multi-step planner for different hands, while suggesting that there is significant room for developing better models to address the challenge brought by language understanding, spatial reasoning, and long-term manipulation. We will release OPEND and host challenges to promote future research in this area.
translated by 谷歌翻译
Temporal modeling is crucial for various video learning tasks. Most recent approaches employ either factorized (2D+1D) or joint (3D) spatial-temporal operations to extract temporal contexts from the input frames. While the former is more efficient in computation, the latter often obtains better performance. In this paper, we attribute this to a dilemma between the sufficiency and the efficiency of interactions among various positions in different frames. These interactions affect the extraction of task-relevant information shared among frames. To resolve this issue, we prove that frame-by-frame alignments have the potential to increase the mutual information between frame representations, thereby including more task-relevant information to boost effectiveness. Then we propose Alignment-guided Temporal Attention (ATA) to extend 1-dimensional temporal attention with parameter-free patch-level alignments between neighboring frames. It can act as a general plug-in for image backbones to conduct the action recognition task without any model-specific design. Extensive experiments on multiple benchmarks demonstrate the superiority and generality of our module.
translated by 谷歌翻译
在临床实践中,放射科医生经常使用属性,例如病变的形态学和外观特征,以帮助疾病诊断。有效地建模属性以及所有涉及属性的关系可以提高医学图像诊断算法的概括能力和可验证性。在本文中,我们介绍了一种用于基于可验证属性的医学图像诊断的混合神经培养基推理算法。在我们的混合算法中,有两个平行分支,一个贝叶斯网络分支执行概率因果关系推理,图形卷积网络分支执行了使用特征表示的更通用的关系建模和推理。这两个分支之间的紧密耦合是通过跨网络注意机制及其分类结果的融合来实现的。我们已成功地将混合推理算法应用于两个具有挑战性的医学图像诊断任务。在LIDC-IDRI基准数据集上,用于CT图像中肺结核的良性恶性分类,我们的方法达到了95.36 \%的新最新精度,AUC为96.54 \%。我们的方法还可以在内部胸部X射线图像数据集上提高3.24 \%的精度,以诊断结核病。我们的消融研究表明,在非常有限的培训数据下,与纯神经网络体系结构相比,我们的混合算法的概括性能要好得多。
translated by 谷歌翻译
经过嘈杂标签训练的深层模型很容易在概括中过度拟合和挣扎。大多数现有的解决方案都是基于理想的假设,即标签噪声是类条件,即同一类的实例共享相同的噪声模型,并且独立于特征。在实践中,现实世界中的噪声模式通常更为细粒度作为实例依赖性,这构成了巨大的挑战,尤其是在阶层间失衡的情况下。在本文中,我们提出了一种两阶段的干净样品识别方法,以应对上述挑战。首先,我们采用类级特征聚类程序,以早期识别在班级预测中心附近的干净样品。值得注意的是,我们根据稀有类的预测熵来解决类不平衡问题。其次,对于接近地面真相类边界的其余清洁样品(通常与样品与实例有关的噪声混合),我们提出了一种基于一致性的新型分类方法,该方法使用两个分类器头的一致性来识别它们:一致性越高,样品清洁的可能性就越大。对几个具有挑战性的基准进行了广泛的实验,证明了我们的方法与最先进的方法相比。
translated by 谷歌翻译
尽管深入学习算法已被深入开发用于计算机辅助结核病诊断(CTD),但它们主要依赖于精心注释的数据集,从而导致了大量时间和资源消耗。弱监督的学习(WSL)利用粗粒标签来完成精细的任务,具有解决此问题的潜力。在本文中,我们首先提出了一个新的大规模结核病(TB)胸部X射线数据集,即结核病胸部X射线属性数据集(TBX-ATT),然后建立一个属性辅助的弱点监督的框架来分类并通过利用属性信息来克服WSL方案中的监督不足来定位结核病。具体而言,首先,TBX-ATT数据集包含2000个X射线图像,其中具有七种用于TB关系推理的属性,这些属性由经验丰富的放射科医生注释。它还包括带有11200 X射线图像的公共TBX11K数据集,以促进弱监督检测。其次,我们利用一个多尺度特征交互模型,用于TB区域分类和属性关系推理检测。在TBX-ATT数据集上评估了所提出的模型,并将作为未来研究的稳固基准。代码和数据将在https://github.com/gangmingzhao/tb-attribute-weak-localization上获得。
translated by 谷歌翻译
随着3D建模软件和游戏引擎的最新模拟进展,许多研究人员专注于在虚拟环境中体现AI任务。但是,研究社区缺乏一个可以轻松地为室内场景合成和使用各种算法进行基准测试的平台。同时,与计算机图形相关的任务需要一个工具包来实现高级合成技术。为了促进室内场景构建方法及其潜在的机器人技术应用的研究,我们介绍了Inoorkit:Nvidia Omniverse的内置工具包,为室内场景构建,场景随机化和动画控制提供灵活的管道。此外,在动画软件Inoorkit中将Python编码相结合,可以帮助研究人员创建实时培训,控制化身和机器人技术。该工具包的源代码可从https://github.com/realvcla/vrkitchen2.0-tutorial获得,并且该教程以及工具包可在https://vrkitchen20-tutorial.readthedocs.io/en/上获得。
translated by 谷歌翻译
建立一个社会智能代理人涉及许多挑战,其中一个是教导代理人以人类的价值交谈。然而,在对话系统的区域中仍然可以解读价值驱动的聊天聊天。大多数现有数据集重点关注致命的推理或社会规范建模。在这项工作中,我们提出了一个名为ValueNet的新的大型人类价值数据集,其中包含21,374个文本情景的人为态度。数据集在十维中组织,符合跨文化研究中的基本人类价值理论。我们进一步开发了ValueNet的基于变换器的值回归模型,以学习公用事业分配。综合实证结果表明,学习的价值模型可以使广泛的对话任务受益。例如,通过教授具有钢筋学习的生成代理和价值模型的奖励,我们的方法在个性化对话生成数据集中获得最先进的性能:Persona-Chat。具有额外特征的价值,现有的情感识别模型使得能够在上下文中捕捉丰富的人类情绪,这进一步提高了IncatheticDialogues数据集中的致力学响应生成性能。据我们所知,Valuenet是人类价值建模的第一个大型文本数据集,我们是第一个尝试将价值模型结合到情感智能对话系统中的人。数据集可在https://liang-qiu.github.io/valuenet/上获得。
translated by 谷歌翻译
计算机视觉中的当前预训练方法专注于日常生活中的自然图像。但是,诸如图标和符号之类的抽象图在现实世界中是常见的,很重要。这项工作受到坦格图的启发,这是一种需要从七个解剖形状复制抽象模式的游戏。通过录制人类在解决坦文图谜题方面的体验,我们展示了Tangram DataSet,并显示Tangram上的预先训练的神经模型有助于解决一些基于低分辨率视觉的迷你视觉任务。广泛的实验表明,我们所提出的方法为折叠衣服和评估室布局等审美任务产生智能解决方案。预训练的特征提取器可以促进人类手写的几秒钟学习任务的收敛性,并提高轮廓识别图标的准确性。Tangram DataSet可在https://github.com/yizhouzhao/tangram上获得。
translated by 谷歌翻译
Pretrain-Finetune范式是视觉学习的古典管道。最近对无监督预押方法的进展表现出卓越的转移绩效对其监督的对应物。本文重新审视了这种现象,并揭示了了解无监督和监督从多层赫克隆(MLP)观点的无监督和监督预先预测之间的可转移性差距。虽然以前的作品专注于MLP对无监督图像分类的有效性,其中预先训练和评估在同一数据集上进行预测和评估,但我们揭示了MLP投影仪的关键因素,以便更好地转移的预测方法比监督预测方法更好地转移。基于该观察,我们试图通过在监督预测的分类器之前添加MLP投影仪来缩小监督和无监督预测之间的可转移性差距。我们的分析表明,MLP投影仪可以帮助保留视觉特征的类内变化,降低预先训练和评估数据集之间的特征分布距离,并降低特征冗余。关于公共基准的广泛实验表明,添加的MLP投影机显着提高了监督预测的可转移性,例如\ TextBF {+7.2 \%}概念概念概念概念任务的1精度,\ textbf {+5.8 \%} top-1在Coco对象检测任务上的12个域分类任务的线性评估准确性,以及Coco对象检测任务的\ TextBF {+0.8 \%} AP,使监督预测可比或甚至优于无监督的预测。代码将在接受时发布。
translated by 谷歌翻译
基于学习的培训方法的方法通常需要大量包含现实布局的高质量场景并支持有意义的互动。然而,用于体现AI(EAI)挑战的当前模拟器仅提供具有有限数量的布局的模拟室内场景。本文呈现出发光,第一研究框架采用最先进的室内场景综合算法,以在体现AI挑战的情况下生成大规模模拟场景。此外,我们通过支持复杂的家庭任务的能力自动和定量地评估生成的室内场景的质量。发光结合了一种新颖的场景生成算法(受限的随机现场生成(CSSG)),实现了具有人类设计的场景的竞争性能。在发光,EAI任务执行器,任务指令生成模块和视频呈现工具包中可以集体为实现的AI代理商的培训和评估集体为新场景产生大量多模式数据集。广泛的实验结果表明了发光产生的数据的有效性,使对泛化和鲁棒性的体现特性进行全面评估。
translated by 谷歌翻译