我们提出了两种基于新的可学习三角测量方法的多视图3D人体姿态估计的新颖解决方案,该方法结合了来自多个2D视图的3D信息。第一(基线)解是基本的可微分的代数三角测量,其中增加了从输入图像估计的置信度。第二种解决方案基于来自中间2D骨干特征图的体积聚集的新方法。然后通过3D卷积来精确聚集的体积,其产生最终的3D关节热图并且允许先前对人体姿势建模。至关重要的是,这两种方法都是端到端可区分的,这使我们能够直接优化目标指标。我们展示了跨数据集的解决方案的可转移性,并显着改善了Human3.6M数据集上的多视图技术水平。 Videodemonstration,注释和其他材料将发布在我们的项目页面(https://saic-violet.github.io/learnable-triangulation)。
translated by 谷歌翻译
利用观测到的流体压力和速率的瞬态数据来校准储层模型是获得地球地下流动和运移行为的预测模型的关键任务。模型校准任务,通常称为“历史匹配”,可以形式化为不适定的反问题,其中我们的目标是找到解释观察到的动态数据的岩石物理特性的基础空间分布。我们使用在地质统计学基于对象的模型上预训练的年龄对抗网络来表示烃类储层合成模型的岩石属性分布。使用瞬态两相不可压缩达西公式来模拟储层流体的动态行为。通过首先使用预先训练的生成模型对属性分布进行建模,然后使用前向问题的相邻方程对控制生成模型输出的潜变量进行梯度下降,对基础储层性质进行转换。除了动态观测数据外,我们还通过引入额外的目标函数来包括岩石类型的约束。我们的贡献表明,对于一个综合测试案例,我们能够通过优化深度生成模型的潜变量空间来获得逆问题的解,给出一组非线性前向问题的瞬态观察。
translated by 谷歌翻译
我们提出了一种新的贝叶斯非参数方法来学习非欧几里德域上的翻译不变关系。结果图卷积高斯过程可以应用于机器学习中的问题,其中输入观察是具有通用图上的域的函数。这些模型的结构允许高维输入,同时保持可表达性,如卷积神经网络的情况。我们将图形卷积高斯过程应用于图像和三角网格,展示了它们的多功能性和有效性,与现有方法相比,尽管是相对简单的模型。
translated by 谷歌翻译
在过去的十年中,受到大脑启发的人工智能(AI)模型在执行真实世界的感知任务(如对象分类和语音识别)方面取得了前所未有的进步。最近,自然智能的研究人员已经开始使用这些AI模型来探索大脑如何执行这些任务。这些发展表明,未来的进展将受益于学科之间不断增加的互动。在这里,我们将AlgonautsProject介绍为一个结构化和定量的沟通渠道,用于自然和人工智能研究人员之间的跨学科交互。该项目的核心是一个开放的挑战,其定量基准,其目标是通过计算模型来计算大脑数据。该项目有可能提供更好的自然智能模型,并收集推进人工智能的研究结果。 2019年的Algonauts项目专注于对人类观察物体图像时预测人类大脑活动的计算模型进行基准测试。 2019年版的Algonauts项目可在线获取:http://algonauts.csail.mit.edu/。
translated by 谷歌翻译
深度图像分类模型的最新进展为改善相关计算机视觉任务中的最新性能提供了巨大的潜力。然而,当前GPU的严格的存储限制阻碍了向语义分割的过渡。卷积反向支持所需的特征映射高速缓存的范围甚至对形状尺寸大的Pascal图像提出了重大挑战,同时当源分辨率在百万像素范围内时需要仔细的架构考虑。为了解决这些问题,我们提出了一种新颖的基于DenseNet的梯形式架构,该架构具有高建模能力和非常精益的上采样数据路径。 Wealso建议通过利用DenseNet特征提取器的固有空间效率来大幅减少特征映射缓存的范围。与竞争对手相比,这些模型可提供高性能,参数更少,并允许在商品硬件上以百万像素分辨率进行培训。所呈现的实验结果优于Cityscapes,Pascal VOC2012,CamVid和ROB 2018数据集上的预测准确性和执行速度的最新技术。源代码将在出版时发布。
translated by 谷歌翻译
随着网络信息技术的快速发展,越来越多的人沉浸在网络带来的虚拟社区环境中,忽视了现实生活中的社会互动。随之而来的诽谤问题变得越来越严重。通过宠物机器人和育种者之间的情感沟通促进人与人之间的离线沟通“解决了这个问题,并开发了一种名为”汤姆“的设计。”汤姆“是一个智能宠物机器人,具有基于petrobot的社交机制,名为”Tom-本文的主要贡献是提出一种名为“Tom-Talker”的社交机制,鼓励用户离线社交。“Tom-Talker”也有相应的奖励机制和朋友推荐算法。它还提出了一个宠物机器人名为“汤姆“通过情感交互算法识别用户的情绪,模拟动物的情绪,并用情感进行交流。本文设计实验并分析结果。结果表明,荆棘机器人对解决城市自闭症问题有很好的效果。
translated by 谷歌翻译
尽管人体形状随着不同身份的不同身份而变化,但由于结构的相似性,它们可以嵌入到低维空间中。受近期基于变形的网格表示的潜在表示学习的启发,我们提出了一种类似于网络体系结构的自动编码器,可以专门为3D人体学习解开形状和姿势嵌入。我们还将粗到细的重构管道整合到解开过程中,以提高建筑的准确性。此外,我们构建了一个人体模型的大型数据集,其具有一致的拓扑结构,用于神经网络的学习。我们的学习嵌入不仅可以实现更高的重建精度,而且还可以通过插值,双向插值和潜在空间采样在3D人体创造中提供很大的灵活性,这通过广泛的实验得到证实。构建的数据集和训练的模型将公开发布。
translated by 谷歌翻译
众所周知,单眼三维物体检测是一种具有挑战性的视觉任务,因为缺少深度信息;尝试使用单独的仅图像方法恢复深度会导致不稳定和噪声的深度估计,从而损害3D检测。在本文中,我们提出了一种基于关键点的新方法,用于从单个RGB图像进行3D对象检测和定位。我们围绕图像中的2D关键点检测构建了多分支模型,并使用概念上简单的几何推理方法进行补充。我们的网络以端到端的方式执行,同时并相互依赖地估计2D特征,例如2D边界框,关键点和方向,以及场景中的完整3D姿势。我们融合不同分支的输出,在训练期间应用重投影一致性损失。对具有挑战性的KITTI数据集基准测试的实验评估表明,我们的网络在其他单眼3D探测器中实现了最先进的结果。
translated by 谷歌翻译
在3D手姿势估计领域已经取得了巨大的进展,但是3D深度相机通常是不可访问的。我们提出了一种模型来识别RGB图像中的美国手语字母表。在训练深度神经网络之前,对训练图像进行了分析和预处理。该模型采用squeezenet架构进行训练,使其能够在移动设备上运行,精度为83.29%。
translated by 谷歌翻译
我们建议通过利用对抗过程训练自我监督学习来改进无条件生成对抗网络(GAN)。特别地,我们通过输入图像的几何变换应用自我监督学习,并将伪标签分配给这些变换图像。 (i)除了区分数据(真实)和生成(假)样本的GAN任务之外,我们训练鉴别器以预测真实变换样本的正确伪标签(分类任务)。重要的是,我们发现同时训练鉴别器以将假类别与真实样本的伪类别进行分类以进行分类任务将改进判别器并随后引导更好的指导训练发生器。 (ii)通过尝试将鉴别器与GAN任务以及分类任务混淆来训练发生器。对于分类任务,生成器试图将识别输出转换的鉴别器混淆为真实转换类之一。特别是,我们利用当发生器创建的样本导致类似于真实样本的损失(viacross-entropy)时,训练更稳定并且生成器分布趋向于更好地匹配数据分布。当我们将技术集成到最先进的基于自动编码器(AE)的GAN模型中时,它们有助于显着提升模型的性能,并且还可以建立最先进的Fr \'echet初始距离(FID)分数在CIFAR-10和STL-10数据集的无条件GAN文献中。
translated by 谷歌翻译