我们提供了一种实用且强大的深度学习解决方案,用于捕捉和渲染复杂现实世界场景的新视图以进行虚拟探索。以前的方法要么需要难以置信的密集视图采样,要么提供用户应该如何对场景进行采样以提供高质量可靠性的指导新意见。相反,我们从采样视图的不规则网格提出了一种用于视图合成的算法,该算法首先通过多平面图像(MPI)场景表示将每个采样视图扩展为局部光场,然后通过混合相邻的局部光场来渲染新颖视图。我们扩展了传统的全光采样理论,以推导出一个界限,用于精确指定用户在使用我们的算法时应该如何密集地对给定场景的视图进行采样。在实践中,我们应用此界限捕获和渲染真实世界场景,实现奈奎斯特速率视图采样的感知质量,同时使用多达4000倍的视图。我们通过增强现实智能手机应用程序展示了ourapproach的实用性,该应用程序引导用户捕获场景的输入图像,以及在桌面和移动平台上实现实时虚拟探索的查看器。
translated by 谷歌翻译
在本文中,我们调查了为对话系统评估而开发的方法和概念。评估是开发过程中的关键部分。通常,对话系统通过人工评估和问卷调查进行评估。然而,这往往是非常耗费成本和时间的。因此,已经做了很多工作来寻找能够减少人工劳动的方法。在本次调查中,我们提出了主要的概念和方法。为此,我们区分了各种对话系统(面向任务的对话系统,会话对话系统和问答 - 对话系统)。我们通过介绍为对话系统开发的主要技术,然后介绍有关该课程的评估方法,涵盖每个课程。
translated by 谷歌翻译
遮挡去除是图像增强的一个有趣应用,因此,现有工作建议手动注释或特定于域的遮挡去除。没有工作试图解决自动遮挡检测和删除作为上下文感知的一般问题。在本文中,我们提出了一种新方法,用于识别与图像上下文无关的对象作为遮挡并将其移除,重建相干占据的空间。所提出的系统通过考虑表示为矢量嵌入的前景和背景对象类之间的关系来检测遮挡,并通过修复去除它们。我们在COCO-Stuff数据集上测试我们的系统并进行用户研究以在上下文感知的自动遮挡移除中建立基线。
translated by 谷歌翻译
胶囊网络在深度学习中是一个很有前景的概念,但到目前为止还没有完全实现其真正的潜力,在具有复杂数据的几个关键基准数据集上提供低于标准的性能。通过深入研究由卷积神经网络(CNN)实现的成功直觉,我们引入DeepCaps1,一种深度的胶囊网络架构,它采用了一种新颖的基于3D卷积的动态路由算法。通过DeepCaps,我们在CIFAR10,SVHN和时尚MNIST上的胶囊网络领域超越了最先进的结果,同时实现了68%的参数数量减少。此外,我们提出了一个独立于类的解码器网络,它增强了重建损失作为正规化术语的使用。这导致解码器的有趣特性,这允许我们识别和控制由实例化参数表示的图像的物理属性。
translated by 谷歌翻译
一种提高搜索引擎检索效率的技术是使用与文档内容相关或代表的术语来扩展文档。从问答系统的角度来看,文档的有用表示可能包含它可能潜在回答的问题。根据这一观察结果,我们提出了一种简单的方法,该方法预测将为给定文档发出哪些查询,然后使用这些预测进行扩展。我们使用查询和相关文档的数据集,使用受监督学习训练的vanillasequence-to-sequence模型进行预测。通过将我们的方法与高效的重新排序组件相结合,我们实现了双重任务的最新技术水平。在延迟关键的制度中,单独的检索结果(没有重新排序组件)接近更多计算上昂贵的神经再造者的有效性,同时仅占用查询延迟的一小部分。
translated by 谷歌翻译
由于缺乏大量标记的训练数据,许多本地化语言难以从字符识别系统中获得最近进步的好处。这是由于难以为这些语言生成大量标记数据,并且无法通过深度学习技术从少量训练样本中正确学习。我们通过引入从现有样本生成新训练样本的技术来解决该问题,其中通过向其对应的实例化参数添加随机受控噪声来实现反映人手写中存在的实际变化的逼真增强。我们的结果是,每类仅有200个训练样本超过EMNIST字母数据集中现有的字符识别结果,同时实现了三维数据集中的现有结果:EMNIST平衡,EMNIST数字和MNIST。我们还开发了一种策略来有效地使用损失函数的组合来改进重建。我们的系统在缺少标记的训练数据的局部语言的字符识别中是有用的,甚至在其他相关的更一般的上下文中也可用于对象识别。
translated by 谷歌翻译
监视,建造,搜索和救援等复杂任务可以有利于多旋翼微型飞行器(MAV)的机动性,以获得稳健的协作系统行为和编队控制是这些复杂任务的重要组成部分。这项工作集中在通过使用相关的感觉信息来控制多旋翼MAV的三维形成问题。它提出了一种领导者 - 跟随者方案中的集中式非线性模型预测控制(NMPC)方法。在控制律中引入了多转子MAV的现实六自由度数学模型。该问题的表述基于NMPC和相对于机器人的局部坐标系的相对感测框架来执行。这种类型的配方使得形成独立于全局或共同参考框架的全部知识以及昂贵的全局定位传感器的利用。通过考虑新颖的方法,提出了基于实时迭代(RTI)的最优控制问题(OCP)解决方案。广泛的场景旨在测试和验证策略。对结果的评估表明,在局部传感器的模型不确定性和噪声下,甚至在地层的动力学突然改变的情况下,实现并保持了令人满意的鲁棒性能。
translated by 谷歌翻译
手动注释对象分割掩码非常耗时。交互式对象分割方法提供了一种更有效的替代方法,即人类注释器和机器分割模型协作。在本文中,我们为交互式分割做出了一些贡献:(1)系统地探索了深度交互式分割模型的设计空间,并报告了新的见解和注意事项; (2)我们使用真实的人类注释器执行大规模注释活动,为OpenImages数据集上的2.5M新实例生成掩码。我们计划发布此数据,这些数据构成了用于实例分段的最大现有数据集。此外,通过重新注释部分COCO数据集,我们证明我们可以比传统的多边形绘制工具生成实例掩模的速度快3倍。 (3)我们提出了一种自动估计生成的掩模质量的技术,该技术利用来自注释过程的间接信号。
translated by 谷歌翻译
从人工智能的历史开始,人们一直对游戏作为研究平台感兴趣。随着该领域的发展,人类能力不完整的游戏成为研究人员努力达到的目标。只有相对最新的目标才能最终满足传统的桌面游戏,如步步高,国际象棋和围棋。目前的研究重点已经转移到电子游戏,这提供了独特的挑战。正如人工智能研究的情况一样,这些结果可能被作者或第三方夸大或歪曲。这些游戏基准在多大程度上构成了人与人之间的公平竞争,这也是一个争论的问题。在这项工作中,查看了作者和第三方在一般媒体和学术界关于这些游戏基准测试结果的陈述,并讨论了影响人与机器之间竞争公平感的因素。
translated by 谷歌翻译
在本研究报告中,我们提出了一个独立于语言的系统来模拟意外目标提取(OTE)作为序列标记任务。该系统包含在简单的浅局部特征之上实现的聚类特征的组合。众所周知的Aspect BasedSentiment Analysis(ABSA)基准测试的实验表明,我们的方法在语言上非常具有竞争力,在七种不同的数据集中获得六种语言的最佳结果。此外,结果提供了对序列标记任务的聚类特征的行为的进一步见解。在这项工作中产生的系统和模型可供公众使用,并促进结果的重现性。
translated by 谷歌翻译