我们提出极端视图合成,当输入图像的数量很小时,新视图外推的解决方案。在这种背景下,闭塞和深度不确定性是两个最紧迫的问题,并且随着外推程度的增加而恶化。最先进的方法通过平均显式几何约束或学习先验来解决这个问题。我们的关键见解是,只有对深度不确定性和图像先验进行建模才能解决极端情况。我们首先为新视图生成深度概率体积并合成所搜索图像的估计。然后,我们使用学习者与深度不确定性相结合来改进它。我们的方法是第一个显示高达30倍的基线放大倍数的视觉上令人满意的结果。
translated by 谷歌翻译
我们介绍了一种用于物体检测的新型无监督域自适应方法。我们的目标是同时缓解像素级别的不完美翻译问题,以及特征性差异的源偏差判别问题。我们的方法由两个阶段组成,即域多样化(DD)和多域不变表示学习(MRL)。在DD阶段,我们通过从源域生成各种不同的移位域来使标记数据的分布多样化。在MRL阶段,我们应用具有多域鉴别器的对抗性学习来鼓励在域之间难以区分的特征。 DD解决了资源偏向的歧视性问题,而MRL减轻了不完美的图像翻译。我们为学习范式构建了一个结构化的域适应框架,并介绍了DD实现的实用方法。在各种数据集中,我们的方法在平均精度(mAP)的3%~11%间隔范围内优于最先进的方法。
translated by 谷歌翻译
尽管深度神经语言模型取得了相当大的进步,但当这些模型作为文本生成器进行测试时,神经文本退化的神奇性仍然存在。反直觉的经验观察是,尽管使用可能性作为训练目标导致了广泛的语言理解任务的高质量模型,但使用可能性作为编码目标会导致文本变得乏味且奇怪地重复。在本文中,我们揭示了人类文本和机器文本之间令人惊讶的分布差异。此外,我们发现单独解码策略可以直接影响机器文本的质量,即使在生成相同的神经语言模型时也是如此。我们的研究结果激发了Nucleus Sampling,这是一种简单但有效的方法,可以最好地利用神经生成。通过从概率分布的动态核中采样文本,这允许多样性同时有效地截断分布的不太可靠的尾部,所得到的文本更好地证明了人类文本的质量,在不牺牲流畅性和连贯性的情况下产生增强的多样性。
translated by 谷歌翻译
我们介绍了SocialIQa,这是关于社交情境的常见理论的第一个大规模基准。该资源包含45,000个多选择问题,用于在各种日常情况下探测*情绪*和*社交*情报(例如,问:“Skylar参加了Jan的生日聚会并送了礼物.Skylar在此之前需要做什么?”答:“去购物”。通过众包,我们收集常识问题以及关于社交互动的正确和不正确的答案,使用一个新的框架,通过要求工人提供错误问题的正确答案,在不正确的答案中设计风格文物。虽然人类可以轻松解决这些问题(90%),但我们的基准测试对于现有问题回答(QA)模型更具挑战性,例如基于预训练语言模型的模型(77%)。值得注意的是,我们进一步建立SocialIQa作为传递常识知识的资源,在几个常识推理任务上实现最先进的表现(Winograd Schemas,COPA)。
translated by 谷歌翻译
使用多模态数据的分类出现在许多机器学习应用中。至关重要的是,不仅要有效地模拟跨模式关系,还要确保对部分数据或模式的丢失具有鲁棒性。在本文中,我们提出了一种新的基于深度学习的多模式融合架构,用于分类任务,保证与任何类型的学习模型兼容,仔细处理跨模态信息,并防止由于部分缺少数据而导致性能下降。我们使用两个数据集进行多模态分类任务,基于建筑物和其他最先进的模型构建模型,并分析它们在各种情况下的表现。结果表明,当某些数据部分不可用时,我们的架构优于其他多模式融合架构。
translated by 谷歌翻译
了解国际政治的动态对平民而言具有重要的挑战性。在这项工作中,我们探索无监督的神经模型,从新闻文章推断国家之间的关系。我们通过结合浅层语言学信息扩展现有模型,并提出一种新的自动评估指标,使关系动态与手动注释的关键事件保持一致。理解国际关系需要仔细分析复杂的关系,我们与三组参与者进行面对面的人道评估。总体而言,人类更喜欢我们模型的输出,并提供富有洞察力的反馈,这些反馈暗示了以人为中心的模型的未来发展。此外,我们的模型揭示了新闻报道中有趣的区域差异。例如,就美中关系而言,新加坡媒体更多地关注“强化”和“购买”,而美国媒体则更多地关注“批评”和“谴责”。
translated by 谷歌翻译
本文提出了一种基于被动理论的导纳控制器,用于动力上肢外骨骼机器人,该机器人由运动的非线性方程控制。无源性允许我们在控制回路中包括人类操作员和环境相互作用。机器人通过F / T传感器与人工操作员交互,并主要通过末端执行器与环境相互作用。虽然任何传感器都无法检测到环境相互作用(因此未知),但是被动性使我们能够进行自然的相互作用。分析表明,当控制增益变为无穷大时,实际系统的行为模仿了名义模型的行为,这意味着所提出的方法是导纳控制器。然而,由于控制增益在实践中无法无限增长,因此还分析了根据可控制增益的性能限制。该分析的结果表明,无限范数意义上的性能随着控制增益线性增加。在实验中,使用1自由度测试台验证了所提出的特性,并且使用实际动力的上肢外骨骼来提升和操纵未知有效载荷。
translated by 谷歌翻译
在强化学习(RL)中,时间抽象仍然是一个重要且未解决的问题。选项框架提供了RL中的时空抽象线索,选项评论体系结构优雅地解决了以端到端方式查找选项和学习RL代理的两个问题。但是,有必要检查通过此方法获得的选项是否起到相互排斥的作用。在本文中,我们提出了一个Hellinger距离正则化器,一种解决选项的方法。此外,我们将从统计学角度阐述各种指标,以与通过现有选择 - 评论体系结构学习的选项进行比较。
translated by 谷歌翻译
准确预测其他人的轨迹对于自动驾驶至关重要。轨迹预测是具有挑战性的,因为它需要推理代理人的过去运动,不同数量和代理人之间的社会交互,场景环境的约束以及人类行为的随机性。我们的方法在一种新颖的多智能体张量融合(MATF)网络中共同模拟这些相互作用和约束。具体而言,模型将多个代理的过去轨迹和场景上下文编码为多代理张量,然后应用卷积融合来捕获多重交互,同时保留代理的空间结构和场景上下文。该模型反复解码为多个特工的未来轨迹,利用对抗性损失来学习随机预测。在高速公路驾驶和行人人群数据集上的实验表明,该模型实现了最先进的预测精度。
translated by 谷歌翻译
随着科学论文数量的大量增加,在撰写科学论文时寻找参考文献是一个耗时的过程。可以在句子中的适当位置添加引用引用的技术将是有益的。从这个角度来看,已经针对二十二进制研究了情境感知引用建议。许多研究人员利用称为contextsentence的文本数据(围绕引文标记)和目标文件的元数据来找到适当的引用研究。然而,缺乏有组织的基准数据集以及没有能够获得高性能的模型使得研究变得困难。在本文中,我们提出了一个基于深度学习的模型和组织良好的数据集,用于上下文感知的纸质引文推荐。我们的模型包括adocument编码器和上下文编码器,它使用图形卷积网络(GCN)层和变换器的双向编码器表示(BERT),这是一种预先训练的文本数据模型。通过修改相关的PeerReaddataset,我们提出了一个名为FullTextPeerRead的新数据集,其中包含引用引用和纸质元数据的上下文句子。据我们所知,该数据集是第一个组织良好的数据集,用于上下文感知的纸张推荐。结果表明,所提出的具有所提出的数据集的模型可以获得最先进的性能并且实现平均精度(MAP)和召回@k的超过28%的改进。
translated by 谷歌翻译