我们通过视觉观察和语言输入共同推理,研究学习遵循自然语言指令的任务。与从示范学习(LfD)开始然后使用强化学习(RL)来微调模型参数的现有方法相比,我们提出了一种新的策略优化算法,其动态地调度演示学习和RL。所提出的训练范式提供了超越现有方法的有效探索和更好的泛化。与现有的集合模型相比,基于我们提出的方法的最佳单一模型极大地减少了对ablock-world环境的执行误差超过50%。为了进一步说明我们的RL算法的探索策略,我们还对训练期间政策熵的演变进行了系统研究。
translated by 谷歌翻译
我们提出了两种算法,它们可以在有限和一般随机非凸优化中比最先进的算法更快地找到局部最小值。所提出的算法的核心是$ \ text {One-epoch-SNVRG} ^ + $使用随机嵌套方差减少(Zhou etal。,2018a),其优于最先进的方差约简算法,如SCSG( Lei等,2017)。特别是,对于有限求和优化问题,建议的$ \ text {SNVRG} ^ {+} + \ text {Neon2} ^ {\ text {finite}} $算法达到$ \ tilde {O}(n ^ {1 / 2} \ epsilon ^ { - 2} + n \ epsilon_H ^ { - 3} + n ^ {3/4} \ epsilon_H ^ { - 7/2})$梯度复杂度收敛到$(\ epsilon,\ epsilon_H) )$ - second-ordertationary point,胜过$ \ text {SVRG} + \ text {Neon2} ^ {\ text {finite}} $(Allen-Zhu and Li,2017),这是现有的最佳算法,在广泛的范围内。对于一般随机优化问题,建议$ \ text {SNVRG} ^ {+} + \ text {Neon2} ^ {\ text {online}} $达到$ \ tilde {O}(\ epsilon ^ { - 3} + \ epsilon_H ^ { - 5} + \ epsilon ^ { - 2} \ epsilon_H ^ { - 3})$梯度复杂度,优于$ \ text {SVRG} + \ text {Neon2} ^ {\ text {online}}在某些制度下,$(Allen-Zhu和Li,2017)和Natasha2(Allen-Zhu,2017)。此外,我们探讨了目标函数的三阶平滑带来的加速度。
translated by 谷歌翻译
Extreme多标签分类(XML)是一项重要且具有挑战性的机器学习任务,它为每个实例分配一个极其庞大的标签集合中最相关的候选标签,其中标签,功能和实例的数量可能是数千或数百万。随着业务规模/范围和数据积累的增加,XML在互联网行业越来越受欢迎。极大的标签收集产生诸如计算复杂性,标签间依赖性和噪声标记之类的挑战。基于不同的数学公式,已经提出了许多方法来解决这些挑战。在本文中,我们提出了一种深度学习XML方法,其中包含基于字向量的自我关注,然后是基于排名的AutoEncoder架构。所提出的方法具有以下主要优点:1)自动编码器通过将标签和特征投影到公共嵌入空间上,同时考虑标签间依赖性和特征标签依赖性; 2)排名损失不仅可以提高训练效率和准确性,还可以扩展到处理噪声标记数据; 3)有效的注意机制通过突出特征重要性来改进特征表示。基准数据集的实验结果表明,所提出的方法是具有竞争力的先进方法。
translated by 谷歌翻译
如今,立体摄像机更常用于新兴设备,如双镜头智能手机和无人机。然而,它们还受到动态场景中的模糊图像的影响,这导致视觉上的不适并且妨碍进一步的图像处理。以前的工作已成功进行单目识别,但很少有关于立体图像去模糊的研究。通过开发立体图像的双视图特性,我们提出了一种具有深度感知和视图聚合的新型立体图像去模糊网络,名为DAVANet。在我们提出的网络中,结合了来自两个视图的深度和变化信息的3D场景提示,这有助于消除动态场景中复杂的空间变化模糊。具体而言,通过我们提出的融合网络,我们将双向差异估计和确定整合到一个统一的框架中。此外,我们提出了一个用于立体去模糊的大型多场景数据集,包含来自135个不同序列的20,637个模糊锐利图像对及其相应的双向差异。我们数据集上的实验结果表明,DAVANet在精度,速度和模型尺寸方面优于最先进的方法。
translated by 谷歌翻译
在本文中,我们提出了弱监督文档级多方面情感分类的变分方法。我们使用目标 - 意见词对作为“监督”,而不是使用由域专家提供的用户生成的评级或注释。可以使用依赖性解析器和简单规则来提取这些单词对。我们的目标是预测给定目标词的anopinion词,而我们的最终目标是学习情感极性分类器来预测文档中每个方面的情感极性。通过将潜在变量(即情感极性)引入目标函数,我们可以通过变分下界将情感极性分类器注入目标。我们可以通过优化下限来学习asentiment极性分类器。我们表明,我们的方法可以胜过在TripAdvisor和BeeAdvocate数据集上的弱监督基线,并且可以与最先进的监督方法相媲美,每个方面有数百个标签。
translated by 谷歌翻译
恢复非朗伯曲面的形状和反射率仍然是计算机视觉中的一个难题,因为视图相关的外观使传统的照片一致性约束失效。在本文中,我们介绍了一种新颖的同心多光谱光场(CMSLF)设计,可以一次性恢复任意材料表面的形状和反射率。我们的CMSLF系统由一排排列在同心圆上的摄像机组成,每个环捕获一个特定的光谱。结合多光谱环形光,我们能够通过光谱多路复用在单次拍摄中对视点和光照变化进行采样。我们进一步表明,这种同心相机/灯光设置导致跨视图的镜面交换的独特模式,从而实现稳健的深度估计。我们在CMSLF上制定基于物理的反射模型来估计深度和多光谱反射率图,而不强加任何表面先验。广泛的合成和实验表明,我们的方法优于最先进的基于光场的技术,特别是在非朗伯场景中。
translated by 谷歌翻译
密集视频字幕是一项极具挑战性的任务,因为视频中事件的准确和连贯描述需要全面了解视频内容以及个别事件的上下文推理。 Mostexisting方法通过首先从视频中检测事件提议然后对提议的子集进行字幕处理来处理此问题。结果,生成的句子倾向于冗余或不一致,因为它们未能考虑事件之间的时间依赖性。为了应对这一挑战,我们提出了一种新颖的密集视频字幕框架,它可以明确地模拟视频中事件的时间依赖性,并利用先前事件的视觉和语言环境进行连贯的叙事。该目标通过以下方式实现:1)整合事件序列生成网络以自适应地选择事件提议的序列,以及2)将事件提议序列馈送到我们的顺序视频字幕网络,该网络通过在事件和事件中通过两级奖励的强化学习进行训练。更好的上下文建模水平。在大多数指标中,所提出的技术在ActivityNet Captions数据集上实现了出色的性能。
translated by 谷歌翻译
估计条件依赖图和精度矩阵是现代统计和机器学习中最常见的问题。当完全观察到数据时,惩罚的最大似然型估计器已经成为在稀疏条件下估计图形模型的标准工具。这些方法扩展到数据受加性或乘性噪声污染的更复杂的设置已经在近几年发展起来。然而,在这些设置中,不太了解不同方法的相对性能,并且算法差距仍然存在。特别地,在高维设置中,这些方法需要使用非半正定矩阵作为输入,从而提出新颖的优化挑战。我们开发了一种交替方向乘法(ADMM)算法来解决这些问题,提供了一种可行的算法来估计具有不确定输入的精度矩阵和潜在的非凸性惩罚。我们将这种方法与现有的替代解决方案进行比较,并凭经验表征它们之间的交叉点。最后,我们使用这种方法来探索美国参议员从投票记录数据中估计的网络。
translated by 谷歌翻译
无监督的跨域人员重新识别(Re-ID)面临两个关键问题。一个是源域与目标域之间的数据分布差异,另一个是目标域中缺少标签信息。本文从表示学习的角度阐述了这一点。对于第一个问题,我们强调相机级子域的存在作为人Re-ID的独特特征,并且开发相机感知域适应,以减少源和域之间以及跨这些子域之间的差异。对于第二个问题,我们利用目标域的每个摄像机的时间连续性来创建判别信息。这是通过动态生成每批中的在线三元组来实现的,以最大限度地利用在训练过程中稳步改进的特征表示。总之,上述两种方法为人Re-ID提出了一种新的无监督深域适应框架。对基准数据集的实验和消融研究证明了它的优越性和有趣的特性。
translated by 谷歌翻译
由于3D传感器的普及,几何深度学习变得越来越重要。受NLP领域最新进展的启发,引入了自我关注变换器以消耗点云。我们开发PointAttention变换器(PAT),使用参数有效的Group ShuffleAttention(GSA)来代替昂贵的多头注意。我们证明了它能够处理大小变化的输入,并证明其置换等效性。此外,先前的工作使用启发式依赖于输入数据(例如,最远点采样)来分层选择输入点的子集。因此,我们第一次提出端到端可学习和任务不可知的采样操作,名为Gumbel子集采样(GSS),用于选择输入点的代表性子集。配备Gumbel-Softmax,它在训练阶段产生“软”连续子集,在测试阶段产生“硬”离散子集。通过以分层时尚方式选择代表性子集,网络以较低的计算成本学习输入集的更强表示。分类和分段基准的实验表明了我们方法的有效性和有效性。此外,我们提出了一种新颖的应用,将事件相机流处理为点云,并在DVS128手势数据集上实现最先进的性能。
translated by 谷歌翻译