序列到序列模型是NLP的强大主力。大多数变体在其注意机制和输出层中都采用softmax变换,导致密集对齐和严格正输出概率。这种密度是浪费的,使得模型可解释性较差,并为许多难以置信的输出分配概率质量。在本文中,我们提出了sparsese序列到序列模型,植根于$ \ alpha $ -entmaxtransformations的新系列,其中包括softmax和sparsemax作为特定情况,并且对于任何$ \ alpha> 1 $都是稀疏的。我们提供快速算法来评估这些变换及其渐变,这些算法可以很好地扩展到大型词汇表。我们的模型能够生成稀疏对齐并将非非可置性分配给可能输出的简短列表,有时会使波束搜索精确。形态学变形和机器平移的实验揭示了密集模型的一致增益。
translated by 谷歌翻译
在过去的几十年中,已经针对各种监督学习任务提出了许多损失函数,包括回归,分类,排序和更一般的结构化预测。了解支撑这些损失的核心原则和理论属性是正确解决正确问题的关键,并创造新的损失,并结合其优势。在本文中,我们介绍了Fenchel-Younglosses,一种为正则预测函数构造凸损失函数的通用方法。我们在非常广泛的环境中提供他们的属性的深入研究,涵盖所有上述监督学习任务,并揭示稀疏性,广义熵和分离边缘之间的新联系。我们证明Fenchel-Young损失统一了许多众所周知的损失函数,并允许轻松创建有用的新函数。最后,我们得出了有效的预测和训练算法,使Fenchel-Young在理论和实践中都有所损失。
translated by 谷歌翻译
深度NLP模型受益于数据中的底层结构 - 例如,parsetrees--通常使用现成的解析器提取。最近联合学习潜在结构的尝试遇到了权衡:要么制定限制表达的假设,要么牺牲端到端的可区分性。使用最近提出的SparseMAP推理,其在潜在结构上进行稀疏分布,我们提出了与潜在预测器一起用于潜在结构预测器的端到端学习的新方法。据我们所知,我们的方法是从全局结构中首次实现无限制的动态计算图构造,同时保持可微性。
translated by 谷歌翻译
结构化预测需要搜索组合数量的结构。为了解决这个问题,我们引入了SparseMAP:一种新的sparsestructured推理方法及其自然损失函数。 SparseMAP仅自动选择少数全局结构:它位于MAP推理(选择单个结构)和边际推理之间,边际推理为所有结构(包括难以置信的结构)分配概率质量。重要的是,可以仅使用对MAP oracle的调用来计算SparseMAP,使其适用于具有难以处理的边际推断的问题,例如线性对齐。稀疏性使梯度反向传播无论结构如何都有效,使我们能够利用通用和稀疏结构的隐藏层来增强深度神经网络。依赖性解析和自然语言推理中的实验揭示了竞争准确性,改进的可解释性以及捕获自然语言模糊性的能力,这对于管道系统是有吸引力的。
translated by 谷歌翻译
在电子制定过程中,美国的行政机构每年都会收到数百万条关于拟议的机构行动的评论。这些评论代表了支持和反对提案的各种论点。虽然要求各机构确定并回应实质性评论,但他们仍在努力跟上信息量。在这项工作中,我们解决了识别论证文本的任务,对所使用的论证索赔的类型进行分类,以及确定评论的立场。首先,我们基于对数千条规则和数百万条评论的分析,提出了论证主张的分类。其次,我们收集和半自动引导注释,以在句子级别创建具有参数声明类型注释的数百万个句子的数据集。第三,webuild一个系统,用于在层次分类模型中使用我们提出的分类法自动确定参数跨度和索赔类型。
translated by 谷歌翻译
本文提出了一个新的任务,即视频中时空识别描述的基础。以前的工作表明现有数据集中存在潜在偏差,并强调需要新的数据创建模式以获得更好的模型结构。我们引入了一种基于表面实现的语法约束的新数据采集方案,使我们能够研究视频中基础时空识别描述的问题。 Wethen提出了一个双流模块化注意网络,该网络基于外观和运动来学习和发现时空识别描述。通过模块化神经网络解决模块之间的任务干扰,可以看出运动模块有助于解决与运动相关的单词,并且还有助于在外观模块中使用。最后,我们提出了一个未来的挑战,并且需要一个强大的系统,这个系统来自用自动视频对象检测器和时间事件定位替换地面真实视觉注释。
translated by 谷歌翻译
光流算法的当前基准通过将它们的预测流场与地面实况进行比较来评估估计质量,并且另外可以基于这些预测将插值帧与来自实际图像序列的正确帧进行比较。对于后者的比较,应用诸如均方误差的客观测量。然而,图像插值,预期用户的体验质量等因素无法从这些简单的质量测量中完全推断出来。因此,我们通过众包对其中一个光流基准测试中提供的插值图像进行了主观质量评估研究,即中间地区基准测试。我们使用经典最小二乘法,根据瑟斯顿的模型,使用强制选择和重建绝对质量标度值进行配对比较。结果导致了141个参与算法的重新排序w.r.t.内插帧的视觉质量最基于光流估计。我们的重新排序结果显示了视觉质量评估的必要性,作为光流和帧插值基准的另一个评估指标。
translated by 谷歌翻译
研究了在训练和推理阶段期间最大可能的批量大小(对于更好的运行时间)对图形处理单元(GPU)和张量处理单元(TPU)的性能的影响。在标准MNIST和Fashion-MNIST数据集上进行了大量的这些深度神经网络(DNN)。与极其强大的GPU NVIDIA Tesla K80卡相比,即使极度大规模使用谷歌TPUv2单元(仅8核),也可获得显着的加速,训练阶段的加速可达10倍(不考虑开销)并加速到2x预测阶段(有和没有考虑开销)。 precisespeedup值取决于TPUv2单位的利用水平,并随着处理过程中数据量的增加而增加,但对于这项工作中使用的数据集(MNIST和Fashion-MNIST,图像大小为28x28),批量大小> 512张图像的加速比例用于训练阶段和> 40 000个用于预测阶段的图像。应该注意的是,这些结果是在不损害预测准确度和损失的情况下获得的,GPU和TPU都是相同的,直到MNIST数据集的第3个有效数字,并且直到Fashion-MNIST数据集的第2个有效数字。
translated by 谷歌翻译
为城市场景理解准备高质量数据集是一项艰巨的任务,尤其是针对自动驾驶应用而设计的数据集。应用这些数据集的粗糙地面实况(GT)注释而不损害语义图像分割的准确性(通过联合上的平均交叉 - mIoU)可以简化并加速数据集准备和模型微调之前的实际应用。在这里,PSPNet深度学习架构获得的语义分割准确性的比较分析结果是针对来自Cityscapes数据集的精细和粗略注释图像。调查了两种情景:情景1 - 用于训练和预测的精细GT图像,以及情景2 - 用于训练的精细GT图像和用于预测的粗略GTi图像。得到的结果表明,对于最重要的类,粗GT引用的语义图像分割的平均准确度值高于精细GT注释的平均准确度值,而标准偏差值则相反。这意味着对于某些应用程序,可以排除一些重要的类,并且可以针对粗GT数据集上的某些类和特定区域进一步调整模型,而不会损失精确度。此外,这打开了使用深度神经网络来准备这种粗略GT数据集的观点。
translated by 谷歌翻译
最近游戏玩法人工智能的能力爆炸式增长。从视频游戏到电动机控制到棋盘游戏,许多类别的任务现在都可以通过基于深度学习和强化学习的相当通用的算法来解决,这些算法学习用最少的先验知识来体验。然而,这些机器通常不会仅通过智能获胜 - 它们具有极高的速度和精度,使它们能够以人类永远无法实现的方式行事。为了平衡竞争环境,我们将机器的反应时间限制在人的水平,并发现标准的深层强化学习方法会迅速降低性能。我们提出了一个由人类感知启发的行动延迟问题的解决方案 - 赋予代理人一个环境的神经预测模型,“解除”他们环境中固有的延迟 - 并展示它对Super Smash Bros. Melee中职业玩家的效果,一个流行的控制台格斗游戏。
translated by 谷歌翻译