我们介绍了一组九个挑战任务,测试理解功能词。这些任务是通过结构化突变数据集的句子来创建的,以便能够理解特定类型的功能词(例如,介词,wh-words)。使用这些探测任务,我们探索了各种预训练目标对句子编码器(例如,语言建模,CCG超级标准和自然语言推理(NLI))对学习代表的影响。我们的结果表明,对CCG进行预训练 - 我们最常用的语法 - 在我们的探究任务中平均表现最佳,这表明句法知识有助于词汇理解。语言建模也显示出强大的性能,支持其广泛用于预训练最先进的NLP模型。总的来说,没有预训练目标支配董事会,我们的功能词探测任务突出了预训练目标之间的几个直观差异,例如,NLI有助于理解否定。
translated by 谷歌翻译
机器学习系统通常可以通过依赖于对常见示例类型有效但在更具挑战性的情况下崩溃的启发式方法在测试集上实现高性能。我们在自然语言推理(NLI)中研究这个问题,这是确定一个句子是否需要另一个句子的任务。基于对任务的分析,我们假设NLI模型可能采用的三种易错的语法:词汇重叠启发式,子序列启发式和成分启发式。为了确定模型是否采用了这些启发式方法,我们引入了一个名为HANS(NLI系统的启发式分析)的受控评估集,其中包含启发式失败的许多示例。我们发现在MNLI上训练的模型,包括最先进的模型BERT,对HANS的表现非常差,这表明他们确实采用了这些启发式方法。我们得出结论,NLI系统有很大的改进空间,HANS数据集可以激励和衡量这一领域的进展。
translated by 谷歌翻译
关于语境化词语表示问题的研究 - 用于句子理解的可重用神经网络组件的发展 - 最近出现了一系列进展,其中心是使用ELMo等方法进行语言建模的无监督预训练任务。本文提供了第一个大规模的系统研究,比较了该语境中不同的预训练任务,既作为语言建模的补充,也作为潜在的替代。该研究的主要结果支持使用语言模型作为预训练任务,并使用语言模型的多任务学习在可比模型中设置新的技术水平。然而,仔细观察这些结果可以发现令人担忧的强大基线和跨越目标任务的惊人变化的结果,这表明广泛使用的预训练和冻结句子编码器的范例可能不是进一步工作的理想平台。
translated by 谷歌翻译
自然语言中的句法规则通常需要引用分层句子结构。然而,语言学习者接收的简单示例通常与线性规则同样兼容。儿童一直忽略这些线性解释,而是选择正确的层次解释。这一事实激发了学习者的假设空间被限制为仅包括分层规则的提议。我们使用递归神经网络(RNN)来检验这个提议,这些网络不受这种方式的约束。我们在英语片段中模拟问题形成的获得,分层转换。我们发现一些RNN体系结构倾向于学习分层规则,这表明语言中的分层结构与某些RNN中隐含的隐式结构偏差相结合,可能足以引发分层泛化。当语言包含主语 - 动词协议形式的层次结构的附加提示时,获得等级泛化的可能性增加,强调了提示者在输入中的层次结构的作用。
translated by 谷歌翻译
用于单视图对象重建的卷积网络已经表现出令人印象深刻的性能并且已经成为研究的热门主题。 Allexisting技术结合了一个编码器 - 解码器网络的概念,该网络执行关于输出空间的3D结构的非平凡推理。在这项工作中,我们分别建立了两种执行图像分类和检索的替代方法。这些简单的基线在质量和数量上都比最先进的方法产生更好的结果。我们表明编码器 - 解码器方法在统计上与这些基线无法区分,因此表明当前的现有状态的单视图对象重建实际上并不存在。执行重建butimage分类。我们确定了引发这种行为的流行实验程序的各个方面,并讨论了改善当前研究状态的方法。
translated by 谷歌翻译
许多关于(离线)手写文本识别(HTR)系统的研究都集中在构建用于小型线上线识别的最先进模型。但是,将HTR功能添加到大规模多语言OCR系统中提出了新的挑战。本文讨论了建筑物这三个问题:数据,效率和集成。首先,最大的挑战之一是获得足够数量的高质量培训数据。通过使用为大规模生产在线手写识别系统收集的在线手写数据来解决该问题。我们描述了imagedata生成管道,并研究了如何使用在线数据来构建HTR模型。我们表明,在只有少量真实图像可用的情况下,数据显着改善了模型,这通常是HTR模型的情况。它使我们能够以更低的成本支持新脚本。其次,我们提出了一种基于神经网络的线路识别模型,没有循环连接。该模型使用基于LSTM的模型实现了无与伦比的准确性,同时允许在训练和推理中实现更好的并行性。最后,我们提出了一种将HTR模型集成到OCR系统中的简单方法。这些构成了将HTR能力引入大规模OCR系统的解决方案。
translated by 谷歌翻译
我们提出了核点卷积(KPConv),一种新的点卷积设计,即在没有任何中间表示的情况下对点云进行操作。 KPConv的卷积权重由核心点位于欧几里德空间中,并应用于靠近它们的输入点。它能够使用任意数量的内核点,使KPConv比固定的网格卷更具灵活性。此外,这些位置在空间上是连续的并且可以由网络学习。因此,KPConv可以扩展到可变形的卷积,学习如何使核心点适应局部几何。感谢常规的子采样策略,KPConv对于不同的密度也是高效且稳健的。无论是将可变形KPConv用于复杂任务,还是将KPconv用于更简单的任务,我们的网络在几个数据集上都优于最先进的分类和分割方法。我们还进行了研究和可视化,以提供对KPConv已经学到的知识的理解,并验证可变形KPConv的描述能力。
translated by 谷歌翻译
为了估计由亲和性和两个径向畸变构成的眼底图像的配准模型,我们引入了基于血管之间误差的估计标准。在[1]中,我们通过最小化特征点之间的误差来估计该模型。在本文中,使用从我们的模型推导出的重叠对象的圆和椭圆方程来选择检测到的血管。我们的方法成功地将271对中的96%记录在主要使用不同相机获取的公共卫生数据集中。这比我们以前的方法[1]更好,并且比其他三种最先进的方法更好。在公开可用的数据集上,我们仍然比参考方法更好地注册图像。
translated by 谷歌翻译
已经开发了面部去识别算法以响应公共视频记录和监视摄像机的普遍使用。在这里,我们评估了在监控驾驶员的情况下身份掩蔽的成功,因为他们积极地操作机动车辆。我们比较了使用人类感知器的八种去识别算法的有效性。所测试的算法包括用于面部动作转移(FAT)的个性化监督双线性回归方法,呈现通用化身表面的DMask方法,以及使用和不使用图像极性反转(Canny,Scharr)实现的两种边缘检测方法。我们还使用了一种结合FAT和Canny方法的Overmask方法。我们比较了这些身份屏蔽方法,以识别驱动程序的未屏蔽视频。人类受试者在标准的面部识别实验中进行了测试,其中他们以高分辨率(工作室风格)图像学习驾驶员身份,并随后测试他们识别这些个人驾驶的蒙面和未掩盖视频的能力。相对于未屏蔽的视频,所有屏蔽方法基本上降低了识别准确度。最成功的方法,DMask和Canny,将人类识别性能降低到接近随机。在所有情况下,使用严格的决策标准进行鉴定,表明受试者对其决策的信心不足。我们得出结论,经过仔细测试的去识别方法,单独使用或组合使用,可以成为保护捕获的视频个人隐私的有效工具。未来的工作应该检查最有效的方法如何保持面部动作识别。
translated by 谷歌翻译