基于蒸馏的学习基于以下假设提高了小型化神经网络的性能:教师模型的表示可以用作结构化且相对弱的监督,因此可以通过小型化模型容易地学习。然而,我们发现,对于训练一个小学生模型来说,交错重型模型的表示仍然是一个强大的约束,这导致了同余损失的高下界。在这项工作中,受课程学习的启发,我们从路线学课程学习的角度考虑知识蒸馏。我们使用融合教师模型监督学生模型,而不是使用从教师模型传递的参数空间中的路径中选择的一些锚点来监督它,我们称之为路径约束优化(RCO)。我们通过实验证明这种简单的操作大大降低了同形体的下限,用于知识蒸馏,暗示和模仿学习。在像CIFAR100和ImageNet这样的密集分类任务中,RCO分别将知识分析提高了2.14%和1.5%。为了评估一般化,我们还在开放式人脸识别任务MegaFace上测试RCO。
translated by 谷歌翻译
具有基于文本或基于语音的对话界面的智能个人助理系统正变得越来越流行。大多数先前的研究使用基于检索或基于生成的方法。基于检索的方法具有返回流畅和信息性响应的优点,具有很大的多样性。检索到的响应更容易解释。但是,响应检索性能受响应存储库大小的限制。另一方面,尽管基于生成的方法可以在给定对话上下文的情况下返回高度一致的响应,但是它们可能返回具有不足的地面知识信息的普遍或一般响应。在本文中,我们构建了一个具有响应检索和生成能力的混合神经对话模型,并结合了这两种方法的优点。关于Twitter和Foursquare数据的实验结果表明,在自动评估指标和人工评估下,所提出的模型可以优于基于检索的方法和基于生成的方法(包括最近提出的知识接地神经对话模型)。我们的模型和研究发现提供了关于如何集成文本检索和文本生成模型以构建会话系统的新见解。
translated by 谷歌翻译
本文描述了针对机器翻译(MT),实体发现和链接(EDL)以及文本和语音中的情景帧(SF文本和语音)的检测的低资源人类语言技术(LoReHLT)2018评估的ARIEL-CMU提交。
translated by 谷歌翻译
在本文中,我们提出了一个统一的多目标跟踪(MOT)框架学习,以充分利用长期和短期线索来处理MOT场景中的复杂情况。此外,为了更好地关联,我们提出了切换器感知分类(SAC),它考虑了潜在的身份切换监视器(切换器)。具体而言,所提出的框架包括用于捕获短期线索的单个对象跟踪(SOT)子网,用于提取长期线索的用于识别(ReID)的子网以及用于使用来自maintarget的提取的特征来进行匹配决策的切换器感知分类器。和切换器。短期线索有助于发现假阴性,而长期线索避免了发生阻塞时的严重错误,并且SAC会以有效的方式结合多个线索并提高稳健性。该方法在具有挑战性的MOT基准测试中得到评估,并实现了状态。 - 结果。
translated by 谷歌翻译
视频动作识别中的现有方法大多不区分人体与环境并且容易过度拟合场景和对象。在这项工作中,我们提出了一个概念上简单,通用和高性能的框架,用于修剪视频中的动作识别,旨在以人为中心的建模。这种方法称为动作机器,将人物边框裁剪的视频作为输入。它通过添加分支forhuman姿势估计和用于基于姿势的动作识别的2D CNN来扩展Inflated 3D ConvNet(I3D),快速训练和测试。 Action Machine可以受益于动作识别和姿势估计的多任务训练,RGBimages和姿势的预测融合。在NTU RGB-D上,Action Machine实现了最先进的性能,在交叉视图和交叉主体上分别具有97.2%和94.3%的前1个精度。 Action Machine还在另外三个较小的动作识别数据集上实现了竞争性能:NorthwesternUCLA Multiview Action3D,MSR Daily Activity3D和UTD-MHAD。代码将可用。
translated by 谷歌翻译
我们提出Top-N-Rank,这是一个新的列表式学习到排名模型系列,可靠地推荐N个排名靠前的项目。所提出的模型优化了广泛使用的累积折扣增益(DCG)目标函数的变体,其在两个重要方面与DCG不同:(i)它仅限制DCG在排名列表中的前N个项目的评估,从而消除了低的影响 - 在学习排名函数上排名项目; (ii)它包含权重,允许模型利用具有不同可靠性或可信度水平的多种类型的隐含反馈。因为得到的目标函数是非平滑的,因此难以优化,我们考虑目标函数的两个平滑近似,使用传统的S形函数和整流线性单元(ReLU)。我们提出了一系列学习到排名算法(Top-N-Rank),它们具有光滑的目标函数。然后,引入了一种更有效的变体Top-N-Rank.ReLU,它有效地利用了ReLU函数的特性,将用户评级的平均项目数中的Top-N-Rank的计算复杂度从二次到线性降低。我们的实验结果使用了两个广泛使用的基准,即MovieLens数据集和AmazonVideo Games数据集,表明:(i)目标函数的“前N个截断”大大提高了顶级推荐的排名质量; (ii)使用ReLU平滑目标函数,与使用sigmoid相比,在排名质量和运行时方面都有显着提高; (iii)Top-N-Rank.ReLU在排名质量方面基本上优于表现良好的列表排名方法。
translated by 谷歌翻译
单词级质量评估(QE)的任务包括获取源句和机器生成的翻译,并预测输出中的哪些单词是正确的,哪些是错误的。在本文中,提出了一种方法,使用三部分神经网络方法有效地编码每个目标词的本地和全球背景信息。第一部分使用嵌入层来表示两种语言中的单词及其词性标签。第二部分利用一维卷积层来整合目标词的本地上下文信息。第三部分应用一堆前馈和重复的神经网络,在制作预测之前进一步对句子中的全局上下文进行编码。该模型作为CMU条目提交给QE上的WMT2018共享任务,并取得了很好的成绩,在六个轨道中的三个中排名第一。
translated by 谷歌翻译
最近,由于其平衡的准确性和速度,连体网络在视觉跟踪社区中引起了极大的关注。然而,在大多数暹罗追踪方法中使用的特征只能区分前景与语义背景。语义背景总是被认为是干扰者,这阻碍了暹罗追踪者的稳健性。在本文中,我们专注于学习干扰器感知的Siamese网络,以实现准确和长期的跟踪。为此,首先分析了传统Siamese跟踪器中使用的功能。我们观察到训练数据的不平衡分布使得学习的特征不那么具有辨别力。在离线训练阶段,引入有效的采样策略来控制这种分布,并使模型专注于语义干扰。在推论期间,设计了一种新颖的干扰物感知模块来执行增量学习,这可以有效地将一般嵌入转移到当前视频域。此外,我们通过引入简单但有效的本地到全球搜索区域策略来扩展所提出的长期跟踪方法。基准测试的广泛实验表明,我们的方法显着优于现有技术,在VOT2016数据集中产生9.6%的相对增益,在UAV20L数据集中产生35.9%的相对增益。拟议的trackercan在短期基准测试中表现为160 FPS,在长期测试中表现为110 FPS。
translated by 谷歌翻译
本文探讨了将神经机器翻译系统适应新的低资源语言(LRLs)的问题,尽可能有效,快速地进行。我们提出了基于大量多语言“种子模型”的方法,这些方法可以提前进行培训,然后继续训练与LRL相关的数据。我们对比了许多策略,导致了“类似语言正规化”的新颖,简单而有效的方法,我们联合培养了一种感兴趣的LRL和类似的高资源语言,以防止过度拟合小LRL数据。实验表明,即使没有任何明确的适应性,大规模多语言模型也令人惊讶地有效,在没有来自LRL的数据的情况下实现高达15.5的BLEU分数,并且所提出的类似语言正则化方法在4个LRL设置下平均改进了1.7个BLEU点的其他适应方法。编码在https://github.com/neubig/rapid-adaptation上重现实验
translated by 谷歌翻译
同声传译,实时翻译口语,是极具挑战性和体力要求的。预测解释信心和解释信息充分性的方法有许多潜在的应用,例如计算机辅助解释接口或教学工具。我们提出了通过建立现有的机器翻译输出质量评估(QE)方法来预测同时解释器性能的任务。在三个语言对中的五个设置的实验中,我们扩展了QE管道以估计解释器性能(由METEOR评估度量近似)并提出反映解释策略和评估措施的新颖特征,以进一步提高预测准确性。
translated by 谷歌翻译