本文描述了针对机器翻译(MT),实体发现和链接(EDL)以及文本和语音中的情景帧(SF文本和语音)的检测的低资源人类语言技术(LoReHLT)2018评估的ARIEL-CMU提交。
translated by 谷歌翻译
在本文中,我们提出了一个统一的多目标跟踪(MOT)框架学习,以充分利用长期和短期线索来处理MOT场景中的复杂情况。此外,为了更好地关联,我们提出了切换器感知分类(SAC),它考虑了潜在的身份切换监视器(切换器)。具体而言,所提出的框架包括用于捕获短期线索的单个对象跟踪(SOT)子网,用于提取长期线索的用于识别(ReID)的子网以及用于使用来自maintarget的提取的特征来进行匹配决策的切换器感知分类器。和切换器。短期线索有助于发现假阴性,而长期线索避免了发生阻塞时的严重错误,并且SAC会以有效的方式结合多个线索并提高稳健性。该方法在具有挑战性的MOT基准测试中得到评估,并实现了状态。 - 结果。
translated by 谷歌翻译
视频动作识别中的现有方法大多不区分人体与环境并且容易过度拟合场景和对象。在这项工作中,我们提出了一个概念上简单,通用和高性能的框架,用于修剪视频中的动作识别,旨在以人为中心的建模。这种方法称为动作机器,将人物边框裁剪的视频作为输入。它通过添加分支forhuman姿势估计和用于基于姿势的动作识别的2D CNN来扩展Inflated 3D ConvNet(I3D),快速训练和测试。 Action Machine可以受益于动作识别和姿势估计的多任务训练,RGBimages和姿势的预测融合。在NTU RGB-D上,Action Machine实现了最先进的性能,在交叉视图和交叉主体上分别具有97.2%和94.3%的前1个精度。 Action Machine还在另外三个较小的动作识别数据集上实现了竞争性能:NorthwesternUCLA Multiview Action3D,MSR Daily Activity3D和UTD-MHAD。代码将可用。
translated by 谷歌翻译
我们提出Top-N-Rank,这是一个新的列表式学习到排名模型系列,可靠地推荐N个排名靠前的项目。所提出的模型优化了广泛使用的累积折扣增益(DCG)目标函数的变体,其在两个重要方面与DCG不同:(i)它仅限制DCG在排名列表中的前N个项目的评估,从而消除了低的影响 - 在学习排名函数上排名项目; (ii)它包含权重,允许模型利用具有不同可靠性或可信度水平的多种类型的隐含反馈。因为得到的目标函数是非平滑的,因此难以优化,我们考虑目标函数的两个平滑近似,使用传统的S形函数和整流线性单元(ReLU)。我们提出了一系列学习到排名算法(Top-N-Rank),它们具有光滑的目标函数。然后,引入了一种更有效的变体Top-N-Rank.ReLU,它有效地利用了ReLU函数的特性,将用户评级的平均项目数中的Top-N-Rank的计算复杂度从二次到线性降低。我们的实验结果使用了两个广泛使用的基准,即MovieLens数据集和AmazonVideo Games数据集,表明:(i)目标函数的“前N个截断”大大提高了顶级推荐的排名质量; (ii)使用ReLU平滑目标函数,与使用sigmoid相比,在排名质量和运行时方面都有显着提高; (iii)Top-N-Rank.ReLU在排名质量方面基本上优于表现良好的列表排名方法。
translated by 谷歌翻译
单词级质量评估(QE)的任务包括获取源句和机器生成的翻译,并预测输出中的哪些单词是正确的,哪些是错误的。在本文中,提出了一种方法,使用三部分神经网络方法有效地编码每个目标词的本地和全球背景信息。第一部分使用嵌入层来表示两种语言中的单词及其词性标签。第二部分利用一维卷积层来整合目标词的本地上下文信息。第三部分应用一堆前馈和重复的神经网络,在制作预测之前进一步对句子中的全局上下文进行编码。该模型作为CMU条目提交给QE上的WMT2018共享任务,并取得了很好的成绩,在六个轨道中的三个中排名第一。
translated by 谷歌翻译
最近,由于其平衡的准确性和速度,连体网络在视觉跟踪社区中引起了极大的关注。然而,在大多数暹罗追踪方法中使用的特征只能区分前景与语义背景。语义背景总是被认为是干扰者,这阻碍了暹罗追踪者的稳健性。在本文中,我们专注于学习干扰器感知的Siamese网络,以实现准确和长期的跟踪。为此,首先分析了传统Siamese跟踪器中使用的功能。我们观察到训练数据的不平衡分布使得学习的特征不那么具有辨别力。在离线训练阶段,引入有效的采样策略来控制这种分布,并使模型专注于语义干扰。在推论期间,设计了一种新颖的干扰物感知模块来执行增量学习,这可以有效地将一般嵌入转移到当前视频域。此外,我们通过引入简单但有效的本地到全球搜索区域策略来扩展所提出的长期跟踪方法。基准测试的广泛实验表明,我们的方法显着优于现有技术,在VOT2016数据集中产生9.6%的相对增益,在UAV20L数据集中产生35.9%的相对增益。拟议的trackercan在短期基准测试中表现为160 FPS,在长期测试中表现为110 FPS。
translated by 谷歌翻译
本文探讨了将神经机器翻译系统适应新的低资源语言(LRLs)的问题,尽可能有效,快速地进行。我们提出了基于大量多语言“种子模型”的方法,这些方法可以提前进行培训,然后继续训练与LRL相关的数据。我们对比了许多策略,导致了“类似语言正规化”的新颖,简单而有效的方法,我们联合培养了一种感兴趣的LRL和类似的高资源语言,以防止过度拟合小LRL数据。实验表明,即使没有任何明确的适应性,大规模多语言模型也令人惊讶地有效,在没有来自LRL的数据的情况下实现高达15.5的BLEU分数,并且所提出的类似语言正则化方法在4个LRL设置下平均改进了1.7个BLEU点的其他适应方法。编码在https://github.com/neubig/rapid-adaptation上重现实验
translated by 谷歌翻译
同声传译,实时翻译口语,是极具挑战性和体力要求的。预测解释信心和解释信息充分性的方法有许多潜在的应用,例如计算机辅助解释接口或教学工具。我们提出了通过建立现有的机器翻译输出质量评估(QE)方法来预测同时解释器性能的任务。在三个语言对中的五个设置的实验中,我们扩展了QE管道以估计解释器性能(由METEOR评估度量近似)并提出反映解释策略和评估措施的新颖特征,以进一步提高预测准确性。
translated by 谷歌翻译
本文考虑了单幅图像深度估计的问题。卷积神经网络(CNNs)的就业最近在这个问题的研究中取得了显着的进步。然而,mostexisting方法在估计的深度图中遭受空间分辨率的损失;典型的症状是扭曲的,并且对象边界的重建模糊。在本文中,为了更准确的估计,重点是具有更高空间分辨率的深度图,我们提出了对现有方法的两个改进。一个是关于融合在不同尺度下提取的特征的策略,为此我们提出了一个改进的网络架构,包括四个模块:编码器,解码器,多尺度特征融合模块和细化模块。另一个是关于用于测量训练中使用的参考误差的损失函数。我们展示了三个损失项,分别测量深度,梯度和表面法线的误差,有助于以互补的方式提高精度。实验结果表明,这两项改进能够获得比现有技术更高的精度,这通过更精细的分辨率重建给出,例如,具有小物体和物体边界。
translated by 谷歌翻译
本文提出了一种基于CMOS兼容的电荷陷阱晶体管(CTT)的模拟神经网络计算引擎。 CTT设备用作模拟乘法器。与数字乘法器相比,基于CTT的模拟乘法器显示出显着的面积和功率降低。所提出的计算机发动机由可扩展的CTT乘法器阵列和能量有效的模拟 - 数字接口组成。通过实现顺序模拟结构(SAF),简化了引擎混合信号接口,并且无论阵列的大小如何,硬件开销都保持不变。概念验证784乘784 CTT计算引擎采用TSMC 28nm CMOS技术实现,占用0.68mm2。模拟性能达到76.8 TOPS(8位),时钟频率为500MHz,功耗为14.8 mW。作为一个例子,我们利用这个计算引擎来解决经典的模式识别问题 - 在MNIST数据库上对手写数字进行分类,并获得了与使用8位固定点分辨率的最先进的完全连接神经网络相媲美的性能。
translated by 谷歌翻译