本文描述了针对机器翻译(MT),实体发现和链接(EDL)以及文本和语音中的情景帧(SF文本和语音)的检测的低资源人类语言技术(LoReHLT)2018评估的ARIEL-CMU提交。
translated by 谷歌翻译
跨语言实体链接将源语言中提及的实体映射到具有不同(目标)语言的结构化知识库中的对应条目。虽然以前的工作在很大程度上依赖于双语词汇资源来弥合源语言和目标语言之间的差距,但这些资源很少或不适用于许多资源匮乏的语言。为了解决这个问题,我们研究了零射击跨语言实体链接,其中我们假设源语言资源语言中没有双语词汇资源。具体而言,我们提出基于枢轴的实体链接,其利用来自高资源“枢轴”语言的信息来训练特征级神经实体链接以零射击方式转移到源流资源语言的模型。通过对9种低资源语言的实验并通过总共54种语言进行转换,我们表明,对于零射击场景,我们提出的基于枢轴的框架在基线系统上平均提高了实体链接精度17%(绝对值)。此外,我们还研究了语言通用语音表示的使用,当使用不同脚本的语言之间进行转换时,它们将平均准确度(绝对值)提高了36%。
translated by 谷歌翻译
The recent success in deep learning has lead to various effective representation learning methods for videos. However , the current approaches for video representation require large amount of human labeled datasets for effective learning. We present an unsupervised representation learning framework to encode scene dynamics in videos captured from multiple viewpoints. The proposed framework has two main components: Representation Learning Network (RL-NET), which learns a representation with the help of Blending Network (BL-NET), and Video Rendering Network (VR-NET), which is used for video synthesis. The framework takes as input video clips from different viewpoints and time, learns an internal representation and uses this representation to render a video clip from an arbitrary given viewpoint and time. The ability of the proposed network to render video frames from arbitrary viewpoints and time enable it to learn a meaningful and robust representation of the scene dynamics. We demonstrate the effectiveness of the proposed method in rendering view-aware as well as time-aware video clips on two different real-world datasets including UCF-101 and NTU-RGB+D. To further validate the effectiveness of the learned representation, we use it for the task of view-invariant activity classification where we observe a significant improvement (∼ 26%) in the performance on NTU-RGB+D dataset compared to the existing state-of-the art methods. Figure 1: An overview of the proposed video rendering framework. An activity is captured from different viewpoints (v1, v2, and v3) providing observations (o1, o2, and o3). Video clips from these viewpoints (v1 and v2) at arbitrary times (t1 and t2) are used to learn a scene and dynamics representation (r) for this activity, employing the proposed RL-NET. The learned representation (r) is then used to render a video from an arbitrary query viewpoint (v3) and time (t3) using proposed VR-NET.
translated by 谷歌翻译
在本文中,我们介绍了How2,一个带有英文字幕和众包葡萄牙语翻译的多模式教学视频集。我们还提供了用于机器翻译,自动语音识别,口语翻译和多模式综合的集成序列到序列基线。通过为几种多模态自然语言任务提供数据和代码,我们希望能够激发对这些和类似挑战的更多研究,以便更深入地理解语言处理中的多模态。
translated by 谷歌翻译
自动编码器是用于学习表示的无监督深度学习模型。在文献中,自动编码器已经证明在跨多个领域的各种任务上表现良好,从而建立了广泛的适用性。通常,训练自动编码器以生成模型,该模型使得根据欧几里德距离计算的输入和构造输出之间的重建误差最小化。虽然这对于与无监督重建相关的应用是有用的,但它可能不是分类的最佳选择。在本文中,我们提出了一种新颖的SupervisedCOSMOS自动编码器,它利用多目标损失函数来学习同时编码(i)输入和重建矢量之间的“相似性”方向的表示,(ii)像素值的“分布”。关于输入样本的重建,同时还在特征学习管道中包含(iii)“可区分性”。所提出的自动编码器模型结合了基于Cosinesimilarity和Mahalanobis距离的损失函数,以及基于互信息的监督。对所提出的模型的每个组成部分的详细分析激发了其在不同分类任务中对特征学习的适用性。通过对不同图像数据集的广泛实验评估,证明了监督COSMOS自动编码器的功效。所提出的模型优于MNIST,CIFAR-10和SVHN数据库上的现有算法。它还分别在用于属性预测和面部识别的CelebA,LFWA,Adience和IJB-A数据库中产生最先进的结果。
translated by 谷歌翻译
最近,云提供商扩展了对可信硬件原型(如英特尔SGX)的支持。同时,深度学习领域正在进行巨大的创新和采用的增加。在本文中,他们提出了一个问题:“第三方云服务能否使用SGX提供实用且安全的DNN推理即服务?”我们的工作解决了基于SGX的DNN推理面临的三个主要挑战,即安全性,易用性和性能。我们首先证明了对DNN模型的基于旁路的攻击确实是可行的。我们通过观察访问模式表明,我们可以将输入恢复到DNN模型。这激发了对Privado的需求,Privado是我们为安全推理即服务而设计的系统。 Privado是输入不经意的:它将用C / C ++编写的深度学习框架转换为没有依赖于输入的访问模式。 Privado是全自动的,具有较低的TCB:使用zerodeveloper工作,给定ONNX描述,它生成紧凑的C代码,该模型可以在SGX-emblaves内运行。 Privado的性能开销很低:我们将Privado与Torch一起使用,并且在10个现代网络上平均显示其开销为20.77%。
translated by 谷歌翻译
人类头颅识别是一项艰巨的任务,传统上需要法医艺术家和人类学家的专业知识。本文致力于将头骨图像与数字人脸图像匹配的过程自动化,从而建立骨骼遗骸的身份。为了实现这一点,提出了一种共享变换模型用于学习判别表示。该模型学习了强大的功能,同时减少了头骨和数字人脸图像之间的一系列差异。这种模式可以通过加快头颅识别过程和减少手动负荷来协助执法机构。在公开可用的IdentifyMe数据集的两个预定义协议上进行的实验评估证明了所提出的模型的功效。
translated by 谷歌翻译
声学到单词识别为端到端语音识别提供了直接的解决方案,无需外部解码,语言模型评分或词典。虽然基于字符的模型为词汇外问题提供了自然的解决方案,但是单词模型可以更简单地解码,并且还可以直接识别语义上有意义的单元。我们提出了有效的方法来训练序列到序列模型以进行直接的单词级别识别(和字符级别识别),并且在交换机语料库中与先前工作相比,在Word错误率方面显示出4.4-5.0%的绝对改进。除了这些有希望的结果之外,基于单词的模型比字符模型更容易解释,字符模型必须使用单独的解码步骤组成单词。我们分析编码器隐藏状态和注意行为,并且表明位置感知注意力自然地将词语表示为单个语音词矢量,尽管在输入中跨越多个帧。我们最终表明,与用于Switchboard语料库的人类注释强制对齐相比,Acoustic-to-Word模型还学习了将语句分成平均标准差为3帧的单词。
translated by 谷歌翻译
推荐系统是人工智能(AI)的一个组成部分,并且在人工智能的商业化时代中变得越来越重要。推荐系统(RS)的深度学习(DL)技术为有效推荐提供了强大的潜在特征模型,但却遭受了不可解释的主要缺点。在本文中,我们描述了DL模型中可解释的时间推荐的框架。我们考虑基于LSTM的回归神经网络(RNN)架构用于推荐和基于邻域的方案,用于在模型中生成解释。通过联合优化预测准确性和可解释性,我们通过对Netflix数据集的实验来证明我们方法的有效性。
translated by 谷歌翻译
Computer vision based methods have been explored in the past for detection of railway track defects, but full automated surveillance has always been a challenge because both traditional image processing methods and deep learning classifiers trained from scratch fail to generalize that well to infinite novel scenarios seen in the real world, given limited amount of labeled data. Advancements have been made recently to make machine learning models utilize knowledge from a different but related domain. In this paper, we show that even though similar domain data is not available, transfer learning provides the model understanding of other real-world objects and enables training production scale deep learning classifiers for uncontrolled real-world data. Our models efficiently detect both track defects like sunkinks, loose ballast and railway assets like switches and signals. Models were validated with hours of track videos recorded in different continents resulting in different weather conditions, different ambience and surroundings. Different defects detected contribute to a track health index which can be used to monitor complete rail network.
translated by 谷歌翻译