本文提出了一种新的多模态话语的众源资源:我们的资源以连贯关系的形式表征了烹饪食谱领域中图像文本语境的推论。就像之前的文本论证之间的语音结构一样,如PennDiscourse Treebank,我们的新语料库有助于建立对自然交流和常识推理的更好理解,而我们的研究结果具有广泛应用的影响,例如理解和生成多模态文档。
translated by 谷歌翻译
本文描述了我们的表面实现共享任务2018(SRST'18)的浅轨道提交系统。任务是将真正的UDstructures转换成正确的句子形式,从这些UDstructures中删除了词序信息,并将tokenshad语法化。我们将问题陈述分为两个部分,即单词重新反射和正确的词序预测。对于第一个子问题,我们使用基于长短期记忆的编码器 - 解码器方法。对于第二个子问题,我们提出了一种基于LanguageModel(LM)的方法。我们在LMBased方法中应用两种不同的子方法,这两种方法的组合结果被认为是系统的最终输出。
translated by 谷歌翻译
社交媒体提供了丰富的有价值的原始数据来源,但是,非正式写作很快就会成为许多自然语言处理(NLP)任务的瓶颈。现成的工具通常通过正式文本进行培训,并且能够明确地处理短期在线帖子中发现的噪音。此外,各种不经常发生的语言变异带来了一些挑战,即使对于那些可能无法理解这些帖子的含义的人来说,尤其是当它们包含俚语和缩写时。文本规范化旨在将在线用户生成的文本转换为规范形式。当前的文本标准化系统依赖于以本地方式工作的字符串或语音相似性和分类模型。我们认为处理上下文信息对于该任务是至关重要的,并且引入了社交媒体文本标准化混合字词 - 基于关注的编码器 - 解码器模型,其可以用作NLP应用的预处理步骤以适应社交媒体中的噪声文本。我们基于字符的组件在合成对象示例上进行了训练,这些示例旨在捕获在用户生成的在线文本中常见的错误。实验表明,我们的模型超越了为文本规范化设计的neuralarchitectures,并实现了与最先进相关工作的可比性。
translated by 谷歌翻译
本文介绍了提交到距离挑战2019的VOiCES的语音技术中心(STC)说话人识别(SR)系统。挑战的SR任务侧重于在嘈杂条件下单声道远/远场音频中的说话人识别问题。在这项工作中,我们研究了不同的深度神经网络架构,用于扬声器嵌入式提取以解决任务。我们表明,具有残余帧级连接的深度网络优于更浅层的体系结构。在这项工作中研究了基于简单能量的语音活动检测器(SAD)和基于自动语音识别(ASR)的SADare。我们还解决了强大的嵌入提取器训练的数据准备问题。使用自动房间脉冲响应发生器执行数据增强的混响。在我们的系统中,我们使用经过区别训练的余弦相似性度量学习模型作为嵌入后端。对我们使用的每个个体子系统应用分数归一化程序。我们最终提交的系统基于不同子系统的融合。在VOiCES开发和评估集上获得的结果证明了在嘈杂条件下处理远/远场音频时所提出的系统的有效性和鲁棒性。
translated by 谷歌翻译
通常,由于训练和测试环境之间的不匹配,自动语音识别(ASR)系统的性能显着降低。最近,提出了一种基于深度学习的图像到图像翻译技术,用于将图像从源域转换到期望的域,并且应用循环一致的对抗性网络(CycleGAN),允许从语音到语音转换的映射。发言人到目标运动员。但是,这种方法可能不足以去除损坏的ASR的破坏性噪声组件,因为它旨在转换语音本身。在本文中,我们提出了一种基于生成对偶网络(GAN)的域自适应方法,其中解开的表示学习在ASR系统中实现了完整性。特别地,引入两个分离的编码器,上下文和域编码器以学习不同的潜在变量。潜在变量允许我们根据其上下文和域表示来转换语音域。我们通过对鲁棒ASR应用嘈杂到清洁的环境适应,将CHIME4挑战语料库的单词准确度提高了6.55~15.70%。此外,类似于基于CycleGAN的方法,该方法可用于性别不匹配识别中的性别适应。
translated by 谷歌翻译
从言语中识别情感是一个非常重要的任务,与情绪本身的明确定义有关。在这项工作中,我们采用基于特征工程的方法来解决语音情感识别的任务。将我们的问题形式化为多类分类问题,我们比较两类模型的性能。对于两者,我们从音频信号中提取手工制作的功能。在第一种方法中,提取的特征用于训练六种传统的机器学习分类器,而第二种方法基于深度学习,其中基线前馈神经网络和基于LSTM的分类器被训练在相同的特征上。为了解决沟通中的歧义,我们还包括文本域中的功能。我们报告了我们评估模型的不同实验设置的准确度,f分数,精度和召回率。总的来说,我们表明,基于机器学习的轻型模型通过一些手工制作的功能进行训练,能够达到与当前深度学习相当的性能基于最先进的情感识别方法。
translated by 谷歌翻译
复杂词识别(CWI)的任务是识别目标受众难以理解的句子中的哪些词语。最近的CWI共享任务发布了两种设置的数据:单语(即同一语言的训练和测试)和跨语言(即用训练期间未看到的语言进行测试)。最好的单语模型依赖于语言依赖的特征,这些特征在交叉语言环境中并不一致,而最佳的语言模型则使用具有多任务学习的神经网络。在本文中,我们提出了单语和跨语言CWI模型,这些模型的表现与提交给最新CWI共享任务的大多数模型相同(或更好)。通过精心挑选的功能和简单的学习模型,可以实现最先进的性能,并为该领域的未来发展奠定坚实的基础。最后,我们讨论了数据注释中的不一致性如何解释所获得的一些结果。
translated by 谷歌翻译
对话是交换信息的有效方式,但细微的细节和资金非常重要。虽然重大进展为使用算法进行视觉对话铺平了道路,但细节和细微差别仍然是一个挑战。注意机制已经证明了提取细节隐形问题答案的引人注目的结果,并且由于其可解释性和有效性而为视觉对话提供了令人信服的框架。然而,伴随视觉对话的许多数据都挑战了现有的注意技术。我们解决了这个问题,并开发了visualdialog的一般注意机制,可以在任意数量的数据工具上运行。为此,我们设计了一个基于因子图的注意机制,它结合了任意数量的效用表示。我们说明了所提出的方法对具有挑战性和最近引入的VisDial数据集的适用性,在VisDial0.9中表现优于最近的最新方法1.1%,在VisRial1.0 onMRR上表现优于2%。我们的集合模型将VisDial1.0的MRR得分提高了6%以上。
translated by 谷歌翻译
注意机制已成为深度神经网络中的一个流行组件,但很少有人研究不同的影响因素和计算这些因素引起注意的方法如何影响性能。为了更好地理解注意机制,我们提出了一个经验研究,消除了广义注意力公式中的各种空间注意元素,包括主要的变形金刚注意以及普遍的可变形卷积和动态卷积模块。在各种应用中,该研究产生显着性深层网络中的空间关注结果,其中一些与传统理解相反。例如,我们发现Transformer关注的查询和关键内容比较对于自我关注是微不足道的,但对编码器 - 解码器的关注至关重要。可变形卷积与关键内容的适当组合仅显着性实现了自我关注的最佳准确性 - 效率权衡。我们的研究结果表明,注意机制的设计存在很大的改进空间。
translated by 谷歌翻译
我们通过学习原始音频的表示来探索无监督的语音识别预训练。 wav2vec接受大量未标记的音频数据的训练,然后使用所得到的表示来改进声学模型训练。我们通过噪声对比二进制分类任务预先训练一个简单的多层卷积神经网络。我们的WSJ实验在只有几小时的转录数据可用时,将基于字符的强对数滤波器组基线的WER降低了32%。我们认可nov92测试仪上的2.78%WER。这比文献中报道的最好的基于字符的系统Deep Speech 2更胜一筹,同时使用三个数量级的标记较少的训练数据。
translated by 谷歌翻译