有许多关于从深度神经网络(DNN)中提取瓶颈(BN)特征的研究,这些特征训练用于区分说话者,密码短语和三音素状态以改善文本相关说话者验证(TD-SV)的性能。但是,取得了一定的成功。最近的一项研究[1]提出了一种时间对比学习(TCL)概念,用于探索脑信号分类的大脑状态的平稳性。语音信号具有类似的非平稳性,并且TCL还具有不需要标记数据的优点。因此,我们提出了一种基于TCL的特征提取方法。该方法将训练数据集中的每个语音容差均匀地划分为预定义数量的多帧分段。话语中的每个片段对应于一个类,并且跨语言共享类标签。然后训练DNN以区分各类中的所有语音帧以利用语音的时间结构。此外,我们提出了一种基于分段的无监督聚类算法,以便为这些分段分配类别标签。在RedDots挑战数据库上进行TD-SV实验。使用从TD-SV评估集中排除的语音数据离线密码短语来训练TCL-DNN,因此可以将所述特征视为与短语无关的。我们比较了所提出的TCL瓶颈(BN)特征与短时间倒谱特征和从DNN识别扬声器,密码短语,说话者+密码短语以及标签和边界由三种不同自动生成的单声道提取的BN特征的性能。语音识别(ASR)系统。实验结果表明,所提出的TCL-BN优于自适应特征和说话人+通行短语判别BN特征,其性能与ASR导出的BN特征相当。此外,....
translated by 谷歌翻译
本文研究了站姿检测的问题,该问题旨在预测给定文件相对于给定索赔的观察(或站立)。站立检测是自动事实检查的主要组成部分。由于不同领域的注释是一项繁琐而昂贵的任务,基于机器学习的自动方法是可行的替代方案。在本文中,我们关注于用于站姿检测的对抗域适应,其中我们假设在源域中存在有效的标记数据并且在目标域中存在有限的标记数据。对公开可用数据集的大量实验表明,我们的域自适应模型在跨域转移知识真实立场检测方面的有效性。
translated by 谷歌翻译
我们提供了一个工具包,以促进对神经网络模型的解释和理解。该工具包提供了几种方法来识别关于模型本身或外部任务的显着神经元。用户可以对选定的神经元进行可视化,消除它们以测量它们对模式的影响,并操纵它们以在测试时控制模型的行为。这种分析有可能成为各种研究方向的跳板,例如理解模型,更好的结构选择,模型蒸馏和控制数据偏差。
translated by 谷歌翻译
尽管深度神经网络在自然语言处理(NLP)中有了显着的发展,但它们的可解释性仍然是一个挑战。以前的工作大量关注这些模型在表示层面学到的东西。将此分析进一步降低,并研究NLP任务中端对端神经模型学习的向量表示中的个体维度(神经元)。我们提出了两种方法:基于监督方法的语言相关分析,以提取与外在任务相关的最相关的神经元,以及交叉模型相关分析,一种无监督的方法来提取显着神经元w.r.t.模型本身。我们通过消融已识别的神经元并重新评估两个任务的网络性能来评估ourtechniques的有效性:神经机器翻译(NMT)和神经语言模型(NLM)。我们进一步提出了对神经元的全面分析,以解决以下问题:i)模型中不同的语言属性如何定位或分布? ii)对于某些属性而非其他属性是否具有某些神经元独立性? iii)NMT与NLM中分发的信息是否更加无关? iv)通过语言相关方法识别神经元对整体任务有多重要?我们的代码作为NeuroX工具包的一部分公开提供(Dalvi et al.1199)。
translated by 谷歌翻译
近年来,自然语言处理领域取得了令人瞩目的进步,神经网络模型取代了许多传统系统。已经提出了许多新模型,其中许多被认为与其功能丰富的对应物相比是不透明的。这使得研究人员以新颖和更细粒度的方式分析,解释和评估神经网络。在本调查论文中,我们回顾了自然语言处理的分析方法,根据突出的研究趋势对其进行分类,突出现有的局限性,并指出未来工作的潜在方向。
translated by 谷歌翻译
端到端深度学习语言或方言识别系统在频谱图或其他声学特征中操作,并直接生成每个类别的识别分数。端到端系统的一个重要问题是对应用程序域有一定的了解,因为系统可以容易地使用在训练阶段没有看到的情况;例如,场景通常被称为域不匹配条件。通常,我们假设训练数据集中存在足够的变化以将系统暴露给多个域。在这项工作中,我们研究如何最好地使用atraining数据集,以便在未知的目标域上获得最大的效果。我们的目标是在不了解targetdomain的情况下处理输入,同时在其他域上保留稳健的性能。为了实现这一目标,我们提出了一种域细致的融合方法,即前端到端的方言/语言识别系统。为了帮助进行实验,我们从三个不同的域收集数据集,并为域不匹配条件创建实验协议。我们提出的方法的结果在各种广播和YouTubedata上进行了测试,与传统方法相比,即使没有任何先前的目标域信息,也显示出显着的性能提升。
translated by 谷歌翻译
在本文中,我们提出了一个使用语音和视觉信号的多模态在线人员验证系统。受到关于语音和面部关联的神经科学研究结果的启发,我们提出了一种基于注意力的端到端神经网络,该网络可以为人员验证任务学习多感官关联。我们提出的网络中的注意机制学习在语音和面部表示之间选择一种显着的模态,在互补输入之间提供平衡。凭借这种能力,网络对于模态中的数据丢失或损坏是健壮的。在VoxCeleb2数据集中,我们展示了我们的方法对竞争的多模态方法的有效性。即使对于大型腐败或完全缺失模态的极端情况,我们的方法也证明了其他单峰方法的稳健性。
translated by 谷歌翻译
我们提出了一个框架,用于构建只使用单语言语音和文本语料库的语音到文本翻译(ST)系统,换句话说,来自源语言的语音输入和来自目标语言的独立文本。与传统的级联系统和端到端系统相反。在最终体系结构中,我们的系统在训练期间不需要任何标记数据(即转录源音频或平行源和目标文本语料库),使其特别适用于语言对很少或甚至没有双语资源。框架初始化ST系统从单语语料库中推导出的跨模式双语词典,其将对应于口语单词的每个源语音段映射到其目标文本翻译。对于非传感性语音话语,系统首先在话语中执行单词语音翻译。通过利用语言模型和序列去噪自动编码器来改进翻译,以提供关于目标语言的预知。实验结果表明,尽管缺乏监督,我们的无监督系统可以获得与受监督的端到端模型相当的BLEU分数。我们还提供消融分析,以检查我们系统中每个组件的效用。
translated by 谷歌翻译
神经机器翻译(NMT)模型学习包含大量语言信息的表示。然而,目前尚不清楚这些信息是否完全分布,或者其中一些信息是否归因于个体神经元。我们开发了无监督的方法来发现NMT模型中的重要神经元。我们的方法依赖于直觉,即不同的模型具有相似的属性,并且不需要任何昂贵的外部监督。我们通过实验证明翻译质量取决于发现的神经元,并发现它们中的许多都捕获了常见的语言现象。最后,我们展示了如何控制通过修改个体神经元的激活,以可预测的方式进行NMT翻译。
translated by 谷歌翻译
声学到单词模型是端到端语音识别器,它使用单词asargets而不依赖于发音词典或字形。由于缺乏语言知识,这些模型众所周知难以训练。目前还不清楚培训数据的数量如何影响这些模型的优化和概括。在这项工作中,我们研究了在不同的训练数据下对声学到单词模型的优化和概括。此外,我们研究了三种类型的归纳偏差,利用发音字典,单词边界注释和单词持续时间的约束。我们发现限制单词持续时间可以带来最大的改进。最后,我们分析了由模型学习的嵌入空间这个词,并发现该空间具有由词语发音主导的结构。这表明,语言的语境,而不是他们的语音结构,应该成为归纳偏见不对称 - 单词模型的未来焦点。
translated by 谷歌翻译