我们介绍了扬声器本地化问题的变种,我们呼叫设备仲裁。在设备仲裁问题中,用户将由多个分布式麦克风阵列(智能家居设备)检测到的关键字,并且我们希望确定哪个设备最接近用户。我们提出了一个端到端机器学习系统而不是解决完整的本地化问题。该系统了解在每个设备上独立计算的功能嵌入。然后,每个设备的嵌入式聚合在一起以产生最终的仲裁决策。我们使用大规模的房间模拟来生成培训和评估数据,并将系统与信号处理基线进行比较。
translated by 谷歌翻译
我们审查当前的解决方案和技术挑战,以实现自动语音识别,关键字发现,设备仲裁,语音增强和在多边形家庭环境中的来源本地化,以为Interspeech 2022特别会议提供背景,“信号处理和机器学习的挑战和机器,用于多个智能设备”。我们还确定了支持这些研究领域所需的数据集。根据评论和我们在多设备领域的研究经验,我们以对未来进化的前景结论
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
在许多启用语音的人机交互情景中,用户语音可以与设备播放音频重叠。在这些实例中,诸如关键字斑点(KW)和设备定向语音检测(DDD)的任务的性能可能显着降低。为了解决这个问题,我们提出了一种隐含的声学回声消除(IAEC)框架,其中训练神经网络以利用参考麦克风信道的附加信息来学习忽略干扰信号并提高检测性能。我们分别研究了这个框架,分别为kWs和ddd的任务,一个增强版的谷歌语音命令v2和一个真实世界的alexa设备数据集。值得注意的是,在设备播放条件期间,我们显示DDD任务的假拒绝率为566 \%。我们还表现出与KWS任务的强大端到端神经回声消除+ KW基准的性能相当或卓越的性能,其数量级计算要求较少。
translated by 谷歌翻译
通过未计算的数据情况和缺乏本领域缺乏标准基准的动机,我们补充了我们以前的努力,并提出了一个专为培训和评估文本无关的多通道扬声器验证系统的全面语料库。还可以容易地用于DERE失去,去噪和语音增强的实验。我们通过利用VOXECEB数据集的清洁部分顶部的数据仿真来解决缺乏多通道训练数据的缺乏问题。开发和评估试验基于复杂的传统的声音,这些声音在复杂的环境环境(声音)语料库中,我们修改以提供多渠道试验。我们发布从公共来源创建数据集的完整食谱作为Multisv语料库,我们提供了两种多通道扬声器验证系统,其中两个多通道扬声器验证系统,基于神经网络的波束成形,基于预测理想二进制掩码或更新的CONV-TASNet更新。
translated by 谷歌翻译
免费可用且易于使用的音频编辑工具使执行音频剪接变得直接。可以通过结合同一人的各种语音样本来说服伪造。在考虑错误信息时,在公共部门都很重要,并且在法律背景下以验证证据的完整性很重要。不幸的是,用于音频剪接的大多数现有检测算法都使用手工制作的功能并做出特定的假设。但是,刑事调查人员经常面临来自未知特征不明的来源的音频样本,这增加了对更普遍适用的方法的需求。通过这项工作,我们的目标是朝着不受限制的音频剪接检测迈出第一步,以满足这一需求。我们以可能掩盖剪接的后处理操作的形式模拟各种攻击方案。我们提出了一个用于剪接检测和定位的变压器序列到序列(SEQ2SEQ)网络。我们的广泛评估表明,所提出的方法的表现优于现有的剪接检测方法[3,10]以及通用网络效率网络[28]和regnet [25]。
translated by 谷歌翻译
使用麦克风阵列的扬声器定位取决于准确的时间延迟估计技术。几十年来,基于与相变的广义跨相关性(GCC-PHAT)的方法已被广泛用于此目的。最近,GCC-PHAT也已用于为神经网络提供输入特征,以消除噪声和混响的影响,但以无噪声条件下的理论保证为代价。我们提出了一种新的方法来扩展GCC-PHAT,其中使用移位模糊的神经网络过滤接收的信号,该神经网络保留信号中包含的时序信息。通过广泛的实验,我们表明我们的模型始终减少不利环境中GCC-PHAT的误差,并保证在理想条件下确切的时间延迟恢复。
translated by 谷歌翻译
In a scenario with multiple persons talking simultaneously, the spatial characteristics of the signals are the most distinct feature for extracting the target signal. In this work, we develop a deep joint spatial-spectral non-linear filter that can be steered in an arbitrary target direction. For this we propose a simple and effective conditioning mechanism, which sets the initial state of the filter's recurrent layers based on the target direction. We show that this scheme is more effective than the baseline approach and increases the flexibility of the filter at no performance cost. The resulting spatially selective non-linear filters can also be used for speech separation of an arbitrary number of speakers and enable very accurate multi-speaker localization as we demonstrate in this paper.
translated by 谷歌翻译
我们介绍了视觉匹配任务,其中音频剪辑被转换为听起来像是在目标环境中记录的。鉴于目标环境的图像和源音频的波形,目标是重新合成音频,以匹配目标室声音的可见几何形状和材料所建议的。为了解决这一新颖的任务,我们提出了一个跨模式变压器模型,该模型使用视听注意力将视觉属性注入音频并生成真实的音频输出。此外,我们设计了一个自我监督的训练目标,尽管他们缺乏声学上不匹配的音频,但可以从野外网络视频中学习声学匹配。我们证明,我们的方法成功地将人类的言语转化为图像中描绘的各种现实环境,表现优于传统的声学匹配和更严格的监督基线。
translated by 谷歌翻译
增强现实设备具有增强人类感知的潜力,并使复杂的会话环境中的其他辅助功能能够实现。有效地捕获理解这些社交交互所必需的视听上下文首先需要检测和定位设备佩戴者和周围人的语音活动。这些任务由于它们的高电平性质而挑战:佩戴者的头部运动可能导致运动模糊,周围的人可能出现在困难的观察中,并且可能有遮挡,视觉杂乱,音频噪声和畸形。在这些条件下,以前的最先进的主动扬声器检测方法不会给出令人满意的结果。相反,我们使用视频和多通道麦克风阵列音频从新设置中解决问题。我们提出了一种新的端到端深度学习方法,可以提供强大的语音活动检测和本地化结果。与以前的方法相比,我们的方法将主动扬声器从球体上的所有可能方向定位,即使在相机的视野之外,同时检测设备佩戴者自己的语音活动。我们的实验表明,该方法提供了卓越的结果,可以实时运行,并且对抗噪音和杂乱是强大的。
translated by 谷歌翻译
使用未知数量的扬声器数量的单通道远场录制的自动语音识别(ASR)传统上由级联模块解决。最近的研究表明,与模块化系统相比,端到端(E2E)多扬声器ASR模型可以实现卓越的识别准确性。但是,这些模型不会确保由于其对完整音频上下文的依赖性而实时适用性。这项工作采用实时适用性,作为模型设计的第一优先级,并解决了以前的多扬声器经常性神经网络传感器(MS-RNN-T)的几个挑战。首先,我们在训练期间介绍一般的重叠言论模拟,在LibrisPeechMix测试集上产生14%的相对字错误率(WER)改进。其次,我们提出了一种新的多转RNN-T(MT-RNN-T)模型,其具有基于重叠的目标布置策略,其概括为任意数量的扬声器,而没有模型架构的变化。我们调查在Liblics测试集上培训训练期间看到的最大扬声器数量的影响,并在两位扬声器MS-RNN-T上报告28%的相对加速。第三,我们试验丰富的转录战略,共同承认和分割多方言论。通过深入分析,我们讨论所提出的系统的潜在陷阱以及未来的未来研究方向。
translated by 谷歌翻译
设备方向听到需要从给定方向的音频源分离,同时实现严格的人类难以察觉的延迟要求。虽然神经网络可以实现比传统的波束形成器的性能明显更好,但所有现有型号都缺乏对计算受限的可穿戴物的低延迟因果推断。我们展示了一个混合模型,将传统的波束形成器与定制轻质神经网络相结合。前者降低了后者的计算负担,并且还提高了其普遍性,而后者旨在进一步降低存储器和计算开销,以实现实时和低延迟操作。我们的评估显示了合成数据上最先进的因果推断模型的相当性能,同时实现了模型尺寸的5倍,每秒计算的4倍,处理时间减少5倍,更好地概括到真实的硬件数据。此外,我们的实时混合模型在为低功耗可穿戴设备设计的移动CPU上运行8毫秒,并实现17.5毫秒的端到端延迟。
translated by 谷歌翻译
在本文中,我们介绍了在单个神经网络中执行同时扬声器分离,DERE失眠和扬声器识别的盲言语分离和DERERATERATION(BSSD)网络。扬声器分离由一组预定义的空间线索引导。通过使用神经波束成形进行DERERATERATION,通过嵌入向量和三联挖掘来辅助扬声器识别。我们介绍了一种使用复值神经网络的频域模型,以及在潜伏空间中执行波束成形的时域变体。此外,我们提出了一个块在线模式来处理更长的录音,因为它们在会议场景中发生。我们在规模独立信号方面评估我们的系统,以失真率(SI-SI-SIS),字错误率(WER)和相等的错误率(eer)。
translated by 谷歌翻译
扬声器日流是一个标签音频或视频录制的任务,与扬声器身份或短暂的任务标记对应于扬声器标识的类,以识别“谁谈到何时发表讲话”。在早期,对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法,以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移,为诸如音频检索等下游任务提供特定于扬声器的核算。最近,随着深度学习技术的出现,这在讲话应用领域的研究和实践中引起了革命性的变化,对扬声器日益改善已经进行了快速进步。在本文中,我们不仅审查了扬声器日益改善技术的历史发展,而且还审查了神经扬声器日益改善方法的最新进步。此外,我们讨论了扬声器日复速度系统如何与语音识别应用相结合,以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势,我们认为本文对社区提供了有价值的贡献,以通过巩固具有神经方法的最新发展,从而促进更有效的扬声器日益改善进一步进展。
translated by 谷歌翻译
这项工作介绍了开发单声扬声器特定(即个性化)语音增强模型的自我监督学习方法。尽管通才模型必须广泛地解决许多扬声器,但专业模型可以将其增强功能调整到特定说话者的声音上,并希望解决狭窄的问题。因此,除了降低计算复杂性外,专家还能够实现更佳的性能。但是,幼稚的个性化方法可能需要目标用户的干净语音,这是不方便的,例如由于记录条件不足。为此,我们将个性化作为零拍的任务,其中不使用目标扬声器的其他干净演讲来培训,或者不使用几次学习任务,在该任务中,目标是最大程度地减少清洁的持续时间用于转移学习的语音。在本文中,我们提出了自我监督的学习方法,以解决零和少量个性化任务的解决方案。所提出的方法旨在从未知的无标记数据(即,来自目标用户的内在嘈杂录音)中学习个性化的语音功能,而无需知道相应的清洁资源。我们的实验研究了三种不同的自我监督学习机制。结果表明,使用较少的模型参数以及来自目标用户的较少的清洁数据实现了零拍摄的模型,从而实现了数据效率和模型压缩目标。
translated by 谷歌翻译
In this paper, we use data augmentation to improve performance of deep neural network (DNN) embeddings for speaker recognition. The DNN, which is trained to discriminate between speakers, maps variable-length utterances to fixed-dimensional embeddings that we call x-vectors. Prior studies have found that embeddings leverage large-scale training datasets better than i-vectors. However, it can be challenging to collect substantial quantities of labeled data for training. We use data augmentation, consisting of added noise and reverberation, as an inexpensive method to multiply the amount of training data and improve robustness. The x-vectors are compared with i-vector baselines on Speakers in the Wild and NIST SRE 2016 Cantonese. We find that while augmentation is beneficial in the PLDA classifier, it is not helpful in the i-vector extractor. However, the x-vector DNN effectively exploits data augmentation, due to its supervised training. As a result, the x-vectors achieve superior performance on the evaluation datasets.
translated by 谷歌翻译
在商业应用程序中使用基于扬声器验证(SV)的系统时,重要的是客户与他们的性别,年龄或种族有关。在本文中,我们分析了性别和年龄对SV的影响,并在不同性别和年龄组中发现,对于不同性别和年龄组的期望的常见验证率(FRR),不同的性别和年龄组不同。为了优化所有用户的FRR,我们提出了一种关于SV的上下文(例如性别,年龄)自适应阈值框架。这些上下文可以作为许多实际应用程序的先前信息。我们还提出了一个连接的性别/年龄检测模型,以在没有这样的事先信息的情况下进行算法导出的背景。我们通过实验表明我们的上下文 - 自适应阈值化方法在建立更有效的包容性SV系统方面是有效的。具体而言,我们表明我们可以通过使用特定于性别特定阈值对VoxceB1测试设置的所需性别来减少特定性别的FRR。对OGI Kids的语音语料库类似的分析表明,通过使用年龄特定的阈值,我们可以显着减少某些年龄段的FRR,以便远远。
translated by 谷歌翻译
房间冲动响应(RIR)函数捕获周围的物理环境如何改变听众听到的声音,对AR,VR和机器人技术中的各种应用产生影响。估计RIR的传统方法在整个环境中采用密集的几何形状和/或声音测量值,但我们探讨了如何根据空间中观察到的一组稀疏图像和回声来推断RIR。为了实现这一目标,我们介绍了一种基于变压器的方法,该方法使用自我注意力来构建丰富的声学环境,然后通过跨注意来预测任意查询源接收器位置的河流。此外,我们设计了一个新颖的训练目标,该目标改善了RIR预测与目标之间的声学​​特征中的匹配。在使用3D环境的最先进的视听模拟器的实验中,我们证明了我们的方法成功地生成了任意RIR,优于最先进的方法,并且在与传统方法的主要背离中 - 以几种方式概括新的环境。项目:http://vision.cs.utexas.edu/projects/fs_rir。
translated by 谷歌翻译
这项工作探讨了在不存在的人类发声声中合成语音的任务。我们称之为此任务“扬声器生成”,并呈现Tacosawn,一个在此任务中竞争地执行的系统。Tacosawn是一种基于重复的关注文本到语音模型,了解备用空间的发行版,这使得新颖和各种扬声器采样。我们的方法易于实现,并且不需要从扬声器ID系统转移学习。我们呈现客观和主观指标,用于评估此任务的表现,并证明我们所提出的客观指标与人类对扬声器相似性相关联。我们的演示页面上有音频样本。
translated by 谷歌翻译
我们提出“唤醒咳嗽”,这是使用resnet50咳嗽到咳嗽的应用,并使用i-vectors识别咳嗽者,以实现长期的个性化咳嗽监测系统。咳嗽记录在一个安静(73 $ \ pm $ 5 dB)和嘈杂(34 $ \ pm $ 17 dB)环境中,用于提取I-向量,X-向量和D-向量,用作分类器的功能。当使用MLP使用2-SEC长咳嗽片段在嘈杂的环境中使用MLP区分51个咳嗽者时,该系统可以达到90.02 \%的精度。当在安静环境中使用更长(100秒)段的5和14个咳嗽者区分5至14个咳嗽者时,这种准确性分别提高到99.78%和98.39%。与语音不同,I-向量在识别咳嗽者方面的表现优于X-向量和D-向量。这些咳嗽是在Google语音命令数据集中添加的额外类,并通过在触发短语中保存端到端的时间域信息来提取功能。使用RESNET50在35个其他触发短语中发现咳嗽时,达到了88.58%的最高精度。因此,Wake咳嗽代表了一个个性化的,非侵入性的咳嗽监测系统,该系统的功率有效,因为在设备上的唤醒词检测可以使基于智能手机的监视设备大多处于休眠状态。这使伴尾咳嗽在多床病房环境中极具吸引力,以监测患者从肺部疾病(例如结核病(TB)和Covid-19)中的长期恢复。
translated by 谷歌翻译