本文提出了一种基于类标签文本信息的音频分类零镜头学习方法,没有任何来自目标类的音频样本。我们提出了一种基于双线性模型的音频分类系统,该系统将音频特征嵌入和语义类labelembeddings作为输入,并测量音频特征嵌入和类标签嵌入之间的兼容性。我们使用VGGish从录音中提取音频特征嵌入。我们将文本标签视为音频类的语义侧信息,并使用Word2Vec生成类labelembeddings。 ESC-50数据集上的结果表明,所提出的系统可以用小训练数据集进行零射击音频分类。它可以比eachaudio类别的随机猜测(10%)更准确(平均26%)。特别是,自然音频课程的类别达到39.7%。
translated by 谷歌翻译
鉴于最近深度学习的发展激增,本文提供了对音频信号处理的最新深度学习技术的回顾。语音,音乐和环境声音处理被并排考虑,以指出领域之间的相似点和不同点,突出一般方法,问题,关键参考和区域之间相互交流的可能性。回顾了主要特征表示(特别是log-mel光谱和原始波形)和deeplearning模型,包括卷积神经网络,长期短期记忆体系结构的变体,以及更多音频特定的神经网络模型。随后,涵盖了突出的深度学习应用领域,即音频识别(自动语音识别,音乐信息检索,环境声音检测,定位和跟踪)和合成与转换(源分离,音频增强,语音,声音和音乐合成的生成模型)。最后,确定了应用于音频信号处理的深度学习的关键问题和未来问题。
translated by 谷歌翻译
本文使用卷积递归神经网络(CRNN)研究声音事件的联合定位,检测和跟踪。我们使用先前提出的用于定位和检测站点资源的CRNN,并且表明当通过动态场景训练时,循环层使得能够对移动源进行空间跟踪。将CRNN的跟踪性能与组合多源(DOA)估计器和粒子滤波器的独立跟踪方法进行比较。它们各自的性能在各种声学条件下进行评估,例如消声和混响场景,几个角度范围内的静止和移动源,以及不同数量的重叠源。结果表明,CRNN设法比声学场景中的参数方法更一致地跟踪多个源,但代价是更高的定位误差。
translated by 谷歌翻译
基于深度学习的机器监听领域中的一个具有挑战性的问题是当使用来自不可见条件的数据时性能的降级。在本文中,我们关注声学场景分类(ASC)任务,并提出一种对抗深度学习方法,以允许适应声学场景分类系统来处理由不同记录设备的数据捕获产生的新声学通道。我们建立了H {\ Delta} H距离的理论模型和先前的ASC无监督域自适应的对抗性判别深度学习方法,并且我们提出了一种使用Wasserstein距离的基于对抗训练的方法。我们使用TUT Acoustic Sc​​enes数据集,将看不见的条件从32%提高到45%,从而提高数据的最新平均精度。
translated by 谷歌翻译
声学场景分类任务中的一个普遍问题是训练和测试数据之间的不匹配条件,这显着降低了所开发方法对分类精度的性能。作为对策,我们提出了声学场景分类的无监督对抗域适应的第一种方法。我们使用从一组条件中预先训练的数据模型,并使用来自其他条件的数据,我们调整模型以使其输出不能用于对输入数据所属的条件进行分类。我们使用DCASE 2018挑战任务1中的免费数据集,子任务B,其中包含来自不匹配记录设备的数据。我们考虑注释可用于从一个设备记录的数据的情况,但不考虑其他设备。我们的结果表明,使用我们的模型不可知方法,我们可以在看不见和未标记的数据集上实现$ \ sim 10 \%$的增加,同时在标记数据集上保持几乎相同的性能。
translated by 谷歌翻译
在本文中,我们研究声学场景分类的问题,即,基于它们的频谱内容将音频序列分类成互斥的类别。我们描述了在研究生机器学习课程中组织的竞争期间发现的方法和结果;学生和外部参与者。我们通过对方法的混合进行消融研究来确定最合适的方法并研究每种方法的影响。我们还将结果与神经网络基线进行比较,并显示出相应的改进。最后,我们讨论了将竞赛作为大学课程的一部分的影响,并根据学生的反馈证明其在课程中的重要性。
translated by 谷歌翻译
本文提出了一种用于估计多个声源的到达方向(DOA)的深度神经网络。所提出的堆叠卷积和递归神经网络(DOAnet)生成空间伪谱(SPS)以及方位角和仰角的DOA估计。我们通过使用所有通道的光谱图的幅度和相位作为网络的输入来避免任何明确的特征提取步骤。所提出的DOAnet是通过估计多个同时存在的源在谐波,匹配和不匹配的混响条件下的DOA来评估的。结果表明,所提出的DOAnet能够以较高的精度估计源数及其各自的DOA,并生成具有高信噪比的SPS。
translated by 谷歌翻译
评估计算模型性能的能力是驱动算法研究的重要要求。对于诸如生成对抗网络(GAN)之类的生成模型而言,这通常特别难以模拟仅由有限的训练示例间接指定的数据流形。在图像数据的常见情况下,样本存在于高维嵌入空间中,具有很少的结构,以帮助评估样本的整体质量或下面的歧管的覆盖范围。我们提出了一种评估指标,能够通过形成真实数据和生成数据的流形的显式非参数表示来分别和可靠地测量图像生成任务中的这两个方面。我们通过提供几个说明性示例来说明我们在StyleGAN和BigGAN中的度量标准的有效性,其中现有度量标准会产生无信息或相互矛盾的结果。此外,我们分析了StyleGAN的多种设计变体,以更好地理解模型体系结构,训练方法和结果样本分布的属性之间的关系。在这个过程中,我们确定了可以改进现有技术的新变种。我们还对截断方法进行了第一次原理分析,并确定了改进的方法。最后,我们扩展我们的度量来估计单个样本的感知质量,并用它来研究潜在的空间插值。
translated by 谷歌翻译
有限的前瞻已经在完整的信息游戏中研究了几十年。我们通过两个同时的偏差点开始了一个新的方向:概括到不完全信息游戏和游戏理论方法。我们研究一个人在面对一个前瞻的对手时应该如何行动我们根据他们的前瞻深度,根据他们是否也有不完整的信息,并根据他们如何破坏来研究这个问题。我们描述了为任何一个参与者找到纳什均衡或最优承诺策略的硬度,表明在某些变化中,问题可以在多项式时间内解决,而在其他情况下,它是PPAD-硬或NP-硬。我们继续设计用于计算最佳承诺策略的算法 - 用于当对手按照固定规则或者对抗方式有利地打破关系时。然后,我们通过实验研究有限前瞻的影响。有限的前瞻玩家如果知道游戏树中节点的预期值以获得某种平衡,则通常会获得游戏的价值 - 但我们证明这一般是不够的。最后,我们研究噪声对这些估计和不同前瞻深度的影响。这将发现一个不完整的信息游戏先行病理。
translated by 谷歌翻译
CFR框架已成为在实践中解决大型广泛形式游戏的强大工具。然而,基于afFR的算法收敛到纳什均衡的理论速率大约为$ O(T ^ { - 1/2})$,其中$ T $是迭代次数。相比之下,一阶方法可用于实现迭代的$ O(T ^ { - 1})$依赖,但这些方法在实践中不太成功。在这项工作中,我们提出了第一个CFR变体,它打破了平方根对迭代的依赖性。通过结合和扩展关于矩阵游戏设置的预测和稳定的后悔化器的最新进展,我们表明可以利用“乐观”后悔最小化器在CFR中实现$ O(T ^ { - 3/4})$收敛率。这是通过引入一个新的稳定预测概念,并通过设置每个反事实的后悔化器相对于其在决策树中的位置的稳定性来实现的。实验表明,这种方法比原始的CFR算法更快,尽管不如新的变种快,尽管它们的最坏情况是$ O(T ^ { - 1/2}} $依赖性。
translated by 谷歌翻译