机器听取环境声音是音频识别域中的重要问题之一。它使机器能够区分指导决策的不同输入声音。在这项工作中,我们利用自我监督的对比技术和浅1D CNN来提取独特的音频功能(音频表示),而无需使用任何明确的注释。我们使用其原始音频波形和频谱图生成给定音频的表示形式提出的学习者对音频输入的类型不可知。我们进一步使用典型相关分析(CCA)来融合给定音频的两种输入类型的表示,并证明融合的全局特征与单个表示相比导致音频信号的强大表示。对拟议技术的评估均在ESC-50和URBANSOUND8K上进行。结果表明,该提出的技术能够提取环境音频的大多数功能,并在ESC-50和URBANSOUND8K数据集中提高了12.8%和0.9%。
translated by 谷歌翻译