涉及环境声音分析的音频应用越来越多地使用通用音频表示(也称为嵌入)进行转移学习。最近,对音频表示形式(HEAR)的整体评估评估了关于19个不同任务的29个嵌入模型。但是,评估的有效性取决于给定数据集中已经捕获的变化。因此,对于给定的数据域,尚不清楚表示形式如何受到由无数麦克风范围和声学条件引起的变化的影响 - 通常称为通道效应。我们的目标是扩展听力,以评估不变性以在这项工作中的渠道效果。为此,我们通过向音频信号注入扰动来模仿通道效应,并用三个距离测量方法测量新(扰动)嵌入的变化,从而使评估域依赖但不依赖于任务依赖性。结合下游性能,它有助于我们对嵌入方式对频道效果的鲁棒性进行更明智的预测。我们评估了两个嵌入 - Yamnet和OpenL3在单声道(Urbansound8K)和多音(Sonyc-ust)Urban数据集上。我们表明,在这种无关的评估中,一个距离度量不足。尽管FR \'Echet音频距离(FAD)与下游任务中的性能下降趋势相关,但我们表明我们需要与其他距离一起研究时尚,以清楚地了解对该时尚的整体效果扰动。就嵌入性能而言,我们发现OpenL3比Yamnet更强大,Yamnet与听觉评估保持一致。
translated by 谷歌翻译
最近的成功表明,可以通过文本提示来操纵图像,例如,在雨天的晴天,在雨天中被操纵到同一场景中,这是由文本输入“下雨”驱动的雨天。这些方法经常利用基于样式的图像生成器,该生成器利用多模式(文本和图像)嵌入空间。但是,我们观察到,这种文本输入通常在提供和综合丰富的语义提示时被瓶颈瓶颈,例如将大雨与雨雨区分开。为了解决这个问题,我们主张利用另一种方式,声音,在图像操纵中具有显着优势,因为它可以传达出比文本更多样化的语义提示(生动的情感或自然世界的动态表达)。在本文中,我们提出了一种新颖的方法,该方法首先使用声音扩展了图像文本接头嵌入空间,并应用了一种直接的潜在优化方法来根据音频输入(例如雨的声音)操纵给定的图像。我们的广泛实验表明,我们的声音引导的图像操纵方法在语义和视觉上比最先进的文本和声音引导的图像操纵方法产生更合理的操作结果,这通过我们的人类评估进一步证实。我们的下游任务评估还表明,我们学到的图像文本单嵌入空间有效地编码声音输入。
translated by 谷歌翻译
鉴于音乐源分离和自动混合的最新进展,在音乐曲目中删除音频效果是开发自动混合系统的有意义的一步。本文着重于消除对音乐制作中吉他曲目应用的失真音频效果。我们探索是否可以通过设计用于源分离和音频效应建模的神经网络来解决效果的去除。我们的方法证明对混合处理和清洁信号的效果特别有效。与基于稀疏优化的最新解决方案相比,这些模型获得了更好的质量和更快的推断。我们证明这些模型不仅适合倾斜,而且适用于其他类型的失真效应。通过讨论结果,我们强调了多个评估指标的有用性,以评估重建的不同方面的变形效果去除。
translated by 谷歌翻译
从旋转天花板粉丝到滴答时钟,我们听到巧妙地变化的声音随着我们通过场景。我们询问这些环境声音是否传达有关3D场景结构的信息,如果是,它们是否提供了用于多模式模型的有用的学习信号。为学习这一点,我们从各种安静的室内场景中收集配对音频和RGB-D录音的数据集。然后,我们培训估计到附近墙壁的距离的模型,只有一个音频作为输入。我们还使用这些录音来通过自我监督来学习多式式表现,通过培训网络以将图像与其相应的声音相关联。这些结果表明环境声音传达了关于场景结构的令人惊讶的信息,并且它是学习多模峰特征的有用信号。
translated by 谷歌翻译
标记和维护商业声音效果库是一项耗时的任务,这些任务被数据库不断增长并经历分类法更新而加剧。此外,不均匀的元数据使声音搜索和分类学创建变得复杂,即使引入了新的行业标准,即通用类别系统,也是一个不懈的问题。为了解决这些问题并克服依赖于数据集的限制,抑制了深度学习模型的成功培训,我们追求代表性学习来培训可用于多种声音效应库的广义嵌入,并且是声音的分类法敏捷表示。我们表明,特定于任务但独立于数据集的表示可以成功地解决数据问题,例如类不平衡,不一致的类标签和数据集大小不足,超过了诸如OpenL3之类的已建立表示的表示。详细的实验结果表明,度量学习方法和不同的跨数据库训练方法对代表性有效性的影响。
translated by 谷歌翻译
最近的生成模型的成功表明,利用多模态嵌入空间可以使用文本信息操纵图像。然而,由于源的动态特性,使用其他来源而不是声音的文本来操纵图像,而不是声音,并不容易。特别是,声音可以传达真实世界的生动情感和动态表达。在这里,我们提出了一个框架,该框架将声音直接编码为多模态(图像文本)嵌入空间,并从空间操纵图像。我们的音频编码器受过培训以产生来自音频输入的潜在表示,该音频输入被强制与多模式嵌入空间中的图像和文本表示对齐。我们使用基于对齐的嵌入式的直接潜在优化方法进行声音引导图像操纵。我们还表明,我们的方法可以混合文本和音频模态,这丰富了各种图像修改。我们验证了定量和定性的声音引导图像操纵的有效性。我们还表明,我们的方法可以混合不同的模态,即文本和音频,这丰富了图像修改的各种。零射频分类和语义级图像分类的实验表明,我们所提出的模型优于其他文本和声音引导最先进的方法。
translated by 谷歌翻译
图形神经网络(GNNS)通过考虑其内在的几何形状来扩展神经网络的成功到图形结构化数据。尽管根据图表学习基准的集合,已经对开发具有卓越性能的GNN模型进行了广泛的研究,但目前尚不清楚其探测给定模型的哪些方面。例如,他们在多大程度上测试模型利用图形结构与节点特征的能力?在这里,我们开发了一种原则性的方法来根据$ \ textit {敏感性配置文件} $进行基准测试数据集,该方法基于由于图形扰动的集合而导致的GNN性能变化了多少。我们的数据驱动分析提供了对GNN利用哪些基准测试数据特性的更深入的了解。因此,我们的分类法可以帮助选择和开发适当的图基准测试,并更好地评估未来的GNN方法。最后,我们在$ \ texttt {gtaxogym} $软件包中的方法和实现可扩展到多个图形预测任务类型和未来数据集。
translated by 谷歌翻译
我们研究了在不利环境中学习强大声学模型的问题,其特征是训练和测试条件之间存在显着不匹配。这个问题对于需要在看不见的环境中表现良好的语音识别系统的部署至关重要。首先,我们从理论上将数据增强表征为笼子风险最小化的实例,该实例旨在通过替换在输入空间上定义经验密度的三角洲函数来改善培训期间的风险估计,并具有近似值的近似值。培训样品。更具体地说,我们假设可以使用高斯人的混合物来近似以训练样品为中心的当地社区,并从理论上证明这可以将强大的电感偏置纳入学习过程。然后,我们通过数据增强方案隐式地指定各个混合物组件,旨在解决声学模型中伪造相关性的常见来源。为了避免由于信息丢失而引起的鲁棒性的潜在混杂影响,这与标准特征提取技术(例如Fbank和MFCC功能)有关,我们重点关注基于波形的设置。我们的经验结果表明,该方法可以推广到看不见的噪声条件,与使用标准风险最小化原则进行训练相比,分布外概括的相对改善150%。此外,结果证明了相对于使用旨在匹配测试话语特征的训练样本的模型,相对于模型的竞争性能。
translated by 谷歌翻译
Music discovery services let users identify songs from short mobile recordings. These solutions are often based on Audio Fingerprinting, and rely more specifically on the extraction of spectral peaks in order to be robust to a number of distortions. Few works have been done to study the robustness of these algorithms to background noise captured in real environments. In particular, AFP systems still struggle when the signal to noise ratio is low, i.e when the background noise is strong. In this project, we tackle this problematic with Deep Learning. We test a new hybrid strategy which consists of inserting a denoising DL model in front of a peak-based AFP algorithm. We simulate noisy music recordings using a realistic data augmentation pipeline, and train a DL model to denoise them. The denoising model limits the impact of background noise on the AFP system's extracted peaks, improving its robustness to noise. We further propose a novel loss function to adapt the DL model to the considered AFP system, increasing its precision in terms of retrieved spectral peaks. To the best of our knowledge, this hybrid strategy has not been tested before.
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
在构建声学和现有房间的声学诊断的背景下,本文介绍了一种新方法,仅从房间脉冲响应(RIR)估计平均吸收系数。通过虚拟监督学习来解决该逆问题,即,使用人工神经网络对模拟数据集的回归隐式学习RIR-ob吸收映射。我们专注于基于良好的架构的简单模型。用于训练模型的几何,声学和仿真参数的关键选择是广泛讨论和研究的,同时在思想中,在思想中,旨在代表建筑物声学领域的条件。将学习的神经模型的估计误差与具有经典公式获得的那些,需要了解房间的几何形状和混响时间。在各种模拟测试集上进行了广泛的比较,突出了所学习模型可以克服这些公式下面弥漫声场假设的众所周知的众所周知的众所周知的不同条件。在声学可配置的房间测量的真实RIR上获得的结果表明,在1〜kHz及以上,当可以可靠地估计混响时间时,所提出的方法可相当于经典模型,即使在不能的情况下也继续工作。
translated by 谷歌翻译
对于任何自主操作的户外机器人或自动驾驶车辆,对移动车辆的强大检测是一项至关重要的任务。解决此任务的大多数现代方法都依赖于使用大型车辆检测数据集(如Nuscenes或Waymo Open Dataset)训练基于图像的检测器。提供手动注释是一种昂贵且费力的锻炼,在实践中不能很好地扩展。为了解决这个问题,我们提出了一种自我监督的方法,该方法利用音频线索来检测视频中的移动车辆。我们的方法采用对比度学习,用于从相应的图像和录制音频对的图像中定位车辆。在使用现实世界数据集进行的广泛实验中,我们证明了我们的方法提供了对移动车辆的准确检测,并且不需要手动注释。我们此外表明,我们的模型可以用作老师来监督仅音频检测模型。该学生模型是在照明变化中不变的,因此有效地弥合了将视力仅作为主要模态的模型固有的域间隙。
translated by 谷歌翻译
将音频分离成不同声音源的深度学习技术面临着几种挑战。标准架构需要培训不同类型的音频源的独立型号。虽然一些通用分离器采用单个模型来靶向多个来源,但它们难以推广到看不见的来源。在本文中,我们提出了一个三个组件的管道,可以从大型但弱标记的数据集:audioset训练通用音频源分离器。首先,我们提出了一种用于处理弱标记训练数据的变压器的声音事件检测系统。其次,我们设计了一种基于查询的音频分离模型,利用此数据进行模型培训。第三,我们设计一个潜在的嵌入处理器来编码指定用于分离的音频目标的查询,允许零拍摄的概括。我们的方法使用单一模型进行多种声音类型的源分离,并仅依赖于跨标记的培训数据。此外,所提出的音频分离器可用于零拍摄设置,学习以分离从未在培训中看到的音频源。为了评估分离性能,我们在侦察中测试我们的模型,同时在不相交的augioset上培训。我们通过对从训练中保持的音频源类型进行另一个实验,进一步通过对训练进行了另一个实验来验证零射性能。该模型在两种情况下实现了对当前监督模型的相当的源 - 失真率(SDR)性能。
translated by 谷歌翻译
最近,对抗机器学习攻击对实用音频信号分类系统构成了严重的安全威胁,包括语音识别,说话者识别和音乐版权检测。先前的研究主要集中在确保通过在原始信号上产生类似小噪声的扰动来攻击音频信号分类器的有效性。目前尚不清楚攻击者是否能够创建音频信号扰动,除了其攻击效果外,人类还可以很好地看待。这对于音乐信号尤其重要,因为它们经过精心制作,具有可让人的音频特征。在这项工作中,我们将对音乐信号的对抗性攻击作为一种新的感知攻击框架,将人类研究纳入对抗性攻击设计中。具体而言,我们进行了一项人类研究,以量化人类对音乐信号的变化的看法。我们邀请人类参与者根据对原始和扰动的音乐信号对进行评分,并通过回归分析对人类感知过程进行反向工程,以预测给定信号的人类感知的偏差。然后将感知感知的攻击作为优化问题提出,该问题找到了最佳的扰动信号,以最大程度地减少对回归人类感知模型的感知偏差的预测。我们使用感知感知的框架来设计对YouTube版权探测器的现实对抗音乐攻击。实验表明,感知意识攻击会产生对抗性音乐的感知质量明显优于先前的工作。
translated by 谷歌翻译
Recent years have seen progress beyond domain-specific sound separation for speech or music towards universal sound separation for arbitrary sounds. Prior work on universal sound separation has investigated separating a target sound out of an audio mixture given a text query. Such text-queried sound separation systems provide a natural and scalable interface for specifying arbitrary target sounds. However, supervised text-queried sound separation systems require costly labeled audio-text pairs for training. Moreover, the audio provided in existing datasets is often recorded in a controlled environment, causing a considerable generalization gap to noisy audio in the wild. In this work, we aim to approach text-queried universal sound separation by using only unlabeled data. We propose to leverage the visual modality as a bridge to learn the desired audio-textual correspondence. The proposed CLIPSep model first encodes the input query into a query vector using the contrastive language-image pretraining (CLIP) model, and the query vector is then used to condition an audio separation model to separate out the target sound. While the model is trained on image-audio pairs extracted from unlabeled videos, at test time we can instead query the model with text inputs in a zero-shot setting, thanks to the joint language-image embedding learned by the CLIP model. Further, videos in the wild often contain off-screen sounds and background noise that may hinder the model from learning the desired audio-textual correspondence. To address this problem, we further propose an approach called noise invariant training for training a query-based sound separation model on noisy data. Experimental results show that the proposed models successfully learn text-queried universal sound separation using only noisy unlabeled videos, even achieving competitive performance against a supervised model in some settings.
translated by 谷歌翻译
Sunquakes are seismic emissions visible on the solar surface, associated with some solar flares. Although discovered in 1998, they have only recently become a more commonly detected phenomenon. Despite the availability of several manual detection guidelines, to our knowledge, the astrophysical data produced for sunquakes is new to the field of Machine Learning. Detecting sunquakes is a daunting task for human operators and this work aims to ease and, if possible, to improve their detection. Thus, we introduce a dataset constructed from acoustic egression-power maps of solar active regions obtained for Solar Cycles 23 and 24 using the holography method. We then present a pedagogical approach to the application of machine learning representation methods for sunquake detection using AutoEncoders, Contrastive Learning, Object Detection and recurrent techniques, which we enhance by introducing several custom domain-specific data augmentation transformations. We address the main challenges of the automated sunquake detection task, namely the very high noise patterns in and outside the active region shadow and the extreme class imbalance given by the limited number of frames that present sunquake signatures. With our trained models, we find temporal and spatial locations of peculiar acoustic emission and qualitatively associate them to eruptive and high energy emission. While noting that these models are still in a prototype stage and there is much room for improvement in metrics and bias levels, we hypothesize that their agreement on example use cases has the potential to enable detection of weak solar acoustic manifestations.
translated by 谷歌翻译
由于标记数据稀缺,提高概括是音频分类中的主要挑战。自我监督的学习(SSL)方法通过利用未标记的数据来学习下游分类任务的有用功能来解决这一点。在这项工作中,我们提出了一个增强的对比SSL框架,以从未标记数据学习不变的表示。我们的方法将各种扰动应用于未标记的输入数据,并利用对比学学习,以便在这种扰动中学习鲁棒性。Audioset和Desed数据集上的实验结果表明,我们的框架显着优于最先进的SSL和Sound / Event分类任务的监督学习方法。
translated by 谷歌翻译
我们介绍了Audioscopev2,这是一种最先进的通用音频视频在屏幕上的声音分离系统,该系统能够通过观看野外视频来学习将声音与屏幕上的对象相关联。我们确定了先前关于视听屏幕上的声音分离的几个局限性,包括对时空注意力的粗略分辨率,音频分离模型的收敛性不佳,培训和评估数据的差异有限,以及未能说明贸易。在保存屏幕声音和抑制屏幕外声音之间的关闭。我们为所有这些问题提供解决方案。我们提出的跨模式和自我发场网络体系结构随着时间的推移以精细的分辨率捕获了视听依赖性,我们还提出了有效的可分离变体,这些变体能够扩展到更长的视频而不牺牲太多性能。我们还发现,仅在音频上进行预训练模型可大大改善结果。为了进行培训和评估,我们从大型野外视频数据库(YFCC100M)中收集了新的屏幕上的人类注释。这个新数据集更加多样化和具有挑战性。最后,我们提出了一个校准过程,该过程允许对屏幕重建与屏幕外抑制进行精确调整,从而大大简化了具有不同操作点的模型之间的性能。总体而言,我们的实验结果表明,在屏幕上的分离性能在更一般条件下的屏幕分离性能的改善要比以前具有最小的额外计算复杂性的方法更为普遍。
translated by 谷歌翻译
在时间序列上进行预训练会带来独特的挑战,这是由于预训练和目标域之间的潜在不匹配,例如时间动力学的变化,快速变化的趋势以及远距离循环效应和短期循环效应,这会导致下游差的差表现。尽管域适应方法可以减轻这些偏移,但大多数方法都需要直接从目标域中进行示例,从而使其次优于预训练。为了应对这一挑战,方法需要适应具有不同时间动力学的目标域,并且能够在预训练期间看到任何目标示例。相对于其他方式,在时间序列中,我们期望同一示例的基于时间和频率的表示形式靠近时间频率。为此,我们认为时间频一致性(TF-C)(将特定示例的基于时间的社区嵌入到其基于频率的邻居和后背)是可取的。由TF-C激发,我们定义了一个可分解的预训练模型,其中自我监督信号由时间和频率分量之间的距离提供,每个信号通过对比度估计单独训练。我们在八个数据集上评估了新方法,包括电诊断测试,人类活动识别,机械故障检测和身体状态监测。针对八种最先进方法的实验表明,在一对一的设置中,TF-C平均比基准平均超过15.4%(F1分数)(例如,在EMG数据上对EEG预测的模型进行微调)和在具有挑战性的一对一环境中,最多可达8.4%(F1得分),这反映了现实世界应用中出现的场景广度。源代码和数据集可在https://anonymon.4open.science/r/tfc-pretraining-6b07上找到。
translated by 谷歌翻译
我们提出了一种使用嵌入式麦克风和扬声器来测量不同执行器特性的软气动执行器的感应方法。执行器的物理状态确定声音通过结构传播时的特定调制。使用简单的机器学习,我们创建了一个计算传感器,该传感器从声音录音中渗透相应的状态。我们在软气动连续执行器上演示了声传感器,并使用它来测量接触位置,接触力,对象材料,执行器通胀和执行器温度。我们表明该传感器是可靠的(六个接触位置的平均分类速率为93%),精确(平均空间精度为3.7毫米),并且可抵抗常见的干扰(如背景噪声)。最后,我们比较了不同的声音和学习方法,并以20毫秒的白噪声和支持向量分类器作为传感器模型获得最佳结果。
translated by 谷歌翻译