机器听取环境声音是音频识别域中的重要问题之一。它使机器能够区分指导决策的不同输入声音。在这项工作中,我们利用自我监督的对比技术和浅1D CNN来提取独特的音频功能(音频表示),而无需使用任何明确的注释。我们使用其原始音频波形和频谱图生成给定音频的表示形式提出的学习者对音频输入的类型不可知。我们进一步使用典型相关分析(CCA)来融合给定音频的两种输入类型的表示,并证明融合的全局特征与单个表示相比导致音频信号的强大表示。对拟议技术的评估均在ESC-50和URBANSOUND8K上进行。结果表明,该提出的技术能够提取环境音频的大多数功能,并在ESC-50和URBANSOUND8K数据集中提高了12.8%和0.9%。
translated by 谷歌翻译
自我监督学习的共同研究目标是提取一般表示,任意下游任务将受益。在这项工作中,我们调查了从不同的对比度自学学习方案中学到的音乐音频表示形式,并在各种音乐信息检索(MIR)任务上对嵌入式矢量进行了经验评估,在这些任务中,音乐感知的不同级别。我们分析结果,以讨论针对不同MIR任务的对比度学习策略的正确方向。我们表明,这些表示形式传达了有关音乐一般的听觉特征的全面信息,尽管每种自学策略在信息的某些方面都有其自身的有效性。
translated by 谷歌翻译
物联网中的智能汽车,智能手机和其他设备(物联网)通常具有多个传感器,会产生多模式数据。联合学习支持从不同设备收集大量多模式数据,而无需共享原始数据。转移学习方法有助于将知识从某些设备传输到其他设备。联合转移学习方法受益于联合学习和转移学习。这个新提出的联合转移学习框架旨在将数据岛与隐私保护联系起来。我们的构建基于联合学习和转移学习。与以前的联合转移学习相比,每个用户应具有相同模式的数据(所有单峰或全模式),我们的新框架更为通用,它允许使用用户数据的混合分布。核心策略是为我们的两种用户使用两种不同但固有连接的培训方法。仅对单峰数据(类型1)的用户采用监督学习,而自我监督的学习则用于使用多模式数据(类型2)的用户,以适用于每种模式的功能及其之间的连接。类型2的这种联系知识将在培训的后期阶段有助于1键入1。新框架中的培训可以分为三个步骤。在第一步中,将具有相同模式的数据的用户分组在一起。例如,仅具有声音信号的用户在第一组中,只有图像的用户在第二组中,并且具有多模式数据的用户在第三组中,依此类推。在第二步中,在小组内执行联合学习,在该小组中,根据小组的性质,使用监督的学习和自学学习。大多数转移学习发生在第三步中,从前步骤获得的网络中的相关部分是汇总的(联合)。
translated by 谷歌翻译
从未标记数据的代表学习一直是对人工智能研究的重大兴趣。虽然自我监督的言语代表学习在语音研究界受欢迎,但很少有效地对非语音音频任务进行了全面分析了音频表示学习。在本文中,我们提出了一种自我监督的音频表示学习方法,并将其应用于各种下游非语音音频任务。我们将众所周知的Wav2Vec 2.0框架结合起来,这在用于语音任务的自我监督学习中取得了成功,具有参数效率的构装体系结构。我们的自我监督的预培训可以减少三分之二的标记数据的需求。在Audioset基准测试中,我们达到平均平均精度(地图)得分为0.415,这是通过仅限音频自我监督的学习在此数据集上的新型最先进的。我们的微调符合子也超越了在几个下游任务上以监督方式预先培训的先前系统的性能。我们进一步讨论了预先培训和微调的重要设计考虑因素。
translated by 谷歌翻译
音频分割和声音事件检测是机器聆听中的关键主题,旨在检测声学类别及其各自的边界。它对于音频分析,语音识别,音频索引和音乐信息检索非常有用。近年来,大多数研究文章都采用分类。该技术将音频分为小帧,并在这些帧上单独执行分类。在本文中,我们提出了一种新颖的方法,叫您只听一次(Yoho),该方法受到计算机视觉中普遍采用的Yolo算法的启发。我们将声学边界的检测转换为回归问题,而不是基于框架的分类。这是通过具有单独的输出神经元来检测音频类的存在并预测其起点和终点来完成的。与最先进的卷积复发性神经网络相比,Yoho的F量的相对改善范围从多个数据集中的1%到6%不等,以进行音频分段和声音事件检测。由于Yoho的输出更端到端,并且可以预测的神经元更少,因此推理速度的速度至少比逐个分类快6倍。另外,由于这种方法可以直接预测声学边界,因此后处理和平滑速度约为7倍。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
现有的源单元手机识别方法缺乏源设备的长期特征表征,从而导致与源单元相关特征的不准确表示,从而导致识别精度不足。在本文中,我们提出了一种基于时空表示学习的源细胞手机识别方法,其中包括两个主要部分:提取顺序高斯平均矩阵特征和基于时空表示学习的识别模型的构建。在特征提取部分中,基于对记录源信号的时间序列表示的分析,我们通过使用高斯混合模型对数据分布的灵敏度提取具有长期和短期表示能力的顺序高斯平均矩阵。在模型构建部分中,我们设计了一个结构化的时空表示网络C3D-BILSTM,以充分表征时空信息,结合3D卷积网络和双向长期短期记忆网络,用于短期光谱信息和长期的长期记忆网络波动信息表示学习,并通过融合记录源信号的时空特征信息来准确识别细胞手机。该方法的平均准确性为99.03%的封闭设置识别在CCNU \ _Mobile数据集中的45个手机识别,而在小样本尺寸实验中的平均识别率为98.18%,识别性能优于现有的最新目前的识别性能方法。实验结果表明,该方法在多级细胞手机识别中表现出出色的识别性能。
translated by 谷歌翻译
我们描述了一种新的基于度量的学习方法,介绍了一个多模态框架,并在暹蒙配置中使用深音频和地震检波器编码,以设计适应和轻量级的监督模型。该框架消除了昂贵的数据标签过程的需求,并从从全峰传感系统获得的低多个多师数据学习通用表示。这些传感系统在活动识别任务中提供了许多应用和各种用例。在这里,我们打算探索来自室内环境的人类足迹运动,并分析来自基于声学和振动的传感器的小型自收集数据集的表示。核心思想是在两个感官特征之间学习合理的相似性,并将来自音频和地震孔信号的表示组合。我们提出了一种广义框架,用于从音频和地理孔信号中提取的时间和空间特征中学习嵌入的嵌入。然后,我们提取共享空间中的表示,以最大化声音和地理声音功能之间的兼容功能的学习。反过来,这可以有效地用于从学习模型执行分类任务,如通过将高相似性分配与人体脚步运动的对和不含脚步运动的对的相似性。性能分析表明,我们提出的多模式框架实现了19.99 \%的准确性增加(绝对术语),并且当训练样本从200对增加到只需500对时,避免在评估集上的过度拟合,同时令人满意地学习音频和地震听音乐声音表示。我们的结果采用基于度量的对比学习方法,用于多传感器数据,以减轻数据稀缺的影响,并利用有限的数据尺寸执行人体运动识别。
translated by 谷歌翻译
使用超越欧几里德距离的神经网络,深入的Bregman分歧测量数据点的分歧,并且能够捕获分布的发散。在本文中,我们提出了深深的布利曼对视觉表现的对比学习的分歧,我们的目标是通过基于功能Bregman分歧培训额外的网络来提高自我监督学习中使用的对比损失。与完全基于单点之间的分歧的传统对比学学习方法相比,我们的框架可以捕获分布之间的发散,这提高了学习表示的质量。我们展示了传统的对比损失和我们提出的分歧损失优于基线的结合,并且最先前的自我监督和半监督学习的大多数方法在多个分类和对象检测任务和数据集中。此外,学习的陈述在转移到其他数据集和任务时概括了良好。源代码和我们的型号可用于补充,并将通过纸张释放。
translated by 谷歌翻译
用户建模对于理解用户行为至关重要,对于改善用户体验和个性化建议至关重要。当用户与软件交互时,通过记录和分析系统生成大量命令序列。这些命令序列包含用户目标和意图的线索。但是,这些数据模式是高度非结构化和未标记的,因此标准预测系统很难学习。我们提出了SimCurl,这是一个简单而有效的对比度自我监督的深度学习框架,从未标记的命令序列中学习用户表示。我们的方法介绍了用户会议网络体系结构,以及会话辍学作为一种新颖的数据增强方式。我们在超过十亿命令的现实世界命令序列数据集上训练和评估我们的方法。当将学习的表示形式转移到经验和专业知识分类等下游任务时,我们的方法对现有方法显示了显着改善。
translated by 谷歌翻译
听觉对于自动驾驶汽车(AV)至关重要,以更好地感知其周围环境。尽管相机,激光雷达和雷达等AV的视觉传感器有助于看到其周围环境,但AV无法看到这些传感器的视线。另一方面,视线无法阻碍AV的听力感。例如,即使紧急车辆不在AV的视线之内,AV也可以通过音频分类识别紧急车辆的警笛。因此,听觉感知与相机,激光雷达和基于雷达的感知系统互补。本文提出了一个基于深度学习的强大音频分类框架,旨在提高对AV的环境感知。提出的框架利用深度卷积神经网络(CNN)来对不同的音频类进行分类。 Urbansound8K是一个城市环境数据集,用于训练和测试开发的框架。七个音频课程,即空调,汽车喇叭,儿童播放,狗皮,发动机空闲,枪声和警报器,是从urbansound8k数据集中识别的,因为它们与AVS相关。我们的框架可以以97.82%的精度对不同的音频类别进行分类。此外,介绍了所有十个类的音频分类精度,这证明,与现有的音频分类框架相比,在与AV相关的声音的情况下,我们的框架的性能更好。
translated by 谷歌翻译
基于音频的色情检测可以通过利用不同的光谱特征来实现有效的成人内容过滤。为了改善它,我们根据不同的神经体系结构和声学特征探索色情声音建模。我们发现,经过对数频谱图训练的CNN可以在色情800数据集上实现最佳性能。我们的实验结果还表明,对数MEL频谱图可以为模型识别色情声音提供更好的表示。最后,为了对整个音频波形进行分类,而不是段,我们采用了投票段到原告技术,从而产生最佳的音频级检测结果。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
传统上,音乐标记和基于内容的检索系统是使用预定的本体论构建的,涵盖了一组刚性的音乐属性或文本查询。本文介绍了Mulan:首次尝试新一代的声学模型,这些模型将音乐音频直接与无约束的自然语言描述联系起来。Mulan采用了两座联合音频文本嵌入模型的形式,该模型使用4400万张音乐录音(37万小时)和弱相关的自由形式文本注释训练。通过与广泛的音乐流派和文本样式(包括传统的音乐标签)的兼容性,由此产生的音频文本表示形式涵盖了现有的本体论,同时又毕业至真正的零击功能。我们通过一系列实验演示了Mulan嵌入的多功能性,包括转移学习,零照片标记,音乐域中的语言理解以及跨模式检索应用程序。
translated by 谷歌翻译
我们使用无卷积的变压器架构提出了一种从未标记数据学习多式式表示的框架。具体而言,我们的视频音频文本变压器(Vatt)将原始信号作为输入提取,提取丰富的多式化表示,以使各种下游任务受益。我们使用多模式对比损失从头划线训练Vatt端到端,并通过视频动作识别,音频事件分类,图像分类和文本到视频检索的下游任务评估其性能。此外,我们通过共享三种方式之间的重量来研究模型 - 无话的单骨架变压器。我们表明,无卷积VATT优于下游任务中的最先进的Convnet架构。特别是,Vatt的视觉变压器在动力学-400上实现82.1%的高精度82.1%,在动力学-600,72.7%的动力学-700上的72.7%,以及时间的时间,新的记录,在避免受监督的预训练时,新的记录。通过从头划伤训练相同的变压器,转移到图像分类导致图像分类导致78.7%的ImageNet精度为64.7%,尽管视频和图像之间的域间差距,我们的模型概括了我们的模型。 Vatt的音雅音频变压器还通过在没有任何监督的预训练的情况下在Audioset上实现39.4%的地图来设置基于波形的音频事件识别的新记录。 Vatt的源代码是公开的。
translated by 谷歌翻译
自从几十年前的频谱分析开创性工作以来,已经研究了提取音频和语音特征的方法。最近的努力以开发通用音频表示的雄心为指导。例如,如果深度神经网络在大型音频数据集上进行了培训,则可以提取最佳的嵌入。这项工作扩展了基于自我监督的学习,通过引导,提出各种编码器体系结构,并探索使用不同的预训练数据集的效果。最后,我们提出了一个新颖的培训框架,以提出一个混合音频表示,该框架结合了手工制作和数据驱动的学习音频功能。在HEAR NEURIPS 2021挑战中,对听觉场景分类和时间戳检测任务进行了评估。我们的结果表明,在大多数听到挑战任务中,带有卷积变压器的混合模型都会产生卓越的性能。
translated by 谷歌翻译
最先进的说话者验证系统本质上取决于某种人类监督,因为它们接受了大量标记数据的培训。但是,手动注释的话语缓慢,昂贵,无法扩展到当今可用的数据量。在这项研究中,我们通过直接从原始音频中学习表征来探索说话者验证的自我监督学习。目的是生成具有较小的言论扬声器和较大言论扬声器差异的稳健扬声器嵌入。我们的方法基于最新信息最大化学习框架和密集的数据增强预处理步骤。我们在表明它们与对比度损失相结合之前表明它们实现更好的性能之前,评估了这些方法在没有对比样本的情况下工作的能力。此外,我们进行实验表明,与现有技术相比,我们的方法达到了竞争成果,并且在用一小部分标记数据进行微调时,与监督基线相比,可以获得更好的性能。
translated by 谷歌翻译
颅内动脉瘤现在是常见的,以及如何智能地检测它们在数字健康方面具有重要意义。虽然大多数现有的深度学习研究专注于医学图像的监督方式,但我们介绍了基于3D点云数据检测颅内动脉瘤的无监督方法。特别是,我们的方法由两个阶段组成:无监督的预训练和下游任务。至于前者,主要思想是将每个点云与其抖动的对应物配对并最大化它们的对应关系。然后,我们设计具有每个分支的编码器和后续公共投影头的双分支对比度网络。至于后者,我们为监督分类和分割培训设计简单网络。公共数据集(内部)的实验表明,我们的无监督方法比某些最先进的监督技术实现了可比或甚至更好的性能,并且在检测动脉瘤血管中最为突出。 ModelNet40上的实验还表明,我们的方法实现了90.79 \%的准确性,这优于现有的最先进的无监督模型。
translated by 谷歌翻译
受到计算机视觉的自我监督学习的最新进展的启发,在本文中,我们介绍了Delores,这是一种新的通用音频表示方法。我们的主要目标是使我们的网络学习在资源受限的设置(数据和计算)中,可以很好地跨越各种下游任务。受Barlow Twins目标功能的启发,我们建议学习对输入音频样本失真不变的嵌入,同时确保它们包含有关样本的非冗余信息。为此,我们测量了两个相同的网络的输出之间的互相关矩阵,该网络用从音频文件采样的音频段的变形版本中,使其尽可能接近身份矩阵。我们将大规模音频集数据集和FSD50K的一小部分组合用于自学学习,并且与最先进的算法相比,参数的一半不到一半。为了进行评估,我们将这些学习的表示形式转移到9个下游分类任务,包括语音,音乐和动物声音,并在不同的评估设置下显示竞争结果。除了简单明了,我们的预训练算法还可以通过其固有的构造本质来计算,并且不需要仔细的实施细节以避免琐碎或退化的解决方案。此外,我们对结果进行消融研究,并使我们的所有代码和预培训模型公开可用https://github.com/speech-lab-iitm/delores。
translated by 谷歌翻译
Barlow Twins自制学习目标既不需要负样本或不对称的学习更新,从而与计算机视觉中当前最新艺术相提并论。因此,我们提出了音频Barlow双胞胎,这是一种新颖的自我监督音频表示方法,将Barlow Twins适应音频域。我们在大规模音频数据集音频集上预先培训,并评估来自2021年HEAR 2021挑战的18个任务的学习表现质量,从而取得了超越或以其他方式与当前最新的结果相同的结果。 - 例如,歧视自我监督的学习方法来表示音频表示学习。https://github.com/jonahanton/ssl_audio上的代码。
translated by 谷歌翻译