在构建声学和现有房间的声学诊断的背景下,本文介绍了一种新方法,仅从房间脉冲响应(RIR)估计平均吸收系数。通过虚拟监督学习来解决该逆问题,即,使用人工神经网络对模拟数据集的回归隐式学习RIR-ob吸收映射。我们专注于基于良好的架构的简单模型。用于训练模型的几何,声学和仿真参数的关键选择是广泛讨论和研究的,同时在思想中,在思想中,旨在代表建筑物声学领域的条件。将学习的神经模型的估计误差与具有经典公式获得的那些,需要了解房间的几何形状和混响时间。在各种模拟测试集上进行了广泛的比较,突出了所学习模型可以克服这些公式下面弥漫声场假设的众所周知的众所周知的众所周知的不同条件。在声学可配置的房间测量的真实RIR上获得的结果表明,在1〜kHz及以上,当可以可靠地估计混响时间时,所提出的方法可相当于经典模型,即使在不能的情况下也继续工作。
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
低成本毫米波(MMWAVE)通信和雷达设备的商业可用性开始提高消费市场中这种技术的渗透,为第五代(5G)的大规模和致密的部署铺平了道路(5G) - 而且以及6G网络。同时,普遍存在MMWAVE访问将使设备定位和无设备的感测,以前所未有的精度,特别是对于Sub-6 GHz商业级设备。本文使用MMWAVE通信和雷达设备在基于设备的定位和无设备感应中进行了现有技术的调查,重点是室内部署。我们首先概述关于MMWAVE信号传播和系统设计的关键概念。然后,我们提供了MMWaves启用的本地化和感应方法和算法的详细说明。我们考虑了在我们的分析中的几个方面,包括每个工作的主要目标,技术和性能,每个研究是否达到了一定程度的实现,并且该硬件平台用于此目的。我们通过讨论消费者级设备的更好算法,密集部署的数据融合方法以及机器学习方法的受过教育应用是有前途,相关和及时的研究方向的结论。
translated by 谷歌翻译
随着Terahertz(THZ)信号产生和辐射方法的最新进展,关节通信和传感应用正在塑造无线系统的未来。为此,预计将在用户设备设备上携带THZ光谱,以识别感兴趣的材料和气态组件。 THZ特异性的信号处理技术应补充这种对THZ感应的重新兴趣,以有效利用THZ频带。在本文中,我们介绍了这些技术的概述,重点是信号预处理(标准的正常差异归一化,最小值 - 最大归一化和Savitzky-Golay滤波),功能提取(主成分分析,部分最小二乘,t,T,T部分,t部分,t部分正方形,T - 分布的随机邻居嵌入和非负矩阵分解)和分类技术(支持向量机器,k-nearest邻居,判别分析和天真的贝叶斯)。我们还通过探索他们在THZ频段的有希望的传感能力来解决深度学习技术的有效性。最后,我们研究了在联合通信和传感的背景下,研究方法的性能和复杂性权衡;我们激励相应的用例,并在该领域提供未来的研究方向。
translated by 谷歌翻译
传统上,本征成像或内在图像分解被描述为将图像分解为两层:反射率,材料的反射率;和一个阴影,由光和几何之间的相互作用产生。近年来,深入学习技术已广泛应用,以提高这些分离的准确性。在本调查中,我们概述了那些在知名内在图像数据集和文献中使用的相关度量的结果,讨论了预测所需的内在图像分解的适用性。虽然Lambertian的假设仍然是许多方法的基础,但我们表明,对图像形成过程更复杂的物理原理组件的潜力越来越意识到,这是光学准确的材料模型和几何形状,更完整的逆轻型运输估计。考虑使用的前瞻和模型以及驾驶分解过程的学习架构和方法,我们将这些方法分类为分解的类型。考虑到最近神经,逆和可微分的渲染技术的进步,我们还提供了关于未来研究方向的见解。
translated by 谷歌翻译
物理信息的神经网络(PINN)是神经网络(NNS),它们作为神经网络本身的组成部分编码模型方程,例如部分微分方程(PDE)。如今,PINN是用于求解PDE,分数方程,积分分化方程和随机PDE的。这种新颖的方法已成为一个多任务学习框架,在该框架中,NN必须在减少PDE残差的同时拟合观察到的数据。本文对PINNS的文献进行了全面的综述:虽然该研究的主要目标是表征这些网络及其相关的优势和缺点。该综述还试图将出版物纳入更广泛的基于搭配的物理知识的神经网络,这些神经网络构成了香草·皮恩(Vanilla Pinn)以及许多其他变体,例如物理受限的神经网络(PCNN),各种HP-VPINN,变量HP-VPINN,VPINN,VPINN,变体。和保守的Pinn(CPINN)。该研究表明,大多数研究都集中在通过不同的激活功能,梯度优化技术,神经网络结构和损耗功能结构来定制PINN。尽管使用PINN的应用范围广泛,但通过证明其在某些情况下比有限元方法(FEM)等经典数值技术更可行的能力,但仍有可能的进步,最著名的是尚未解决的理论问题。
translated by 谷歌翻译
本文介绍了频率卷积神经网络(CNN),用于快速,无创的​​2D剪切波速度(VS)成像的近表面地质材料。在频速度域中运行,可以在用于生成CNN输入的线性阵列,主动源实验测试配置中具有显着的灵活性,这些配置是归一化的分散图像。与波场图像不同,标准化的分散图像对实验测试配置相对不敏感,可容纳各种源类型,源偏移,接收器数量和接收器间距。我们通过将其应用于经典的近乎表面地球物理学问题,即成像两层,起伏的土壤 - 旁质界面的界面来证明频率CNN的有效性。最近,通过开发一个时间距离CNN来研究这个问题,该问题表现出了很大的希望,但在使用不同的现场测试配置方面缺乏灵活性。本文中,新的频道CNN显示出与时距CNN的可比精度,同时提供了更大的灵活性来处理各种现场应用程序。使用100,000个合成近表面模型对频率速度CNN进行了训练,验证和测试。首先,使用训练集的合成近表面模型测试了提议的频率CNN跨各种采集配置概括跨各种采集配置的能力,然后应用于在Austin的Hornsby Bend在Austin的Hornsby Bend收集的实验场数据美国德克萨斯州,美国。当针对更广泛的地质条件范围充分开发时,提出的CNN最终可以用作当前伪2D表面波成像技术的快速,端到端替代方案,或开发用于完整波形倒置的启动模型。
translated by 谷歌翻译
使用多个麦克风进行语音增强的主要优点是,可以使用空间滤波来补充节奏光谱处理。在传统的环境中,通常单独执行线性空间滤波(波束形成)和单通道后过滤。相比之下,采用深层神经网络(DNN)有一种趋势来学习联合空间和速度 - 光谱非线性滤波器,这意味着对线性处理模型的限制以及空间和节奏单独处理的限制光谱信息可能可以克服。但是,尚不清楚导致此类数据驱动的过滤器以良好性能进行多通道语音增强的内部机制。因此,在这项工作中,我们通过仔细控制网络可用的信息源(空间,光谱和时间)来分析由DNN实现的非线性空间滤波器的性质及其与时间和光谱处理的相互依赖性。我们确认了非线性空间处理模型的优越性,该模型在挑战性的扬声器提取方案中优于Oracle线性空间滤波器,以低于0.24的POLQA得分,较少数量的麦克风。我们的分析表明,在特定的光谱信息中应与空间信息共同处理,因为这会提高过滤器的空间选择性。然后,我们的系统评估会导致一个简单的网络体系结构,该网络体系结构在扬声器提取任务上的最先进的网络体系结构优于0.22 POLQA得分,而CHIME3数据上的POLQA得分为0.32。
translated by 谷歌翻译
我们研究了在不利环境中学习强大声学模型的问题,其特征是训练和测试条件之间存在显着不匹配。这个问题对于需要在看不见的环境中表现良好的语音识别系统的部署至关重要。首先,我们从理论上将数据增强表征为笼子风险最小化的实例,该实例旨在通过替换在输入空间上定义经验密度的三角洲函数来改善培训期间的风险估计,并具有近似值的近似值。培训样品。更具体地说,我们假设可以使用高斯人的混合物来近似以训练样品为中心的当地社区,并从理论上证明这可以将强大的电感偏置纳入学习过程。然后,我们通过数据增强方案隐式地指定各个混合物组件,旨在解决声学模型中伪造相关性的常见来源。为了避免由于信息丢失而引起的鲁棒性的潜在混杂影响,这与标准特征提取技术(例如Fbank和MFCC功能)有关,我们重点关注基于波形的设置。我们的经验结果表明,该方法可以推广到看不见的噪声条件,与使用标准风险最小化原则进行训练相比,分布外概括的相对改善150%。此外,结果证明了相对于使用旨在匹配测试话语特征的训练样本的模型,相对于模型的竞争性能。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
我们提出了一个基于网格的神经网络(MESH2IR),以生成使用网格代表的室内3D场景的声脉冲响应(IRS)。国税局用于在交互式应用程序和音频处理中创建高质量的声音体验。我们的方法可以处理具有任意拓扑结构(2K -3M三角形)的输入三角网格。我们提出了一种新颖的训练技术,可以使用能量衰减缓解培训网格2IR并突出其优势。我们还表明,使用我们提出的技术对IRS进行预处理的培训MESH2IR可显着提高IR发电的准确性。我们通过使用图形卷积网络将3D场景网格转换为潜在空间,从而降低了网格空间中的非线性性。我们的网格2IR比CPU上的几何声学算法快200倍以上,并且在给定的室内3D场景中,在NVIDIA GEFORCE RTX 2080 TI GPU上可以在NVIDIA GEFORCE RTX 2080 TI GPU上产生10,000多个IRS。声学指标用于表征声学环境。我们表明,从我们的网格2IR中预测的IRS的声学指标与地面真相相匹配,误差少于10%。我们还强调了Mesh2ir对音频和语音处理应用的好处,例如语音覆盖和语音分离。据我们所知,我们的是第一种基于神经网络的方法,可以实时预测给定的3D场景网格。
translated by 谷歌翻译
We present a novel approach to improve the performance of learning-based speech dereverberation using accurate synthetic datasets. Our approach is designed to recover the reverb-free signal from a reverberant speech signal. We show that accurately simulating the low-frequency components of Room Impulse Responses (RIRs) is important to achieving good dereverberation. We use the GWA dataset that consists of synthetic RIRs generated in a hybrid fashion: an accurate wave-based solver is used to simulate the lower frequencies and geometric ray tracing methods simulate the higher frequencies. We demonstrate that speech dereverberation models trained on hybrid synthetic RIRs outperform models trained on RIRs generated by prior geometric ray tracing methods on four real-world RIR datasets.
translated by 谷歌翻译
我们介绍了Soundspaces 2.0,这是一个用于3D环境的基于几何的音频渲染的平台。考虑到现实世界环境的3D网格,Soundspaces可以为从任意麦克风位置捕获的任意声音生成高度逼真的声音。它与现有的3D视觉资产一起支持一系列视听研究任务,例如视听导航,映射,源定位和分离以及声学匹配。与现有资源相比,Soundspaces 2.0具有允许连续的空间采样,对新型环境的概括以及可配置的麦克风和材料属性的优点。据我们所知,这是第一个基于几何的声学模拟,它提供了高忠诚和现实主义,同时也足够快地用于体现学习。我们展示了模拟器的属性,并根据现实世界的音频测量进行了基准性能。此外,通过涵盖具体导航和远场自动语音识别的两个下游任务,突出了后者的SIM2REAL性能。 Soundspaces 2.0可公开使用,以促进对感知系统的更广泛研究,这些系统既可以看到和听到。
translated by 谷歌翻译
基于RF信号的方向查找和定位系统因多径传播而受到显着影响,特别是在室内环境中。现有算法(例如音乐)在多径存在的情况下解决到达角度(AOA)或在弱信号方案中操作时表现不佳。我们注意到数字采样的RF前端允许轻松分析信号和延迟组件。低成本软件定义的无线电(SDR)模块使能跨宽频谱的通道状态信息(CSI)提取,激励增强的到达角度(AOA)解决方案的设计。我们提出了一种深入的学习方法,可以从SDR多通道数据的单一快照派生AOA。我们比较和对比基于深度学习的角度分类和回归模型,准确地估计最多两个AOA。我们已经在不同平台上实施了推理引擎,实时提取了AOA,展示了我们方法的计算途径。为了证明我们的方法的效用,我们在各种视角(LOS)和非线视线中收集了来自四元通用线性阵列(ULA)的IQ(同步和正交组件)样本( NLOS)环境,并发布了数据集。我们所提出的方法在确定撞击信号的数量并实现平均值为2 ^ {\ rIC} $ 2 ^ {\ cird} $时,我们提出的方法展示了出色的可靠性。
translated by 谷歌翻译
最近在各种语音域应用中提出了卷积增强的变压器(构象异构体),例如自动语音识别(ASR)和语音分离,因为它们可以捕获本地和全球依赖性。在本文中,我们提出了一个基于构型的度量生成对抗网络(CMGAN),以在时间频率(TF)域中进行语音增强(SE)。发电机使用两阶段构象体块编码大小和复杂的频谱图信息,以模拟时间和频率依赖性。然后,解码器将估计分解为尺寸掩模的解码器分支,以滤除不需要的扭曲和复杂的细化分支,以进一步改善幅度估计并隐式增强相信息。此外,我们还包括一个度量歧视器来通过优化相应的评估评分来减轻度量不匹配。客观和主观评估表明,与三个语音增强任务(DeNoising,dereverberation和Super-Losity)中的最新方法相比,CMGAN能够表现出卓越的性能。例如,对语音库+需求数据集的定量降解分析表明,CMGAN的表现优于以前的差距,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
鉴于无线频谱的有限性和对无线通信最近的技术突破产生的频谱使用不断增加的需求,干扰问题仍在继续持续存在。尽管最近解决干涉问题的进步,但干扰仍然呈现出有效使用频谱的挑战。这部分是由于Wi-Fi的无许可和管理共享乐队使用的升高,长期演进(LTE)未许可(LTE-U),LTE许可辅助访问(LAA),5G NR等机会主义频谱访问解决方案。因此,需要对干扰稳健的有效频谱使用方案的需求从未如此重要。在过去,通过使用避免技术以及非AI缓解方法(例如,自适应滤波器)来解决问题的大多数解决方案。非AI技术的关键缺陷是需要提取或开发信号特征的域专业知识,例如CycrationArity,带宽和干扰信号的调制。最近,研究人员已成功探索了AI / ML的物理(PHY)层技术,尤其是深度学习,可减少或补偿干扰信号,而不是简单地避免它。 ML基于ML的方法的潜在思想是学习来自数据的干扰或干扰特性,从而使需要对抑制干扰的域专业知识进行侧联。在本文中,我们审查了广泛的技术,这些技术已经深入了解抑制干扰。我们为干扰抑制中许多不同类型的深度学习技术提供比较和指导。此外,我们突出了在干扰抑制中成功采用深度学习的挑战和潜在的未来研究方向。
translated by 谷歌翻译
我们考虑了使用显微镜或X射线散射技术产生的图像数据自组装的模型的贝叶斯校准。为了说明BCP平衡结构中的随机远程疾病,我们引入了辅助变量以表示这种不确定性。然而,这些变量导致了高维图像数据的综合可能性,通常可以评估。我们使用基于测量运输的可能性方法以及图像数据的摘要统计数据来解决这一具有挑战性的贝叶斯推理问题。我们还表明,可以计算出有关模型参数的数据中的预期信息收益(EIG),而无需额外的成本。最后,我们介绍了基于二嵌段共聚物薄膜自组装和自上而下显微镜表征的ohta-kawasaki模型的数值案例研究。为了进行校准,我们介绍了一些基于域的能量和傅立叶的摘要统计数据,并使用EIG量化了它们的信息性。我们证明了拟议方法研究数据损坏和实验设计对校准结果的影响的力量。
translated by 谷歌翻译
直接定位(DLOC)方法,该方法使用观察到的数据将源定位在一步过程中的未知位置,通常优于其间接的两步对应物(例如,使用到达的时间差异)。但是,水下声学DLOC方法需要对环境的先验知识,并且计算昂贵,因此很慢。我们建议,据我们所知,这是第一个数据驱动的DLOC方法。受经典和现代最佳模型的DLOC解决方案的启发,并利用了卷积神经网络(CNN)的功能,我们设计了一个基于CNN的整体解决方案。我们的方法包括专门量身定制的输入结构,体系结构,损失功能和渐进培训程序,在更广泛的机器学习背景下具有独立的兴趣。我们证明我们的方法优于有吸引力的替代方案,并且渐近地与基于Oracle的最佳模型解决方案的性能匹配。
translated by 谷歌翻译
从随机字段或纹理中提取信息是科学中无处不在的任务,从探索性数据分析到分类和参数估计。从物理学到生物学,它往往通过功率谱分析来完成,这通常过于有限,或者使用需要大型训练的卷积神经网络(CNNS)并缺乏解释性。在本文中,我们倡导使用散射变换(Mallat 2012),这是一种强大的统计数据,它来自CNNS的数学思想,但不需要任何培训,并且是可解释的。我们表明它提供了一种相对紧凑的汇总统计数据,具有视觉解释,并在广泛的科学应用中携带大多数相关信息。我们向该估算者提供了非技术性介绍,我们认为它可以使数据分析有利于多种科学领域的模型和参数推断。有趣的是,了解散射变换的核心操作允许人们解读CNN的内部工作的许多关键方面。
translated by 谷歌翻译
我们建议使用贝叶斯推理和深度神经网络的技术,将地震成像中的不确定性转化为图像上执行的任务的不确定性,例如地平线跟踪。地震成像是由于带宽和孔径限制,这是一个不良的逆问题,由于噪声和线性化误差的存在而受到阻碍。但是,许多正规化方法,例如变形域的稀疏性促进,已设计为处理这些错误的不利影响,但是,这些方法具有偏向解决方案的风险,并且不提供有关图像空间中不确定性的信息以及如何提供信息。不确定性会影响图像上的某些任务。提出了一种系统的方法,以将由于数据中的噪声引起的不确定性转化为图像中自动跟踪视野的置信区间。不确定性的特征是卷积神经网络(CNN)并评估这些不确定性,样品是从CNN权重的后验分布中得出的,用于参数化图像。与传统先验相比,文献中认为,这些CNN引入了灵活的感应偏见,这非常适合各种问题。随机梯度Langevin动力学的方法用于从后验分布中采样。该方法旨在处理大规模的贝叶斯推理问题,即具有地震成像中的计算昂贵的远期操作员。除了提供强大的替代方案外,最大的后验估计值容易过度拟合外,访问这些样品还可以使我们能够在数据中的噪声中转换图像中的不确定性,以便在跟踪的视野上不确定性。例如,它承认图像上的重点标准偏差和自动跟踪视野的置信区间的估计值。
translated by 谷歌翻译