鉴于最近深度学习的发展激增,本文提供了对音频信号处理的最新深度学习技术的回顾。语音,音乐和环境声音处理被并排考虑,以指出领域之间的相似点和不同点,突出一般方法,问题,关键参考和区域之间相互交流的可能性。回顾了主要特征表示(特别是log-mel光谱和原始波形)和deeplearning模型,包括卷积神经网络,长期短期记忆体系结构的变体,以及更多音频特定的神经网络模型。随后,涵盖了突出的深度学习应用领域,即音频识别(自动语音识别,音乐信息检索,环境声音检测,定位和跟踪)和合成与转换(源分离,音频增强,语音,声音和音乐合成的生成模型)。最后,确定了应用于音频信号处理的深度学习的关键问题和未来问题。
translated by 谷歌翻译
由于深度网络和大型数据集,已知类别对象的视点估计得到了显着改善,但泛化的已知类别仍然非常具有挑战性。为了提高未知类别的表现,我们引入了类别级别的镜头观点估计问题。我们设计了一个新的框架来成功地为新类别训练视点网络,只有很少的例子(10个或更少)。我们将问题表述为学习估计特定类别的3D扫描形状,相关深度估计和语义2D关键点之一。我们应用元学习来学习我们网络的权重,这些权重是特定于特定类别的微观微调。此外,我们设计了一个灵活的暹罗网络,在元学习过程中最大化信息共享。通过对ObjectNet3D和Pascal3D + benchmark数据集的大量实验,我们证明我们的框架,我们称之为MetaView,明显优于微调状态。 -art模型与fewexamples,我们的方法的具体架构创新是实现良好性能的关键。
translated by 谷歌翻译
基于one.g.的数值模拟评估的计算工作量。有限元方法很高。元模型可用于创建低成本替代方案。然而,用于创建足够的元模型的所需样本的数量应该保持较低,这可以通过使用自适应采样技术来实现。在这篇硕士论文中,研究了自适应采样技术在使用克里金技术创建元模型中的应用,该技术通过由先验协方差控制的高斯过程来插值。提出了扩展到多保真问题的Kriging框架,并用于比较文献中提出的基准问题的自适应采样技术以及接触力学的应用。本文首次对Kriging框架的自适应技术的大范围进行了综合比较。此外,自适应技术的灵活性被引入到多保真Kriging以及具有减少的超参数维度的Kriging模型,称为偏最小二乘Kriging。此外,提出了一种创新的二进制分类自适应方案,并用于识别Duffing型振荡器的混沌运动。
translated by 谷歌翻译
统计模型检查(SMC)是一种用于分析可能(部分)未知的概率系统的技术。我们提出了一种用于(无界)可达性的SMC算法,可能对结果产生近似正确(PAC)的保证。一方面,它是第一个这样的算法forstochastic游戏。另一方面,它是第一个实用的算法,即使对马尔可夫决策过程也有这样的保证。与先前的方法相比,PAC保证要求运行时间长于多年的时间,即使对于具有少数状态的系统,我们的算法通常在几分钟内产生合理的精确结果。我们考虑设置(i)不知道转换函数和(ii)知道底层图的拓扑。
translated by 谷歌翻译
我们探索人工神经网络作为从虚构时间格林函数重建光谱函数的工具,这是一个经典条件反问题。我们的ansatz基于有监督的学习框架,其中先验知识在训练数据中被编码,并且逆变换流形通过神经网络被明确地参数化。我们系统地研究了这种新的重建方法,提供了对其在物理动机模拟数据上的表现的详细分析,并将其与已建立的贝叶斯推理方法进行了比较。发现构造精度至少是可比较的,并且特别是在较大的噪声水平下可能是优越的。我们认为,在监督环境中使用标记的训练数据和确定优化目标的自由度是本方法的固有优势,并且可能导致对未来最先进方法的重大改进。进一步研究的潜在方向是详细讨论。
translated by 谷歌翻译
我们在语音识别的语言建模中探索多层自回归变换器模型。我们关注两个方面。首先,我们重新访问专门用于语言建模的Transformermodel配置。我们表明,基于LSTM递归神经网络层的低堆栈,配置良好的Transformer模型的性能优于我们的基线模型。我们在开源LibriSpeech 960hr任务中进行实验,用于200K词汇词 - leveland 10K字节对编码子词级语言建模。我们通过格式标记将我们的字级模型应用于传统的混合语音识别,并通过浅层融合将子字级模型应用于基于注意力的编码器 - 解码器模型。其次,我们表明深度Transformer语言模型不需要位置编码。位置编码是自我关注机制的必要条件,其对序列排序是不变的。然而,在自回归设置中,与语言建模的情况一样,信息量沿着位置维度增加,这是位置信号本身。对注意力分析的分析表明,深度自回归自我关注模型可以自动利用这种位置信息。我们发现去除位置编码会略微改善这些模型的性能。
translated by 谷歌翻译
在本文中,我们调查了为对话系统评估而开发的方法和概念。评估是开发过程中的关键部分。通常,对话系统通过人工评估和问卷调查进行评估。然而,这往往是非常耗费成本和时间的。因此,已经做了很多工作来寻找能够减少人工劳动的方法。在本次调查中,我们提出了主要的概念和方法。为此,我们区分了各种对话系统(面向任务的对话系统,会话对话系统和问答 - 对话系统)。我们通过介绍为对话系统开发的主要技术,然后介绍有关该课程的评估方法,涵盖每个课程。
translated by 谷歌翻译
沿复杂轨迹高速移动的物体经常出现视频,特别是运动视频。这些物体在单个帧的曝光时间期间经历了不可忽略的距离,因此它们在帧中的位置没有很好地定义。它们由于运动模糊而呈现为半透明条纹,并且无法通过标准跟踪器可靠地跟踪。我们提出了一种新的方法,称为Deblatting跟踪,基于观察,运动模糊与物体的帧内轨迹直接相关。通过解决两个交织的反问题,盲目去模糊和图像模糊,我们称之为deblatting来估计。然后通过拟合分段二次曲线来估计轨迹,该曲线模拟物理上合理的轨迹。结果,跟踪对象精确地定位,具有比传统跟踪器更高的分辨率。提议的TbD跟踪器对新创建的具有地面实况的视频数据集进行了评估,该数据集由高速摄像机使用新的轨迹 - IoU度量获得,该度量推广了传统的交叉点,并测量了帧 - 帧轨迹的准确性。所提出的方法在重新轨道轨迹精度方面优于基线。
translated by 谷歌翻译
当音频信号包含串扰时,观察到自动语音识别(ASR)系统的显着性能下降。最近提出的解决多扬声器ASR问题的方法之一是深度聚类(DPCL)方法。将DPCL与最先进的混合声学模型相结合,我们在常用的wsj0-2mix数据集上获得了16.5%的单词错误率(WER),这是迄今为止我们所知道的最佳性能。 wsj0-2mix数据集包含模拟的串扰,其中多个扬声器的语音几乎覆盖整个话语。在更真实的ASR场景中,音频信号包含单个说话者语音的重要部分,并且仅信号的一部分包含多个竞争扬声器的语音。本文研究了在稀疏重叠的情况下应用DPCLas作为ASR预处理方法的障碍。为此,我们提出了一种数据模拟方法,与wsj0-2mix数据集密切相关,生成任意重叠率稀疏重叠的语音数据集。将DPCL应用于稀疏重叠语音的分析是完全重叠的数据集之间的重要中间步骤,如wsj0-2mix和更真实的ASR数据集,例如CHiME-5或AMI。
translated by 谷歌翻译
进化和学习是生命适应生存和超越限制的两个基本机制。这些生物学现象启发了成功的计算方法,如进化算法和深度学习。进化依赖于随机突变和随机遗传重组。在这里,我们表明,学习进化,即学习变异和重组比在任意时更好,改善了每代健身增加的进化结果,甚至在可达到的健康方面。我们使用深度强化学习来学习动态调整进化算法的策略以适应不同的环境。我们的方法在组合和连续优化问题上优于经典的进化算法。
translated by 谷歌翻译