我们提出了一种神经混合模型,该模型由在由深度可逆变换(即,正常化流动)计算的特征的一组上定义的线性模型组成。我们模型的一个吸引人的特性是,p(特征),特征密度和p(目标|特征),预测分布,可以在单个前馈传递中精确计算。我们表明,尽管存在可逆性约束,我们的混合模型可以实现与纯预测模型的相似性。然而,尽管存在混合优化目标,生成组件仍然是输入特征的良好模型。这提供了额外的功能,例如检测分发外输入和启用半监督学习。精确关联密度p(目标,特征)的可用性也使我们可以很好地计算许多量,使我们的混合模型成为概率深度学习的下行应用的有用构建块。
translated by 谷歌翻译
本文提出了滚动快门相机绝对姿势问题的新的有效解决方案。与最先进的多项式求解器不同,我们在迭代方案中使用简单快速的线性求解器来解决问题。我们提出了几种基于修复不同变量集的解决方案,并彻底研究它们的性能。我们设计了一种新的策略,通过仅修复非线性项来线性估计每次迭代中的所有参数。我们最好的6点求解器,基于新的渐变技术,显示出与最先进的R6P解算器相同甚至更好的性能,并且速度提高了两个数量级。此外,提出了一种线性非迭代求解器,其需要非最小数量的9个对应关系,但提供比最先进的R6P更好的结果。此外,所有提出的线性求解器都提供单一解决方案,而最先进的R6P提供多达20种解决方案,必须通过昂贵的验证进行修剪。
translated by 谷歌翻译
本文将视频中的显着区域的信封推到了语义上有意义的组件,即语义显着实例。为了配合这个视频语义显着实例分割,我们构建了一个新的数据集,语义显着实例视频(SESIV)数据集。我们的SESIV数据集由84个高质量视频序列组成,每个帧标准按照像素标注不同的分段任务。我们还提供了这个问题的基线,称为Fork-Join Strategy(FJS)。 FJS是双流网络,利用两种不同分割任务的优点,即语义实例分割和显着对象分割。在FJS中,我们引入了一种顺序融合,它将两个流的输出结合起来,逐个具有非重叠的实例。我们还引入了recurrentinstance传播来优化实例的形状和语义含义,以及身份跟踪以在整个视频中维护实例的身份和语义。实验结果证明了我们提出的FJS的有效性。
translated by 谷歌翻译
基频(F0)表示语音中的音调,其确定语音的语音特征并且在用于语音分析和合成的各种任务中是需要的。尽管对该主题进行了数十年的研究,但在意外噪声条件下的低信噪比(SNR)下的F0估计仍然很困难。这项工作提出了一种使用以监督方式训练的递归神经网络(RNN)进行噪声鲁棒F0估计的新方法。最近的研究采用深度神经网络(DNN)将F0跟踪作为逐帧分类任务进入量化频率状态,但我们提出波形到正弦波回归,而不是通过提高频率分辨率来实现非均匀性和准确估计。 PTDB-TUG语料库受加性噪声污染的实验结果(NOISEX-92)表明,该方法在-10 dB和+10 dB之间的SNR下将总节距误差(GPE)率和精细间距误差(FPE)提高了35%以上与众所周知的噪声稳健F0跟踪器PEFAC相比。此外,所提出的方法在FPE和GPE速率方面优于现有的基于DNN的方法,超过了前一个SNR范围的15%以上。
translated by 谷歌翻译
本文提出了一种检测视频中显着对象的方法,其中除了空间信息之外的时间信息被充分考虑在内。在最近报道了深度特征超常规手工制作功能的优势之后,我们提出了一套新的SpatioTemporal Deep(STD)功能,它们利用帧上的局部和全局上下文。我们还提出了新的SpatioTemporal条件随机场(STCRF)来计算STD特征的显着性。 STCRF是我们将CRF扩展到时域,并描述了帧和超帧中相邻区域之间的关系。 STCRF在帧上导致时间上一致的显着图,有助于在检测过程中准确检测显着物体的边界和噪声消除。我们提出的方法首先将输入视频分段到多个比例,然后使用STDF的STD特征在每个比例级别计算显着性图。最终显着性图是通过融合不同比例级别的显着性图来计算的。我们使用公开可用的基准数据集进行的实验证实,所提出的方法明显优于最先进的方法。我们还将显着性计算应用于视频对象分割任务,表明我们的方法优于现有的视频对象分割方法。
translated by 谷歌翻译