条件生成对抗网络(GAN)中的对抗性损失未被设计为直接优化目标任务的评估度量,因此,可能不总是引导GAN中的生成器生成具有改进的度量分数的数据。为了克服这个问题,我们提出了一种新颖的MetricGAN方法,旨在针对一个或多个评估指标优化发电机。此外,基于MetricGAN,生成数据的度量分数也可以由用户任意指定。我们在语音增强任务上测试了所提出的MetricGAN,这特别适合于验证所提出的方法,因为存在多个度量来测量语音信号的不同方面。此外,这些指标通常是复杂的,并且无法通过Lp或传统的对抗性无法完全优化。
translated by 谷歌翻译
利用与人类感知相关的目标函数来训练一个增强模型已成为最近的一个热门话题。这主要是因为传统的均方误差(MSE)损失不能很好地反映听觉感知。在与人类感知相关的指标中,语音质量的感知评估(PESQ)是典型的,并且已被证明与人类评定的质量评分具有高度相关性。然而,由于其复杂且不可微分的特性,PESQ功能可能不会用于直接优化语音增强模型。在这项研究中,我们建议用近似的PESQ函数优化增强模型,该函数是可区分的,并从训练数据中学习。实验结果表明,与基于MSE的预训练模型相比,通过学习损失函数的增强语音微调的平均PESQ得分可以进一步提高0.1个点。
translated by 谷歌翻译
在嘈杂的环境中,如果他/她熟悉语言,则可以由听众自动恢复有损语音信号。也就是说,利用“语言模型”的内置墨水,收听者可以有效地抑制噪声干扰并检索目标语音信号。因此,我们认为熟悉口头语言的潜在语言内容有利于嘈杂环境中的语音增强(SE)。在本研究中,除了用于学习声学噪声清晰度映射的传统建模之外,抽象符号顺序建模被并入SE框架中。这种符号顺序建模可以被认为是学习声学噪声清晰语音映射函数的“语言约束”。在这项研究中,声学信号的符号序列通过矢量量化变分自动编码器算法获得离散表示。所获得的符号能够从语音信号中捕获高级音素类内容。实验结果表明,所提出的框架能够显着提高TIMIT数据集上语音质量(PESQ)和短时目标可懂度(STOI)的感知评估的SE性能。
translated by 谷歌翻译
嘈杂的标签在现实世界的数据集中无处不在,这对于深度神经网络(DNN)的强大训练提出了挑战,因为DNN通常具有高容量来记忆嘈杂的标签。在本文中,我们发现测试准确度可以根据噪声比indatasets进行定量表征。特别是,测试精度是对称噪声情况下噪声比的二次函数,这解释了以前发表的实验结果。根据我们的分析,我们应用交叉验证来随机分割噪声数据集,这些数据集可识别大多数具有正确标签的样本。然后我们采用共同教学策略,该策略充分利用所识别的样本来针对噪声标签强有力地训练DNN。与广泛的最新方法相比,我们的策略在合成和现实世界的训练噪声下始终如一地提高了DNN的概括性能。
translated by 谷歌翻译
在自动驾驶车辆上逐渐出现了多个激光雷达,用于扩展视野和密集测量。然而,缺乏精确校准会对其局部化和感知系统中的潜在应用产生负面影响。在本文中,我们提出了一种新颖的系统,它能够实现自动多LiDAR校准,无需任何校准目标,先前的环境信息和外部参数的初始值。我们的方法首先是通过对齐每个传感器的估计运动进行自动初始化的手眼校准。然后通过最小化从点 - 平面对应构造的acost函数,使用基于外观的方法来细化所得到的参数。模拟和真实数据集的实验结果证明了我们的校准方法的可靠性和准确性。对于移动平台,所提出的方法可以校准多个LiDAR系统,其旋转和平移误差分别小于0.04 [rad]和0.1 [m]。
translated by 谷歌翻译
基于流的生成模型是精确对数似然模型的一族,具有可采样和潜变量推断,因此在概念上对于复杂分布的建模具有吸引力。然而,与现有技术的自回归模型相比,基于流量的模型受到密度估计性能问题的限制。然而,自回归模型也属于基于可能性的方法族,但其可并行性有限。在本文中,我们提出动态线性流(DLF),一种具有部分自回归结构的新型可逆变换。我们的方法得益于基于流量的方法的有效计算和自回归方法的高密度估计性能。我们证明了所提出的DLF在所有基于流的方法中在ImageNet 32​​x32和64x64上产生了最佳性能,并且与最佳自回归模型竞争。此外,我们的模型比Glow(Kingma andDhariwal,2018)快10倍。该代码可在https://github.com/naturomics/DLF获得。
translated by 谷歌翻译
机器人设计通常是一个缓慢而困难的过程,需要迭代构造和测试原型,目标是顺序优化设计。对于大多数机器人而言,当验证硬件的能力以解决所需任务时,该过程进一步复杂化,已经具有适当的控制器,该控制器又针对特定硬件设计和调整。在本文中,我们提出了一种新颖的方法HPC-BBO,可以有效地自动设计硬件配置,并通过自动调整相应的控制器来评估它们.HPC-BBO基于分层贝叶斯优化过程,可以优化形态配置(基于在控制器学习过程中先前设计的性能)并随后学习相应的控制器(利用从先前形态的优化中收集的知识)。此外,HPC-BBO可以同时选择多个形态设计的“批量”,从而并行化硬件验证并减少耗时的生产周期数。我们验证了HPC-BBO对模拟6腿机器人的形态和控制器的设计。实验结果表明,HPC-BBO优于多竞争基线,并且生产周期超过贝叶斯优化产生360美元/%的减少,从而将我们的微机器人的假设制造时间从21个月减少到4个月。
translated by 谷歌翻译
多个激光雷达普遍用于移动车辆,以提供宽视图以增强定位和感知系统的性能。然而,由于扫描点中的特征对应性不能总是提供足够的约束,因此多个激光雷达的精确校准是具有挑战性的。为了解决这个问题,现有方法需要场景中的固定校准目标或仅依赖于其他传感器。在本文中,我们提出了一种新方法,可以实现自动激光雷达校准而不受这些限制。在周围出现的三个线性独立的平面表面用于找到对应关系。开发了两个组件以确保找到外部参数:用于初始化的闭合形式和用于通过最小化非线性成本函数进行细化的优化器。仿真和实验结果证明了我们的校准方法的高精度,旋转和平移误差分别小于0.05rad和0.1m。
translated by 谷歌翻译
对于图像匹配任务,如人脸识别和人员重新识别,现有的深度网络通常关注表示学习。然而,在没有域适应或转移学习的情况下,学习模型是固定的,这不适用于处理各种看不见的场景。在本文中,除了代表性学习之外,我们还考虑如何在深度特征映射中直接形成图像匹配。我们将图像匹配视为在特征映射中寻找局部对应关系,并在运行中构建自适应卷积核以实现局部匹配。通过这种方式,匹配过程和结果是可解释的,并且这种显式匹配比代表性特征更加通用,以便看不见的场景,例如未知的未对准,姿势或视点变化。为了促进这种图像匹配架构的端到端训练,我们进一步构建了一个类存储器模块,用于缓存每个类的最新样本的特征图,以便计算用于度量学习的图像匹配损失。该方法初步验证了人员重新识别任务。通过直接的跨数据集评估而无需进一步的转移学习,它实现了比许多传递学习方法更好的结果。此外,提出了一种基于无模型时间共生的分数加权方法,该方法将性能提高到更高的范围,从而在交叉数据集评估中产生最先进的结果。
translated by 谷歌翻译
许多计算机视觉挑战需要连续输出,但往往通过离散分类来解决。原因是分类在概率$ n $ -simplex内的自然收敛,如流行的softmaxactivation函数所定义。常规回归缺乏这种封闭的几何形状,导致不稳定的训练和收敛到次优的局部最小值。从这个洞察力开始,我们重新审视卷积神经网络中的回归。我们观察到计算机视觉中的连续输出问题自然包含几何流形,如视点估计中的欧拉角或表面法线估计中的法线。产生这种连续输出问题的一个自然框架是$ n $ -spheres,它们是$ \ mathbb {R} ^ {(n + 1)} $空间中定义的自然闭合几何流形。通过在回归输出上引入$ n $ -spheres上的非球面指数映射,我们获得了良好的渐变,从而实现了稳定的训练。我们展示了我们的球面回归如何用于几个计算机视觉挑战,特别是视点估计,表面法线估计和3D旋转估计。对于所有这些问题,我们的实验证明了球形回归的好处。所有纸质资源都可以通过以下网址获得://github.com/leoshine/Spherical_Regression。
translated by 谷歌翻译