条件生成对抗网络(GAN)中的对抗性损失未被设计为直接优化目标任务的评估度量,因此,可能不总是引导GAN中的生成器生成具有改进的度量分数的数据。为了克服这个问题,我们提出了一种新颖的MetricGAN方法,旨在针对一个或多个评估指标优化发电机。此外,基于MetricGAN,生成数据的度量分数也可以由用户任意指定。我们在语音增强任务上测试了所提出的MetricGAN,这特别适合于验证所提出的方法,因为存在多个度量来测量语音信号的不同方面。此外,这些指标通常是复杂的,并且无法通过Lp或传统的对抗性无法完全优化。
translated by 谷歌翻译
利用与人类感知相关的目标函数来训练一个增强模型已成为最近的一个热门话题。这主要是因为传统的均方误差(MSE)损失不能很好地反映听觉感知。在与人类感知相关的指标中,语音质量的感知评估(PESQ)是典型的,并且已被证明与人类评定的质量评分具有高度相关性。然而,由于其复杂且不可微分的特性,PESQ功能可能不会用于直接优化语音增强模型。在这项研究中,我们建议用近似的PESQ函数优化增强模型,该函数是可区分的,并从训练数据中学习。实验结果表明,与基于MSE的预训练模型相比,通过学习损失函数的增强语音微调的平均PESQ得分可以进一步提高0.1个点。
translated by 谷歌翻译
现有的语音转换(VC)客观评估指标并不总是与人类感知相关。因此,用这样的标准训练VC模型可能无法有效地改善转换语音的自然性和相似性。在本文中,我们提出基于深度学习的评估模型来预测转换语音的人类评级。我们采用卷积和递归神经网络模型来建立一个平均意见得分(MOS)预测器,称为MOSNet。所提出的模型在语音转换挑战(VCC)2018的大规模测试结果上进行测试。实验结果表明,所提出的MOSNet的预测分数与系统级的人类MOS评级高度相关,而与人类MOS评级相关。话语水平。同时,我们修改了MOSNet来预测相似性得分,初步结果表明预测得分也与人类评级相关。这些结果证实了所提出的模型可以作为计算评估者来衡量VC系统的MOS来减少需要昂贵的人力评级。
translated by 谷歌翻译
大量研究已经研究了神经网络量化对模式分类任务的有效性。本研究首次使用新的无指数浮点量化神经网络(EOFP-QNN)研究了语音增强(回归任务检查处理)的性能。所提出的EOFP-QNN包括两个阶段:尾数量化和指数量化。在尾数量化阶段,EOFP-QNN学习如何量化模型参数的尾数位,同时使用最少的mantissaprecision保持回归精度。在指数量化阶段,参数的指数部分被进一步量化,而不会引起任何额外的性能退化。我们在语音增强任务上评估了两种神经网络上提出的EOFP量化技术,即双向长短期记忆(BLSTM)和卷积神经网络(FCN)。实验结果表明,模型大小可以显着减少(量子化BLSTM和FCN模型的模型尺寸分别仅为原始模型的18.75%和21.89%,同时保持了令人满意的语音增强性能。
translated by 谷歌翻译
如今,大多数客观语音质量评估工具(例如,语音质量的感知评估(PESQ))基于降级/处理的语音与其清洁对应物的比较。由于通常无法获得干净的参考,因此对“黄金”参考的需求极大地限制了这种评估工具在实际场景中的实用性。另一方面,人类可以容易地评估语言质量而无需任何参考(例如,平均意见得分(MOS)测试),这意味着存在客观和非侵入性(不需要干净的参考)质量评估机制。在这项研究中,我们提出了一种新颖的端到端,非侵入式语音质量评估模型,称为Quality-Net,基于双向长短期记忆。质量网中话语水平质量的评估基于帧级评估。遗忘门偏差的帧约束和灵敏初始化用于从话语级质量标签中学习有意义的帧级质量评估。实验结果表明,质量网可以产生与PESQ的高度相关性(嘈杂语音为0.9,语音处理为0.84)通过speechenhancement)。我们相信Quality-Net有可能用于各种语音信号处理应用。
translated by 谷歌翻译
由于不准确的检测和识别,自主车辆可能做出错误的决定。因此,智能车辆可以将自己的数据与其他车辆相结合,提高感知能力,从而提高检测精度和驾驶安全性。然而,多车协同感知要求现实世界场景的整合和原始传感器数据交换的流量远远超过现有车载网络的带宽。据我们所知,我们是第一个对原始数据级合作感知进行研究的人。提高自驾系统的检测能力。在这项工作中,依靠LiDAR 3D点云,我们完成了从连接车辆的不同位置和角度收集的传感器数据。提出了一种基于点云的三维物体检测方法,用于对齐点云的多样性。 KITTI和我们收集的数据集的实验结果表明,所提出的系统通过扩展感知区域优于感知,提高了检测精度并促进了增强结果。最重要的是,我们证明可以通过现有的车载网络技术传输用于协作感知的pointclouds数据。
translated by 谷歌翻译
我们介绍了DeepICP--一种新颖的端到端学习型3D点云注册框架,可以达到与先进的几何方法相当的注册精度。与通常需要RANSAC程序的其他基于关键点的方法不同,我们实现了使用各种深度神经网络结构来建立端到端的可训练网络。我们的关键点检测器通过这种端到端结构进行训练,并使系统能够避免动态对象的推断,利用静止物体上足够显着特征的帮助,从而实现高稳健性。不是在现有点之间搜索相应的点,而是关键的贡献是我们基于一组候选者之间的学习匹配概率创新地生成它们,这可以提高注册准确性。我们的损失功能结合了局部相似性和全局几何约束,以确保所有上述网络设计能够朝着正确的方向收敛。我们使用KITTI数据集和Apollo-SouthBay数据集全面验证了我们方法的有效性。结果表明,我们的方法比最先进的基于几何的方法实现了可比较的或更好的性能。包括详细的消融和可视化分析,以进一步说明我们网络的行为和见解。低注册错误以及我们方法的高稳健性使其对依赖点云注册任务的实质性应用具有吸引力。
translated by 谷歌翻译
已经证明语法在神经机器翻译(NMT)中非常有效。先前的NMT模型通过表示来自训练有素的解析系统的1最佳树输出来集成语法,例如,可能遭受错误传播的代表性树-RNN和树线化方法。在这项工作中,我们提出了一种新的方法来隐式地为NMT整合源端语法。基本思想是使用经过训练的端到端依赖解析器的中间隐藏表示,这些表示被称为assyntax-aware word representationation(SAWR)。然后,我们简单地将这些SAWR与普通的单词嵌入连接起来,以增强基本的NMT模型。该方法可以直接集成到广泛使用的序列到序列(Seq2Seq)NMT模型中。我们从基于RNN的代表性Seq2Seq基线系统开始,分别测试我们提出的方法在中英文和英语 - 越南语翻译任务的两个基准数据集上的有效性。实验结果表明,与基线相比,该方法能够在两个数据集上显着提高BLEU得分,中英翻译分别为1.74分,英语 - 越南语翻译分别为0.80分。此外,该方法还优于显式树-RNN和树线性化方法。
translated by 谷歌翻译
图像生成在学术和工业领域引起了极大的关注,特别是对于有条件和面向目标的图像生成,例如犯罪肖像和时装设计。虽然目前的研究已经沿着这个方向取得了初步成果,但它们总是把重点放在类标签上,作为从潜在载体中随机生成空间内容的条件。边缘细节通常是模糊的,因为难以保留空间信息。鉴于此,我们提出了一种新颖的空间约束生成对抗网络(SCGAN),它将空间约束与潜在向量分离,并使这些约束可以作为附加的可控信号。为了增强空间可控性,生成器网络专门设计为逐步采用语义分割,潜在向量和属性级别标签作为输入。此外,构造分段网络以对发生器施加空间约束。在实验上,我们提供了CelebA和DeepFashion数据集的视觉和定量结果,并证明了所提出的SCGAN在控制空间内容以及生成高质量图像方面非常有效。
translated by 谷歌翻译
本文介绍了一种学习和检测3D形状的独特区域的新方法。与之前需要标记数据的作品不同,我们的方法是不受监督的。我们对从3D形状采样的点集进行分析,并在深度神经网络中进行无监督的形状聚类任务,以学习局部和全局特征,以区分相对于给定形状集的形状。为了使网络以无人监督的方式学习,我们设计了基于聚类的非参数softmax分类器,其具有形状的迭代聚类,以及用于增强特征嵌入质量和稳定学习过程的适应的对比损失。到那时,我们鼓励网络学习输入形状的点独特性。我们广泛地评估了我们方法的各个方面,并展示了它在3D场景中的独特引导形状检索,采样和视图选择的应用。
translated by 谷歌翻译