在语言识别任务的许多场景中,用户将指定他/她可以说的少量语言而不是大量所有可能的语言。我们希望将这种先验知识建模到我们训练神经网络的方式中,通过用名为tuplemax loss的新型损失函数替换常用的softmax损失函数。事实上,在北美推出的典型语言识别系统大约有95%的用户可以说不超过两种语言。使用tuplemax损失,我们的系统误差率为2.33%,相对于标准softmax损失方法的3.85%误差率,相对改善了39.4%。
translated by 谷歌翻译
我们描述了一种基于神经网络的文本到语音(TTS)合成系统,它能够以许多不同发言者的声音产生语音,包括训练期间看不到的那些。我们的系统由三个独立训练的组件组成:(1)扬声器编码器网络,使用来自数千个没有抄本的扬声器的嘈杂语音的独立数据集训练aspeaker验证任务,从目标发言者的参考语音的秒数生成固定维度的嵌入向量; (2)基于Tacotron 2的序列到序列合成网络,它以语音嵌入为条件,从文本生成amel谱图; (3)基于自回归WaveNet的声码器,将mel频谱图转换为时域波形样本的序列。我们证明了所提出的模型能够将受到训练的扬声器编码器学习的说话者变异性的知识传递给新任务,并且能够合成来自训练期间未见的说话者的自然语音。为了获得最佳的泛化性能,我们重点介绍了在大型多变量集合器上训练扬声器编码器的重要性。最后,weshow随机采样的扬声器嵌入可用于在新颖扬声器的声音中合成语音,与训练中使用的语音不同,表明该模型已经学习了高质量的说话人表示。
translated by 谷歌翻译
For many years, i-vector based audio embedding techniques were the dominant approach for speaker verification and speaker diarization applications. However, mirroring the rise of deep learning in various domains, neural network based audio embeddings, also known as d-vectors, have consistently demonstrated superior speaker verification performance. In this paper, we build on the success of d-vector based speaker verification systems to develop a new d-vector based approach to speaker diarization. Specifically, we combine LSTM-based d-vector audio embeddings with recent work in non-parametric clustering to obtain a state-of-the-art speaker diarization system. Our system is evaluated on three standard public datasets, suggesting that d-vector based diarization systems offer significant advantages over traditional i-vector based systems. We achieved a 12.0% diarization error rate on NIST SRE 2000 CALLHOME, while our model is trained with out-of-domain data from voice search logs.
translated by 谷歌翻译
图像质量在基于CNN的图像分类性能中起着重要作用。使用扭曲的样本对网络进行精细调整对于大型网络来说可能成本太高。为了解决这个问题,我们提出了一种优化的转移学习方法,以便考虑到在CNN的每一层中,一些滤波器比其他滤波器更容易受到图像失真的影响。我们的方法识别最易受影响的过滤器,并仅对过滤器应用重新训练,这些过滤器显示干净图像和失真图像之间的最高激活图距离。使用Borda计数选择方法对过滤器进行排序,然后仅微调受影响的过滤器。这显着减少了重新训练的参数数量。我们在CIFAR-10和CIFAR-100数据集上评估这种方法,在两种不同的模型和两种不同类型的失真上进行测试。结果表明,由于减少了微调参数的数量,所提出的传递学习技术由于输入数据失真而以相当于现有方法的相当快的速度恢复了大部分丢失的性能。当为训练提供很少的噪声样本时,我们的滤波器级微调表现特别好,也优于现有技术的层级传输学习方法。
translated by 谷歌翻译
光学相干断层扫描(OCT)已成为眼科学中最重要的成像模式。最近,大量研究被用于开发机器学习(ML)模型,用于OCT图像中病理特征的识别和量化。在ML模型必须处理的几个可变性来源中,主要因素是采集设备,其可以限制ML模型的可归一化性。在本文中,我们建议通过使用不受监督的非配对图像变换算法CycleGAN来降低不同OCT设备(Spectralis和Cirrus)的图像变化。在视网膜液分割的设置中评估该方法的有用性,即视网膜下囊液(IRC)和视网膜下液(SRF)。首先,我们在使用源OCT设备获取的图像上训练分段模型。然后我们在(1)源,(2)目标和(3)目标OCT图像的变换版本上评估模型。所提出的转换策略显示IRC(SRF)分割的F1得分为0.4(0.51)。与传统的转换方法相比,这意味着F1得分为0.2(0.12)。
translated by 谷歌翻译
研究了在高维输入和目标数据学习框架中使用正交投影。首先,我们研究了两个标准目标在降维,最大化方差和保持成对相对距离方面的关系。它们的渐近相关和数值实验的推导表明,预测通常不能满足两个目标。在标准分类问题中,我们确定输入数据的投影,以平衡它们并比较后续结果。接下来,我们将正交投影的应用扩展到深度学习框架。我们引入了新的变分损失函数,可以通过目标数据的变换和投影来集成其他信息。在两个监督学习问题,临床图像分割和音乐信息分类中,所提出的损失函数的应用提高了准确性。
translated by 谷歌翻译
本研究应用文本挖掘来分析客户评论,并根据五个预定方面自动分配集体餐厅星级评级:氛围,成本,食品,卫生和服务。该应用程序提供了一个网络和移动人群采购平台,用户可以通过用户贡献的反馈分享用餐体验并了解餐厅的优势和劣势。文本评论被标记为句子。使用斯坦福核心NLP库从每个句子中提取名词 - 形容词,并根据馈入系统的相关单词包将区域相关联。通过AFINN库确定形容词的情感权重。 Anoverall餐厅星级评级是根据个人方面计算的。此外,生成文字云以提供评论中最常出现的术语的视觉显示。添加的反馈越多,对餐厅表现的情绪评分就越反映。
translated by 谷歌翻译
Selfie软生物识别技术在营销,安全和网上银行等各种应用中具有巨大潜力。然而,由于数据采集条件的控制有限,它面临许多挑战。本章介绍了一种超分辨率 - 卷积神经网络(SRCNNs)方法,该方法可以提高从受试者脸部的自拍图像中裁剪出的低质量眼周虹膜图像的分辨率。这项工作表明,使用随机森林分类器时,增加图像分辨率(2x和3x)可以提高性别分类率。最佳性别分类率为90.15%,左眼为87.15%。这是在图像从150x150像素升级到450x450像素时实现的。这些结果与现有技术相比较,并且表明当使用SRCNN提高图像分辨率时,这些分类率增加。此外,创建了一个新的自拍数据库,该数据库来自150名使用iPhone X的受试者(可根据要求提供)。
translated by 谷歌翻译
在大量人口中访问各种各样的数据使得可以预测客户购买模式和对营销活动的响应。特别是,对于经常重复购买的流行产品的准确需求预测是必不可少的,因为这些产品是利润的主要驱动因素之一。然而,由于人口异质性以及跨产品类别的购买模式的依赖性,买方购买模式在每个产品层面上极其多样化和稀疏。生存分析中的传统方法已经证明通过在到达时间间隔上进行参数分布来处理删失数据是有效的。然后通常在回归框架中拟合分布参数。另一方面,基于神经网络的模型采用非参数方法来学习来自更大功能类的关系。然而,缺乏分布式假设使得难以对部分观察到的数据进行建模。在本文中,我们使用RecurrentNeural Networks(RNN)在几个产品上共同模拟购买时间,直接模拟基于生存的方法中每个时间步的到达时间和部分观察信息。而不是预测点估计到达间隔时间,RNN输出参数定义分布估计。损失函数是给定部分观察数据的这些参数的负对数似然。这种方法允许人们利用完全观察到的数据以及部分信息。通过对数似然损失函数外部化审查问题,我们表明可以实现对最先进的机器学习方法的实质性改进。我们基于两个开放数据集以及对来自大型数据库的真实数据集的研究呈现实验结果。
translated by 谷歌翻译
虚拟执行环境允许将多个应用程序合并到同一物理服务器上,从而可以更有效地使用服务器资源。但是,用户通常通过猜测静态配置虚拟机的资源,导致资源分配不足以阻碍VM性能,或者过多的分配浪费了宝贵的数据中心资源。在本文中,我们首先通过分析广泛的数据集来描述虚拟机的实际资源分配和利用,该数据集包含来自超过3.6k私有企业集群的超过250,000个虚拟机。我们的大规模分析证实,虚拟机经常配置错误,无论是过度配置还是未充分配置,并且这个问题在各种私有集群中普遍存在。然后,我们提出了ADARES,一种使用机器学习技术动态调整VM资源的自适应系统。特别是,ADARES利用上下文绑定框架来有效地管理调整。我们的系统利用集群,节点和虚拟机级别的易收集数据,制定更明智的分配决策,并通过转移学习来安全地探索配置空间并加快培训速度。我们的实证评估表明,ADARES可以在不牺牲性能的情况下显着提高系统利用率。例如,当与阈值和基于预测的基线进行比较时,它可以实现更可预测的VM级性能,并且还可以将实际群集上的合成工作负载分别减少高达35%和60%的虚拟CPU和内存量。
translated by 谷歌翻译