在语言识别任务的许多场景中,用户将指定他/她可以说的少量语言而不是大量所有可能的语言。我们希望将这种先验知识建模到我们训练神经网络的方式中,通过用名为tuplemax loss的新型损失函数替换常用的softmax损失函数。事实上,在北美推出的典型语言识别系统大约有95%的用户可以说不超过两种语言。使用tuplemax损失,我们的系统误差率为2.33%,相对于标准softmax损失方法的3.85%误差率,相对改善了39.4%。
translated by 谷歌翻译
我们描述了一种基于神经网络的文本到语音(TTS)合成系统,它能够以许多不同发言者的声音产生语音,包括训练期间看不到的那些。我们的系统由三个独立训练的组件组成:(1)扬声器编码器网络,使用来自数千个没有抄本的扬声器的嘈杂语音的独立数据集训练aspeaker验证任务,从目标发言者的参考语音的秒数生成固定维度的嵌入向量; (2)基于Tacotron 2的序列到序列合成网络,它以语音嵌入为条件,从文本生成amel谱图; (3)基于自回归WaveNet的声码器,将mel频谱图转换为时域波形样本的序列。我们证明了所提出的模型能够将受到训练的扬声器编码器学习的说话者变异性的知识传递给新任务,并且能够合成来自训练期间未见的说话者的自然语音。为了获得最佳的泛化性能,我们重点介绍了在大型多变量集合器上训练扬声器编码器的重要性。最后,weshow随机采样的扬声器嵌入可用于在新颖扬声器的声音中合成语音,与训练中使用的语音不同,表明该模型已经学习了高质量的说话人表示。
translated by 谷歌翻译
For many years, i-vector based audio embedding techniques were the dominant approach for speaker verification and speaker diarization applications. However, mirroring the rise of deep learning in various domains, neural network based audio embeddings, also known as d-vectors, have consistently demonstrated superior speaker verification performance. In this paper, we build on the success of d-vector based speaker verification systems to develop a new d-vector based approach to speaker diarization. Specifically, we combine LSTM-based d-vector audio embeddings with recent work in non-parametric clustering to obtain a state-of-the-art speaker diarization system. Our system is evaluated on three standard public datasets, suggesting that d-vector based diarization systems offer significant advantages over traditional i-vector based systems. We achieved a 12.0% diarization error rate on NIST SRE 2000 CALLHOME, while our model is trained with out-of-domain data from voice search logs.
translated by 谷歌翻译
在这项工作中,我们解决了在困难的成像条件下找到可靠的像素级对应的问题。我们提出了一种方法,其中单个卷积神经网络起双重作用:它同时是一个密集的特征描述符和一个特征检测器。通过将检测推迟到后期阶段,基于早期检测低水平结构,获得的关键点比传统的关键点更稳定。我们表明,可以使用从现成的大规模SfM重建中提取的像素对应来训练该模型,而无需任何进一步的注释。所提出的方法在困难的亚琛日夜定位数据集和InLocindoor定位基准测试中获得最先进的性能,以及用于图像匹配和3D重建的其他基准标记的竞争性能。
translated by 谷歌翻译
与DSLR相机相比,智能手机相机具有更小的传感器,这限制了它们的空间分辨率;较小的孔径,限制了它们的光收集能力;和更小的像素,这降低了它们的信噪比。使用滤色器阵列(CFA)需要去马赛克,这进一步降低了分辨率。在本文中,我们使用多帧超分辨率算法取代传统的去帧在单帧和连拍摄影管道中的应用,该算法直接从CFA原始图像的突发中创建完整的RGB图像。我们利用手持式摄影中典型的自然手震,获得一小段偏移的原始帧。然后对齐并合并这些帧以在每个像素位置处形成具有红色,绿色和蓝色值的单个图像。这种方法不包括显式去掩蔽步骤,用于增加图像分辨率和提高信号噪声比。我们的算法对于具有挑战性的场景条件具有鲁棒性:局部运动,遮挡或场景变化。它在大规模生产的手机上以每12百万像素RAW输入突发帧100毫秒运行。具体来说,该算法是Super-Res Zoom功能的基础,以及Night Sight模式中的默认合并方法(无论是否缩放) onGoogle的旗舰手机。
translated by 谷歌翻译
转录组的空间研究为生物学家提供了异质和复杂组织的基因表达图谱。然而,大多数实验方案的空间转录组学需要事先选择在整个转录组中量化的小部分基因。标准单细胞RNA测序(scRNA-seq)更普遍,更容易实现并且原则上可以捕获任何基因但不能恢复细胞的空间位置。在本手稿中,我们专注于基于来自相同生物组织的(未配对的)标准cDNA-seq数据在空间转录组数据中插入基因的插补问题。基于领域适应性工作,我们提出了gimVI,一种深度生成模型,用于整合空间转录数据和scRNA-seq数据,可用于估算遗传基因。在描述了我们的生成模型及其推理过程之后,我们将gimVI与来自计算生物学或现实数据集上的域适应的替代方法进行比较,并且优于Seurat Anchors,Liger和CORAL来实现保持基因。
translated by 谷歌翻译
组合性是解决组合复杂性和维度诅咒的关键策略。最近的工作表明,可以学习组合解决方案,并在各种领域提供实质性收益,包括多任务学习,语言建模,视觉问答,机器理解等。然而,当必须共同学习模块参数及其组成时,这些模型在训练期间呈现出独特的挑战。在本文中,我们确定了其中的几个问题并分析了它们的根本原因。我们的讨论侧重于网络,这个问题的一般方法,并根据经验检验这些挑战和各种设计决策的相互作用。特别地,我们考虑算法如何决定模块化,算法如何更新模块以及算法是否使用规则化的效果。
translated by 谷歌翻译
来自近红外图像的大多数性别分类方法都使用了虹膜信息。最近的工作已经探索了整个眼周虹膜的使用,这令人惊讶地取得了更好的效果。这表明性别分类中最相关的信息并不位于虹膜中。在这项工作中,我们分析和演示了在眼周NIR图像中描述性别的最相关特征的位置,并评估影响其分类。实验表明,眼周区域比虹膜区域包含更多的性别信息。我们提取了几个特征(强度,纹理和形状),并使用XgBoost算法根据其相关性对它们进行分类。当使用最相关的特征时,支持向量机和九个集合分类器用于测试性别准确性。当使用位于眼周区域的4,000个特征时,获得最佳分类结果(89.22%)。进行了关于完整的眼周虹膜图像与虹膜闭塞图像的附加实验。获得的性别分类率分别为84.35%和85.75%。我们还通过新的数据库(UNAB-Gender)为最新技术做出贡献。从结果来看,我们建议只关注虹膜的周围区域。这使我们能够从NIR眼周图像中实现更快的性别分类。
translated by 谷歌翻译
图像质量在基于CNN的图像分类性能中起着重要作用。使用扭曲的样本对网络进行精细调整对于大型网络来说可能成本太高。为了解决这个问题,我们提出了一种优化的转移学习方法,以便考虑到在CNN的每一层中,一些滤波器比其他滤波器更容易受到图像失真的影响。我们的方法识别最易受影响的过滤器,并仅对过滤器应用重新训练,这些过滤器显示干净图像和失真图像之间的最高激活图距离。使用Borda计数选择方法对过滤器进行排序,然后仅微调受影响的过滤器。这显着减少了重新训练的参数数量。我们在CIFAR-10和CIFAR-100数据集上评估这种方法,在两种不同的模型和两种不同类型的失真上进行测试。结果表明,由于减少了微调参数的数量,所提出的传递学习技术由于输入数据失真而以相当于现有方法的相当快的速度恢复了大部分丢失的性能。当为训练提供很少的噪声样本时,我们的滤波器级微调表现特别好,也优于现有技术的层级传输学习方法。
translated by 谷歌翻译
光学相干断层扫描(OCT)已成为眼科学中最重要的成像模式。最近,大量研究被用于开发机器学习(ML)模型,用于OCT图像中病理特征的识别和量化。在ML模型必须处理的几个可变性来源中,主要因素是采集设备,其可以限制ML模型的可归一化性。在本文中,我们建议通过使用不受监督的非配对图像变换算法CycleGAN来降低不同OCT设备(Spectralis和Cirrus)的图像变化。在视网膜液分割的设置中评估该方法的有用性,即视网膜下囊液(IRC)和视网膜下液(SRF)。首先,我们在使用源OCT设备获取的图像上训练分段模型。然后我们在(1)源,(2)目标和(3)目标OCT图像的变换版本上评估模型。所提出的转换策略显示IRC(SRF)分割的F1得分为0.4(0.51)。与传统的转换方法相比,这意味着F1得分为0.2(0.12)。
translated by 谷歌翻译