Speech representation learning has improved both speech understanding and speech synthesis tasks for single language. However, its ability in cross-lingual scenarios has not been explored. In this paper, we extend the pretraining method for cross-lingual multi-speaker speech synthesis tasks, including cross-lingual multi-speaker voice cloning and cross-lingual multi-speaker speech editing. We propose a speech-text joint pretraining framework, where we randomly mask the spectrogram and the phonemes given a speech example and its transcription. By learning to reconstruct the masked parts of the input in different languages, our model shows great improvements over speaker-embedding-based multi-speaker TTS methods. Moreover, our framework is end-to-end for both the training and the inference without any finetuning effort. In cross-lingual multi-speaker voice cloning and cross-lingual multi-speaker speech editing tasks, our experiments show that our model outperforms speaker-embedding-based multi-speaker TTS methods. The code and model are publicly available at PaddleSpeech.
translated by 谷歌翻译
实时音乐伴奏的生成在音乐行业(例如音乐教育和现场表演)中具有广泛的应用。但是,自动实时音乐伴奏的产生仍在研究中,并且经常在逻辑延迟和暴露偏见之间取决于权衡。在本文中,我们提出了Song Driver,这是一种无逻辑延迟或暴露偏见的实时音乐伴奏系统。具体而言,Songdriver将一个伴奏的生成任务分为两个阶段:1)安排阶段,其中变压器模型首先安排了和弦,以实时进行输入旋律,并在下一阶段加速了和弦,而不是播放它们。 2)预测阶段,其中CRF模型基于先前缓存的和弦生成了即将到来的旋律的可播放的多轨伴奏。通过这种两相策略,歌手直接生成即将到来的旋律的伴奏,从而达到了零逻辑延迟。此外,在预测时间步的和弦时,歌手是指第一阶段的缓存和弦,而不是其先前的预测,这避免了暴露偏见问题。由于输入长度通常在实时条件下受到限制,因此另一个潜在的问题是长期顺序信息的丢失。为了弥补这一缺点,我们在当前时间步骤作为全球信息之前从长期音乐作品中提取了四个音乐功能。在实验中,我们在一些开源数据集上训练歌手,以及由中国风格的现代流行音乐得分构建的原始\```````'''aisong数据集。结果表明,歌手在客观和主观指标上均优于现有的SOTA(最先进)模型,同时大大降低了物理潜伏期。
translated by 谷歌翻译
近年来,多视图学习迅速发展。尽管许多先前的研究都认为每个实例都出现在所有视图中,但在现实世界应用程序中很常见,从某些视图中丢失实例,从而导致多视图数据不完整。为了解决这个问题,我们提出了一个新型潜在的异质图网络(LHGN),以实现不完整的多视图学习,该学习旨在以灵活的方式尽可能充分地使用多个不完整的视图。通过学习统一的潜在代表,隐含地实现了不同观点之间一致性和互补性之间的权衡。为了探索样本与潜在表示之间的复杂关系,首次提出了邻域约束和视图约束,以构建异质图。最后,为了避免训练和测试阶段之间的任何不一致之处,基于图形学习的分类任务应用了转导学习技术。对现实世界数据集的广泛实验结果证明了我们模型对现有最新方法的有效性。
translated by 谷歌翻译
多年来,使用单点监督的对象检测受到了越来越多的关注。在本文中,我们将如此巨大的性能差距归因于产生高质量的提案袋的失败,这对于多个实例学习至关重要(MIL)。为了解决这个问题,我们引入了现成建议方法(OTSP)方法的轻量级替代方案,从而创建点对点网络(P2BNET),该网络可以通过在中生成建议袋来构建一个互平衡的提案袋一种锚点。通过充分研究准确的位置信息,P2BNET进一步构建了一个实例级袋,避免了多个物体的混合物。最后,以级联方式进行的粗到精细政策用于改善提案和地面真相(GT)之间的IOU。从这些策略中受益,P2BNET能够生产出高质量的实例级袋以进行对象检测。相对于MS可可数据集中的先前最佳PSOD方法,P2BNET将平均平均精度(AP)提高了50%以上。它还证明了弥合监督和边界盒监督检测器之间的性能差距的巨大潜力。该代码将在github.com/ucas-vg/p2bnet上发布。
translated by 谷歌翻译
自动开放域对话评估是对话系统的关键组成部分。最近,基于学习的评估指标在开放域对话评估中取得了最先进的表现。但是,这些仅关注一些素质的指标很难全面评估对话。此外,这些指标缺乏有效的分数组成方法,无法获得各种评估质量。为了解决上述问题,我们提出了基于相关性重新缩放(MME-CR)的多项式评估,以评估开放域对话。首先,我们建立了一个评估度量,该评估度量由5组平行的子对象组成,称为多金属评估(MME),以全面评估对话的质量。此外,我们提出了一种称为相关重新缩放(CRS)的新型分数组成方法,以模拟子计量与多样性之间的关系。我们的方法MME-CRS在DSTC10 TRACK5 SubTask1自动开放域对话评估挑战的最终测试数据中排名第一,这证明了我们提出的方法的有效性。
translated by 谷歌翻译
学习(IL)是数据挖掘应用中广泛存在的重要问题。典型的IL方法利用直观的类努力重新采样或重新重量直接平衡训练集。然而,特定领域的一些最近的研究努力表明,在没有课堂上操纵的情况下可以实现类别不平衡的学习。这提示我们思考两种不同的IL战略之间的关系和班级不平衡的性质。从根本上说,它们对应于IL中存在的两个必要的不平衡:来自不同类别的示例之间的数量差异以及单个类中的易于和硬示例之间,即阶级和级别的帧内不平衡。现有工程未能明确地考虑不平衡,因此遭受次优绩效。鉴于此,我们呈现了双重平衡的集合,即杜博士,一个多功能的集合学习框架。与普遍方法不同,Dube直接执行级别的级别和级别的平衡,而无需依赖基于距离的距离的计算,这允许它在计算效率时实现竞争性能。我们还提出了关于基于杜博伊的不同间/内部平衡策略的优缺点的详细讨论和分析。广泛的实验验证了所提出的方法的有效性。代码和示例可在https://github.com/iCde20222sub/duplebalance获得。
translated by 谷歌翻译
Imbalanced-leasemble,缩写为IMBens,是一个开源Python工具箱,用于快速实现和部署类别 - 不平衡数据的集合学习算法。它提供对多个最先进的集合不平衡学习(EIL)方法,可视化器和公用事业功能的访问,以处理类别不平衡问题。这些集合方法包括基于重采样的,例如/过度采样,以及重量基于/过度采样,例如,敏感的学习。除了实现之外,我们还扩展了传统的二进制EIL算法,与多级支持和重采样调度程序等新功能,从而使它们能够处理更复杂的任务。该软件包是在简单的,良好的API设计中开发的,遵循Scikit-Gearn的易于使用。 IMBens在MIT开源许可证下发布,可以从Python包索引(PYPI)安装。 https://github.com/zhiningliu1998/imbalanced-ensemble可以使用源代码,二进制文件,详细文档和使用示例。
translated by 谷歌翻译
最近,基于模板的跟踪器已成为领先的跟踪算法,在效率和准确性方面具有希望的性能。然而,查询特征与给定模板之间的相关操作仅利用准确的目标本地化,导致状态估计误差,特别是当目标遭受严重可变形变化时。为了解决这个问题,已经提出了基于分段的跟踪器,以便使用每像素匹配来有效地提高可变形物体的跟踪性能。然而,大多数现有跟踪器仅指初始帧中的目标特征,从而缺乏处理具有挑战性因素的辨别能力,例如,类似的分心,背景杂乱,外观变化等。在此目的,我们提出了一种动态的紧凑型存储器嵌入以增强基于分段的可变形视觉跟踪方法的辨别。具体而言,我们初始化与第一帧中的目标功能嵌入的内存嵌入。在跟踪过程中,与现有内存具有高相关的当前目标特征被更新为在线嵌入的内存。为了进一步提高可变形对象的分割精度,我们采用了点对集的匹配策略来测量像素 - 方向查询特征和整个模板之间的相关性,以捕获更详细的变形信息。关于六个具有挑战性的跟踪基准的广泛评估,包括VOT2016,VOT2018,VOT2019,GOT-10K,TrackingNet和莱斯特展示了我们对近期近似追踪者的方法的优势。此外,我们的方法优于基于出色的基于分段的跟踪器,即DVIS2017基准测试。
translated by 谷歌翻译
来自大型偏见数据集的微生物基因组的重建是寻找未露出的微生物群体并定义其微生物功能作用的关键程序。为实现这一目标,我们需要进行Metagenomic Binning,将组装的Contig聚类为草拟基因组。尽管存在现有的计算工具,但大多数人都忽略了偏见​​数据的一个重要属性,即噪音。为了进一步改善Metagenomic分衬步骤并重建更好的偏心组,我们向Metagenome Binning(CLMB)提出了深度对比的学习框架,这可以有效地消除噪声的干扰并产生更稳定和稳健的结果。基本上,而不是明确地去噪,我们将模拟噪声添加到训练数据,并强制深度学习模型,为无噪声数据和扭曲的数据产生类似和稳定的表示。因此,训练有素的模型将对噪声稳健,并且在使用期间隐含地处理它。 CLMB显着优于先前的最先进的分衬方法,从而恢复几乎所有基准数据集(最多17 \%重建的基因组)与第二最佳方法相比的最多近乎完整的基因组)。它还提高了箱细化的性能,重建了8-22的高质量基因组和15-32个中等质量的基因组,而不是第二次最佳结果。在令人印象深刻地,除了与分子炼油厂兼容,单个CLMB甚至比基准数据集上的VAMB和MAXBIN的炼油厂均匀恢复平均15更多的HQ基因组。 CLMB是开源,可在https://github.com/zpf0117b/clmb/上获得。
translated by 谷歌翻译
提高样本效率是加固学习的长期目标。本文提出了$ \ mathtt {vrmpo} $算法:具有随机镜血液的样本高效策略梯度方法。在$ \ mathtt {vrmpo} $中,提出了一种新的差异减少的政策梯度估计,以提高样本效率。我们证明了所提出的$ \ mathtt {vrmpo} $只需要$ \ mathcal {o}(\ epsilon ^ {-3})$ at \ epsilon $ att \ epsilon $-uppryoge一阶静止点,符合策略优化的最佳样本复杂性。广泛的实验结果表明,$ \ mathtt {vrmpo} $胜过各种设置中最先进的政策梯度方法。
translated by 谷歌翻译