贝叶斯优化有效地优化了黑盒问题中的参数。但是,在有限的试验中,该方法对于高维参数不起作用。可以通过非线性将其嵌入低维空间来有效地探索参数。但是,不能考虑约束。我们提出了将参数分解组合到非线性嵌入中,以考虑在高维贝叶斯优化中考虑已知的平等和未知不平等约束。我们将提出的方法应用于粉末称重任务,作为使用情况。根据实验结果,与手动参数调整相比,提出的方法考虑了约束,并将试验数量减少约66%。
translated by 谷歌翻译
We construct a corpus of Japanese a cappella vocal ensembles (jaCappella corpus) for vocal ensemble separation and synthesis. It consists of 35 copyright-cleared vocal ensemble songs and their audio recordings of individual voice parts. These songs were arranged from out-of-copyright Japanese children's songs and have six voice parts (lead vocal, soprano, alto, tenor, bass, and vocal percussion). They are divided into seven subsets, each of which features typical characteristics of a music genre such as jazz and enka. The variety in genre and voice part match vocal ensembles recently widespread in social media services such as YouTube, although the main targets of conventional vocal ensemble datasets are choral singing made up of soprano, alto, tenor, and bass. Experimental evaluation demonstrates that our corpus is a challenging resource for vocal ensemble separation. Our corpus is available on our project page (https://tomohikonakamura.github.io/jaCappella_corpus/).
translated by 谷歌翻译
时间序列数据通常仅在观察过程中的中断时仅在有限的时间范围内获得。为了对这样的部分时间序列进行分类,我们需要考虑1)从2)不同时间戳绘制的可变长度数据。为了解决第一个问题,现有的卷积神经网络在卷积层之后使用全球池取消长度差异。这种体系结构遭受了将整个时间相关性纳入长数据和避免用于简短数据的功能崩溃之间的权衡。为了解决这种权衡,我们提出了自适应多尺度合并,该池从自适应数量的层中汇总了功能,即仅用于简短数据的前几层和更多的长数据层。此外,为了解决第二个问题,我们引入了时间编码,将观察时间戳嵌入中间特征中。我们的私有数据集和UCR/UEA时间序列档案中的实验表明,我们的模块提高了分类精度,尤其是在部分时间序列获得的短数据上。
translated by 谷歌翻译
最近的文本到语音(TTS)的质量与人类的质量相当。但是,其在口语对话中的应用尚未得到广泛研究。这项研究旨在实现与人类对话非常相似的TT。首先,我们记录并抄录实际自发对话。然后,提出的对话TTS分为两个阶段:第一阶段,各种自动编码器(VAE) - VITS或高斯混合物变化自动编码器(GMVAE) - 培训了训练,从端到端文本对语音(VIT),最近提出的端到端TTS模型。从语音中提取潜在的口语表示的样式编码器与TTS共同培训。在第二阶段,对风格预测指标进行了训练,以预测从对话历史中综合的说话风格。在推断期间,通过将样式预测器预测的语言样式表示为VAE/gmvae-vits,可以以适合对话背景的样式合成语音。主观评估结果表明,所提出的方法在对话级别的自然性方面优于原始VIT。
translated by 谷歌翻译
在这项研究中,我们使用一个自我解释的神经网络(SENN),该神经网络学习了无监督的概念,以获取人们易于自动理解的概念。在概念学习中,隐藏的层保留了与输出相关的可口理功能,这在适应需要解释的现实环境时至关重要。但是,众所周知,在一般环境中,诸如自主驾驶场景等一般环境中,Senn输出的概念的解释性降低。因此,这项研究将对比度学习与概念学习结合在一起,以提高概念的可读性和任务的准确性。我们称此模型对比度自我解释神经网络(C-SENN)。
translated by 谷歌翻译
提供有关学习者论证的反馈对于发展批判性思维技能至关重要,但是,它需要大量的时间和精力。为了减轻教师的过载,我们旨在自动化提供反馈的过程,尤其是给出诊断评论,以指出论点固有的弱点。建议给出特定的诊断评论,以便学习者可以识别诊断而不会误解。但是,如何制定提供特定的诊断评论的任务并不明显。我们将任务的表述作为模板选择和插槽填充,以使自动评估变得更加容易,并且模型的行为更加可行。该公式的关键是创建足以实用的模板集的可能性。在本文中,我们定义了三个标准,即模板集应满足:表达性,信息性和唯一性,并验证创建一个满足这些标准作为第一个试验的模板集的可行性。我们将通过一项注释研究证明,将文本中给出的诊断评论转换为模板格式是可行的。注释研究中使用的语料库公开可用。
translated by 谷歌翻译
在自然灾害期间迫切需要的疏散避难所旨在尽量减少对人类幸存者的疏散负担。然而,灾难的规模越大,操作避难所的成本越高。当疏散物的数量减少时,通过将剩余的疏散物移动到其他避难所和尽可能快地关闭挡板来减小操作成本。另一方面,庇护所之间的搬迁对疏散者造成了巨大的情感负担。在这项研究中,我们制定了“疏散避难所调度问题”,它以避难所分配避难所,以尽量减少避难所的运动成本和避难所的运营成本。由于很难直接解决这一二次编程问题,因此我们将其转换为0-1整数编程问题。此外,这种配方努力计算从历史数据中重新安置它们的负担,因为实际没有付款。为了解决这个问题,我们提出了一种方法,该方法根据实际灾难期间基于撤离者和庇护所的数量估算运动成本。仿真实验与神户地震(Great Hanshin-Awaji地震)的记录表明,我们的建议方法将运营成本减少3370万美元:32%。
translated by 谷歌翻译
神经声码器(NVS)的发展导致了高质量和快速的波形。但是,常规的NV靶向单个采样率,并在应用于不同采样率时需要重新训练。由于语音质量和发电速度之间的权衡,合适的采样率因应用到应用而异。在这项研究中,我们提出了一种处理单个NV中多个采样率的方法,称为MSR-NV。通过从低采样率开始生成波形,MSR-NV可以有效地了解每个频段的特征,并以多个采样率合成高质量的语音。它可以被视为先前提出的NVS的扩展,在这项研究中,我们扩展了平行波甘(PWG)的结构。实验评估结果表明,所提出的方法比在16、24和48 kHz分别训练的原始PWG实现的主观质量明显更高,而没有增加推理时间。我们还表明,MSR-NV可以利用较低的采样率来利用语音来进一步提高合成语音的质量。
translated by 谷歌翻译
本文提出了一种具有多粒度潜变量的分层生成模型,以综合表达语音。近年来,将细粒度的潜在变量引入了文本到语音合成中,使得韵律和讲话方式的精细控制能够进行综合演讲。然而,当通过从标准高斯先前抽样获得这些潜变量时,言语的自然度降低。为了解决这个问题,我们提出了一种用于建模细粒度潜在变量的新框架,考虑到输入文本,分层语言结构和潜在变量的时间结构的依赖性。该框架包括多粒子变形AutoEncoder,条件先前和多级自回归潜伏转换器,以获得不同的时间分辨率潜变量,并通过拍摄来对较粗级别的潜入变量进行样本考虑到输入文本。实验结果表明,在合成阶段在没有参考信号的情况下采样细粒潜变量的适当方法。我们拟议的框架还提供了整个话语中说话风格的可控性。
translated by 谷歌翻译
近术量子器件在机器学习(ML)中的应用引起了很多关注。在一个这样的尝试中,mitarai等。(2018)提出了一个框架,用于使用量子电路进行监督ML任务,称为量子电路学习(QCL)。由于使用量子电路,QCL可以采用指数上高维的希尔伯特空间作为其特征空间。然而,与古典算法相比的效率仍未探索。在本研究中,使用称为计数草图的统计技术,我们提出了一种使用相同的Hilbert空间的典型ML算法。在数值模拟中,我们所提出的算法对QCL表示类似的QCL,对于几毫安任务。这提供了一种新的视角,其要考虑量子M1算法的计算和内存效率。
translated by 谷歌翻译