具有可控的生成序列模型具有提取和复制特定示例样式的能力,可以实现许多应用程序,包括在不同声音中叙述有声读物,自动完成和自动校正书面手写,以及为下游识别任务生成缺少的培训示例。但是,在无监督式的设置下,可控序列生成模型的典型训练算法遭受了训练 - 推导不匹配的影响,在训练过程中,相同的样品在训练过程中用作内容和样式输入,但在推断期间给出了未配对的样本。在本文中,我们解决了在无监督的可控生成序列模型中遇到的训练推断不匹配。所提出的方法很简单却有效,我们使用样式转换模块将目标样式信息传输到无关的样式输入中。此方法可以使用未配对的内容和样式样本进行培训,从而减轻训练推荐不匹配。我们将样式均衡应用于三个数据集上的文本对语音和文本写作合成。我们进行彻底的评估,包括定量和定性用户研究。我们的结果表明,通过减轻培训 - 推导与拟议的样式均衡的不匹配,我们在用户研究中实现了与真实数据相当的样式复制分数。
translated by 谷歌翻译
动态离散选择模型被广泛用于回答个人当前选择具有未来影响的设置中的实质性和政策问题。但是,这些模型的估计在高维环境中通常是计算密集型和/或不可行的。实际上,即使指定公用事业/国家过渡如何进入代理商的决定的结构,当我们没有指导理论时,在高维度中都有挑战。在本文中,我们介绍了动态离散选择模型的半参数公式,该模型还包含了一组高维状态变量,此外除了参数实用程序函数中使用的标准变量外。高维变量可以包括所有不是关注的主要变量的变量,但可能会影响人们的选择,并且必须包括在估计过程中,即控制变量。我们提出了一种数据驱动的递归分区算法,该算法通过考虑选择和状态转换的变化来降低高维状态空间的维度。然后,研究人员可以使用他们选择的方法使用第一阶段的离散状态空间来估计问题。我们的方法可以减少估计偏差,并同时使估计可行。我们提供了蒙特卡洛模拟,以证明我们的方法的性能与我们忽略高维解释变量集的标准估计方法相比。
translated by 谷歌翻译
由于少量转录的音频数据,为低资源语言开发自动语音识别(ASR)是一个挑战。对于许多这样的语言,音频和文本可单独使用,但没有带有抄录的音频。使用文本,可以通过文本到语音(TTS)系统综合生产语音。但是,许多低资源语言也没有质量的TTS系统。我们提出了一种替代方案:通过通过训练有素的TTS系统运行来自目标语言的文本来制作综合音频,用于高资源枢轴语言。我们研究了该技术在低资源环境中最有效的何时以及如何有效。在我们的实验中,使用数千种合成TTS文本语音对并复制真实数据来平衡可产生最佳结果。我们的发现表明,搜索一组候选枢轴语言可能会导致边际改进,令人惊讶的是,ASR性能可能会受到测量的TTS质量的提高而受到的伤害。这些发现的应用将ASR分别提高了64.5 \%和45.0 \%的字符误差率(CERR),分别对两种低资源语言:瓜兰\'i和suba。
translated by 谷歌翻译
我们介绍了用于插槽,意图分类和虚拟助手评估的大规模数据集 - 数字亚马逊SLU资源包(SLURP)。大规模包含1M现实,平行,标记为虚拟助手的话语,涵盖51种语言,18个域,60个意图和55个插槽。通过任务专业翻译人员将仅英文slurp数据集定位为29属的50种类型多样性的语言来创建大规模。我们还介绍了XLM-R和MT5上的建模结果,包括精确的匹配精度,意图分类精度和插槽填充F1分数。我们已经公开发布了数据集,建模代码和模型。
translated by 谷歌翻译
自我监督学习(SSL)的承诺是利用大量未标记的数据来解决复杂的任务。尽管简单,图像级学习取得了出色的进步,但最新方法显示出包括图像结构知识的优势。但是,通过引入手工制作的图像分割来定义感兴趣的区域或专门的增强策略,这些方法牺牲了使SSL如此强大的简单性和通用性。取而代之的是,我们提出了一个自我监督的学习范式,该学习范式本身会发现这种图像结构。我们的方法,ODIN,夫妻对象发现和表示网络,以发现有意义的图像分割,而无需任何监督。由此产生的学习范式更简单,更易碎,更一般,并且取得了最先进的转移学习结果,以进行对象检测和实例对可可的细分,以及对Pascal和CityScapes的语义细分,同时超过监督的预先培训,用于戴维斯的视频细分。
translated by 谷歌翻译
General perception systems such as Perceivers can process arbitrary modalities in any combination and are able to handle up to a few hundred thousand inputs. They achieve this generality by using exclusively global attention operations. This however hinders them from scaling up to the inputs sizes required to process raw high-resolution images or video. In this paper, we show that some degree of locality can be introduced back into these models, greatly improving their efficiency while preserving their generality. To scale them further, we introduce a self-supervised approach that enables learning dense low-dimensional positional embeddings for very large signals. We call the resulting model a Hierarchical Perceiver (HiP). In sum our contributions are: 1) scaling Perceiver-type models to raw high-resolution images and audio+video, 2) showing the feasibility of learning 1M+ positional embeddings from scratch using masked auto-encoding, 3) demonstrating competitive performance on raw data from ImageNet, AudioSet, PASCAL VOC, ModelNet40 and Kinetics datasets with the same exact, unchanged model and without specialized preprocessing or any tokenization.
translated by 谷歌翻译
随机重球(SHB)和Nesterov的加速随机梯度(ASG)是随机优化的流行动量方法。尽管对确定性环境中这种加速思想的好处有充分的理解,但它们在随机优化方面的优势仍然尚不清楚。实际上,在某些特定情况下,众所周知,在样本复杂性意义上,动量无济于事。我们的工作表明,类似的结果实际上是整个二次优化的。具体而言,我们为该家族获得了SHB和ASG样品复杂性的下限,并表明Vanilla SGD可以实现相同的结合。我们注意到,存在二次优化中基于动量方法的优势的结果,但这些方法基于单方面或有缺陷的分析。
translated by 谷歌翻译