从视觉感觉数据中控制人造代理是一项艰巨的任务。强化学习(RL)算法可以在这方面取得成功,但需要代理与环境之间进行大量相互作用。为了减轻该问题,无监督的RL建议采用自我监督的互动和学习,以更快地适应未来的任务。但是,目前的无监督策略是否可以改善概括能力,尤其是在视觉控制设置中。在这项工作中,我们为数据有效的视觉控制设计了有效的无监督RL策略。首先,我们表明,使用无监督的RL收集的数据预先训练的世界模型可以促进适应未来的任务。然后,我们与我们的混合计划者分析了一些设计选择,以有效地适应了代理的预训练组件,并在想象中学习和计划,并与我们的混合计划者一起使用,我们将其dub dyna-mpc进行了。通过结合一项大规模实证研究的发现,我们建立了一种方法,该方法强烈改善了无监督的RL基准测试的性能,需要20美元$ \ times $ $ $ $ $ \少于数据以符合监督方法的性能。该方法还表明了在现实词的RL基准测试上的稳健性能,暗示该方法概括为嘈杂的环境。
translated by 谷歌翻译
扩散模型是图像产生和似然估计的最新方法。在这项工作中,我们将连续的时间扩散模型推广到任意的Riemannian流形,并得出了可能性估计的变异框架。在计算上,我们提出了计算可能性估计中需要的黎曼分歧的新方法。此外,在概括欧几里得案例时,我们证明,最大化该变异的下限等效于Riemannian得分匹配。从经验上讲,我们证明了Riemannian扩散模型在各种光滑的歧管上的表达能力,例如球体,Tori,双曲线和正交组。我们提出的方法在所有基准测试基准上实现了新的最先进的可能性。
translated by 谷歌翻译
本文介绍了R-Melnet,这是一个由两部分自回归体系结构,具有基于Melnet的第一层的前端,以及用于神经文本到语音综合的后端Wavernn风格的音频解码器。作为输入的字符和音素混合序列,具有可选的音频启动序列,该模型会产生低分辨率的MEL-光谱特征,这些特征被插值并由Wavernn解码器用于产生音频波形。再加上一半的精度训练,R-烯网将在单个商品GPU(NVIDIA 2080TI)上使用11 GPU的GPU存储器。我们详细介绍了稳定的半精度训练的许多关键实施细节,包括物流注意力的大约,数值稳定的混合物。使用随机的每个样本推理方案多样本样本,结果模型会生成高度变化的音频,同时启用基于文本和音频的控件来修改输出波形。对单个扬声器TTS数据集进行培训的R循环系统的定性和定量评估证明了我们方法的有效性。
translated by 谷歌翻译
在对抗性鲁棒性的背景下,单个模型通常没有足够的力量来防御所有可能的对抗攻击,因此具有亚最佳的鲁棒性。因此,新兴的工作重点是学习神经网络的合奏,以防止对抗性攻击。在这项工作中,我们采取了一种有原则的方法来建立强大的合奏。我们从增强保证金的角度观察了这个问题,并开发了一种学习最大利润的合奏的算法。通过在基准数据集上进行广泛的经验评估,我们表明我们的算法不仅超过了现有的结合技术,而且还以端到端方式训练的大型模型。我们工作的一个重要副产品是边缘最大化的跨肠损失(MCE)损失,这是标准跨侧面(CE)损失的更好替代方法。从经验上讲,我们表明,用MCE损失取代最先进的对抗训练技术中的CE损失会导致显着提高性能。
translated by 谷歌翻译
我们提出了基于能量的生成流网络(EB-GFN),这是一种用于高维离散数据的新型概率建模算法。基于生成流网络(GFLOWNETS)的理论,我们通过随机数据构建政策对生成过程进行建模,从而将昂贵的MCMC探索摊销为从Gflownet采样的固定动作中。我们展示了Gflownets如何在模式之间进行大致进行大型Gibbs采样以混合。我们提出了一个框架,以共同训练具有能量功能的Gflownet,以便Gflownet学会从能量分布中进行采样,而能量则以近似MLE目标学习,并从GFLOWNET中使用负样本。我们证明了EB-GFN对各种概率建模任务的有效性。代码可在https://github.com/zdhnarsil/eb_gfn上公开获取。
translated by 谷歌翻译
我们利用基于神经网络的标准模型喷气分类任务中的表示和电感偏差来检测非QCD信号喷气机。在建立喷气物理学基于分类的异常检测框架时,我们证明,使用\ emph {良好校准}和\ emph {功能强大的功能提取器},这是一种训练有素的\ emph {mass-dectectated}监督的标准模型神经喷射分类器可以用作有效降低QCD背景的强通抗QCD喷气机。施加\ emph {data-aigmented}质量不变(解耦主因子)不仅促进了背景估计,而且还诱导更多的下结构意识到的表示学习。我们能够达到所有考虑的测试信号的出色标记效率。在最好的情况下,我们达到51的背景排斥率,在50 \%信号接受度下,显着性提高因子为3.6,而射流质量脱离相关。这项研究表明,监督的标准模型喷气分类器在一般的新物理搜索中具有巨大的潜力。
translated by 谷歌翻译
音乐表达需要控制播放的笔记,以及如何执行它们。传统的音频合成器提供了详细的表达控制,但以现实主义的成本提供了详细的表达控制。黑匣子神经音频合成和连接采样器可以产生现实的音频,但有很少的控制机制。在这项工作中,我们介绍MIDI-DDSP乐器的分层模型,可以实现现实的神经音频合成和详细的用户控制。从可解释的可分辨率数字信号处理(DDSP)合成参数开始,我们推断出富有表现力性能的音符和高级属性(例如Timbre,Vibrato,Dynamics和Asticiculation)。这将创建3级层次结构(注释,性能,合成),提供个人选择在每个级别进行干预,或利用培训的前沿(表现给出备注,综合赋予绩效)进行创造性的帮助。通过定量实验和聆听测试,我们证明了该层次结构可以重建高保真音频,准确地预测音符序列的性能属性,独立地操纵给定性能的属性,以及作为完整的系统,从新颖的音符生成现实音频顺序。通过利用可解释的层次结构,具有多个粒度的粒度,MIDI-DDSP将门打开辅助工具的门,以赋予各种音乐体验的个人。
translated by 谷歌翻译
尽管经过过度公路化,但通过监督学习培训的深网络易于优化,表现出优异的概括。解释这一点的一个假设是,过正交的深网络享有随机梯度下降引起的隐含正规化的好处,这些梯度下降引起的促进解决方案概括了良好的测试输入。推动深度加强学习(RL)方法也可能受益于这种效果是合理的。在本文中,我们讨论了监督学习中SGD的隐式正则化效果如何在离线深度RL设置中有害,导致普遍性较差和退化特征表示。我们的理论分析表明,当存在对时间差异学习的现有模型的隐式正则化模型时,由此产生的衍生规则器有利于与监督学习案件的显着对比的过度“混叠”的退化解决方案。我们凭经验备份这些发现,显示通过引导训练的深网络值函数学习的特征表示确实可以变得堕落,别名出在Bellman备份的两侧出现的状态操作对的表示。要解决此问题,我们派生了这个隐式规范器的形式,并通过此推导的启发,提出了一种简单且有效的显式规范器,称为DR3,抵消了本隐式规范器的不良影响。当与现有的离线RL方法结合使用时,DR3大大提高了性能和稳定性,缓解了ATARI 2600游戏,D4RL域和来自图像的机器人操作。
translated by 谷歌翻译
从大型预训练模型转移学习对于许多计算机视觉任务来说都是至关重要的。最近的研究表明,由于存在存在的多个对象类的图像被分配单个标签,所以类似于想象成的数据集弱标记。这种模糊的偏置模型朝向单一预测,这可能导致抑制数据中倾向于共同发生的类。灵感来自语言出现文学,我们提出了多标签迭代学习(英里)来利用迭代学习框架从单个标签中融入多标签学习的归纳偏见。英里是一种简单而有效的过程,通过通过与学习瓶颈的连续几代教师和学生网络传播二进制预测来构建图像的多标签描述。实验表明,我们的方法对Imagenet的准确性以及真正的F1分数表现出系统的益处,这表明英里与标签歧义更好地优于标准训练程序,即使在自我监督权重的微调时也会比标准训练程序更好。我们还表明英里有效地减少标签噪音,实现了最先进的性能,如WebVision等现实大规模嘈杂的数据。此外,英里提高了类增量设置中的性能,例如IIRC,它是强大的分发班次。代码:https://github.com/rajeswar18/mile.
translated by 谷歌翻译
通过比较它们在大型任务套件上的相对性能来主要评估深度加强学习(RL)算法。大多数已发布的Deep RL基准的结果比较了总体性能的积分估计,如任务的平均值和中位数分数,忽略了使用有限次训练运行所暗示的统计不确定性。从街机学习环境(ALE)开始,转向计算苛刻的基准导致只评估每项任务的少量运行的实践,加剧了点估计中的统计不确定性。在本文中,我们认为,在少数运行深处的RL政权中的可靠评估不能忽视结果中的不确定性,而无需冒着现场降低进展的风险。我们使用对Atari 100k基准测试的案例研究来说明这一点,在那里我们在单独从点估计中汲取的结论之间发现了大量差异与更全面的统计分析。旨在提高现场对报告的据报道的诸如少数经营的业绩的信心,我们倡导报告总绩效的间隔估计,并提出性能概况来解释结果的可变性,以及现在更强大和高效的总数的绩效作为狭隘的平均分数,在结果中取得小的不确定性。使用此类统计工具,我们在包括ALE,Procgen和DeepMind控制套件的其他广泛使用的RL基准测试中仔细审查了现有算法的性能评估,再次在先前的比较中显示差异。我们的调查结果呼吁改变我们如何评估深度RL的性能,我们提出了更严格的评估方法,伴随着开源库的最新,以防止不可靠的结果停滞不前。
translated by 谷歌翻译