This work proposes a universal and adaptive second-order method for minimizing second-order smooth, convex functions. Our algorithm achieves $O(\sigma / \sqrt{T})$ convergence when the oracle feedback is stochastic with variance $\sigma^2$, and improves its convergence to $O( 1 / T^3)$ with deterministic oracles, where $T$ is the number of iterations. Our method also interpolates these rates without knowing the nature of the oracle apriori, which is enabled by a parameter-free adaptive step-size that is oblivious to the knowledge of smoothness modulus, variance bounds and the diameter of the constrained set. To our knowledge, this is the first universal algorithm with such global guarantees within the second-order optimization literature.
translated by 谷歌翻译
这项工作引入了离题,这是一种用于生成具有分类节点和边缘属性图的图形的离散denoising扩散模型。我们的模型定义了一个扩散过程,该过程逐步编辑了具有噪声(添加或删除边缘,更改类别)的图形以及学会恢复此过程的图形变压器网络。有了这两种成分,我们将分布学习将上的分布学习减少到一个简单的分类任务序列。我们通过提出一个新的马尔可夫噪声模型来进一步提高样品质量,该模型在扩散过程中保留节点和边缘类型的边际分布,并通过在每个扩散步骤中添加从嘈杂图中得出的辅助图理论特征。最后,我们提出了一个指导程序,以根据图形级特征调理生成。总体而言,离题可以在分子和非分子数据集上达到最新性能,在平面图数据集上,有效性提高了3倍。特别是,这是第一个模型,将鳞片缩放到包含130万个药物样分子的大型鳄梨调子数据集,而无需使用分子特异性表示,例如微笑或片段。
translated by 谷歌翻译
强化学习(RL)旨在在给定环境中从奖励功能中训练代理商,但逆增强学习(IRL)试图从观察专家的行为中恢复奖励功能。众所周知,总的来说,各种奖励功能会导致相同的最佳政策,因此,IRL定义不明。但是,(Cao等,2021)表明,如果我们观察到两个或多个具有不同折现因子或在不同环境中起作用的专家,则可以在某些条件下确定奖励功能,直至常数。这项工作首先根据等级条件显示了表格MDP的多位专家的等效可识别性声明,该声明易于验证,也被证明是必要的。然后,我们将结果扩展到各种不同的方案,即,在奖励函数可以表示为给定特征的线性组合,使其更容易解释,或者当我们可以访问近似过渡矩阵时,我们会表征奖励可识别性。即使奖励无法识别,我们也提供了特征的条件,当给定环境中的多个专家的数据允许在新环境中概括和训练最佳代理。在各种数值实验中,我们对奖励可识别性和概括性的理论结果得到了验证。
translated by 谷歌翻译
这项工作开发了具有严格效率的新算法,可确保无限的地平线模仿学习(IL)具有线性函数近似而无需限制性相干假设。我们从问题的最小值开始,然后概述如何从优化中利用经典工具,尤其是近端点方法(PPM)和双平滑性,分别用于在线和离线IL。多亏了PPM,我们避免了在以前的文献中出现在线IL的嵌套政策评估和成本更新。特别是,我们通过优化单个凸的优化和在成本和Q函数上的平稳目标来消除常规交替更新。当不确定地解决时,我们将优化错误与恢复策略的次级优势联系起来。作为额外的奖励,通过将PPM重新解释为双重平滑以专家政策为中心,我们还获得了一个离线IL IL算法,该算法在所需的专家轨迹方面享有理论保证。最后,我们实现了线性和神经网络功能近似的令人信服的经验性能。
translated by 谷歌翻译
神经切线内核(NTK)是分析神经网络及其泛化界限的训练动力学的强大工具。关于NTK的研究已致力于典型的神经网络体系结构,但对于Hadamard产品(NNS-HP)的神经网络不完整,例如StyleGAN和多项式神经网络。在这项工作中,我们为特殊类别的NNS-HP(即多项式神经网络)得出了有限宽度的NTK公式。我们证明了它们与关联的NTK与内核回归预测变量的等效性,该预测扩大了NTK的应用范围。根据我们的结果,我们阐明了针对外推和光谱偏置,PNN在标准神经网络上的分离。我们的两个关键见解是,与标准神经网络相比,PNN能够在外推方案中拟合更复杂的功能,并承认相应NTK的特征值衰减较慢。此外,我们的理论结果可以扩展到其他类型的NNS-HP,从而扩大了我们工作的范围。我们的经验结果验证了更广泛的NNS-HP类别的分离,这为对神经体系结构有了更深入的理解提供了良好的理由。
translated by 谷歌翻译
本文提供了一项理论研究,该研究对在线环境下的$ \ epsilon $ - 梅迪探索中的增强学习(RL)中的深神经功能近似(RL)提供了研究。这种问题设置是由属于该制度的成功深Q-Networks(DQN)框架所激发的。在这项工作中,我们从函数类别和神经网络体系结构(例如,宽度和深度)的角度从“线性”制度之外的函数类别和神经网络体系结构(例如宽度和深度)提供了对理论理解的初步尝试。具体来说,我们将重点放在基于价值的算法上,分别通过BESOV(和Barron)功能空间赋予的深层(和两层)神经网络,以$ \ epsilon $ greedy探索,旨在近似于$ \ alpha $ -Smooth Q功能在$ d $二维功能空间中。我们证明,使用$ t $情节,缩放宽度$ m = \ widetilde {\ mathcal {o}}}(t^{\ frac {d} {2 \ alpha + d}})$和depth $ l = \ Mathcal {O}(\ log t)for Deep RL的神经网络的$足以在Besov空间中以sublinear的遗憾学习。此外,对于由Barron空间赋予的两层神经网络,缩放宽度$ \ omega(\ sqrt {t})$就足够了。为了实现这一目标,我们分析中的关键问题是如何估计深神经功能近似下的时间差异误差,因为$ \ epsilon $ - 否则探索不足以确保“乐观”。我们的分析重新制定了$ l^2(\ mathrm {d} \ mu)$ - 在某个平均度量$ \ mu $上的可集成空间,并将其转换为非IID设置下的概括问题。这可能对RL理论具有自身的兴趣,以便更好地理解Deep RL中的$ \ Epsilon $ -Greedy Exploration。
translated by 谷歌翻译
我们研究(选定的)宽,狭窄,深而浅,较浅,懒惰和非懒惰的训练环境中(选定的)深度神经网络中的平均鲁棒性概念。我们证明,在参数不足的环境中,宽度具有负面影响,而在过度参数化的环境中提高了鲁棒性。深度的影响紧密取决于初始化和训练模式。特别是,当用LeCun初始化初始化时,深度有助于通过懒惰训练制度进行稳健性。相反,当用神经切线核(NTK)初始化并进行初始化时,深度会损害稳健性。此外,在非懒惰培训制度下,我们演示了两层relu网络的宽度如何使鲁棒性受益。我们的理论发展改善了Huang等人的结果。[2021],Wu等。[2021]与Bubeck and Sellke [2021],Bubeck等人一致。[2021]。
translated by 谷歌翻译
神经体系结构搜索(NAS)促进了神经体系结构的自动发现,从而实现了图像识别的最新精度。尽管NAS取得了进展,但到目前为止,NAS对理论保证几乎没有关注。在这项工作中,我们研究了NAS在统一框架下的概括属性,从而实现(深)层跳过连接搜索和激活功能搜索。为此,我们从搜索空间(包括混合的激活功能,完全连接和残留的神经网络)的(包括)有限宽度方向上得出了神经切线核的最小特征值的下(和上)边界。由于在统一框架下的各种体系结构和激活功能的耦合,我们的分析是不平凡的。然后,我们利用特征值边界在随机梯度下降训练中建立NAS的概括误差界。重要的是,我们从理论上和实验上展示了衍生结果如何指导NAS,即使在没有培训的情况下,即使在没有培训的情况下,也可以根据我们的理论进行无训练的算法。因此,我们的数值验证阐明了NAS计算有效方法的设计。
translated by 谷歌翻译
多项式网络(PNS)最近在面部和图像识别方面表现出了有希望的表现。但是,PNS的鲁棒性尚不清楚,因此获得证书对于使其在现实世界应用中的采用至关重要。基于分支和绑定(BAB)技术的Relu神经网络(NNS)上的现有验证算法不能微不足道地应用于PN验证。在这项工作中,我们设计了一种新的边界方法,该方法配备了BAB,用于全球融合保证,称为VPN。一个关键的见解是,我们获得的边界比间隔结合的传播基线更紧密。这可以通过MNIST,CIFAR10和STL10数据集的经验验证进行声音和完整的PN验证。我们认为我们的方法对NN验证具有自身的兴趣。
translated by 谷歌翻译
音频合成中的时频(TF)表示已越来越多地通过实价网络建模。但是,忽略TF表示的复杂值的性质可能会导致次优性能,并且需要其他模块(例如,用于对阶段进行建模)。为此,我们介绍了称为Apollo的复杂价值的多项式网络,该网络以自然方式集成了这种复杂值的表示。具体而言,阿波罗使用高阶张量作为缩放参数捕获输入元件的高阶相关性。通过利用标准张量分解,我们得出了不同的体系结构并启用建模更丰富的相关性。我们概述了这样的体系结构,并在四个基准测试中展示了它们在音频发电中的性能。重点,阿波罗(Apollo)在音频生成中SC09数据集中的最先进的扩散模型比对抗方法的$ 17.5 \%$改进,而$ 8.2 \%$。我们的模型可以鼓励在复杂领域的其他高效体系结构进行系统的设计。
translated by 谷歌翻译