大型深度学习模型中的不确定性估计是计算上具有挑战性的任务,其中甚至难以形成后验分布的高斯近似。在这种情况下,现有方法通常是协方差矩阵的对角近似,尽管事实上已知这些矩阵会给出较差的不确定性估计。为了解决这个问题,我们提出了一种新的随机,低秩,近似自然梯度(SLANG)方法,用于大型深度模型中的变分推理。我们的方法是仅基于网络对数似然的反向传播梯度来估计“对角加低等级”结构。与计算整个变分目标的梯度的方法相比,这需要严格的梯度计算。对标准基准的经验评估证实,SLANGenables比平均场方法更快,更准确地估计不确定性,并且与最先进的方法相当。
translated by 谷歌翻译
现代机器学习侧重于高度表达的模型,这些模型能够完全分割或插入数据,从而导致零训练损失。我们的模型表明,共同损失函数的随机梯度满足强大的增长条件。在这种情况下,我们证明了具有Nesterov加速度的常数尺度随机梯度下降(SGD)与凸函数和强凸函数的确定性设置的收敛速度相匹配。在非凸设置中,这种情况表明SGD可以像全梯度下降一样有效地找到一阶静止点。在插值下,我们还表明所有具有有限和结构的平滑损失函数满足较弱的增长条件。在这个较弱的条件下,我们证明了具有恒定步长的SGD在强凸和凸设置中都获得了确定性收敛率。在另外的假设下,上述结果使我们能够证明O(1 / k ^ 2)的错误界限对于使用平方铰链损失的随机感知器算法的$ k $迭代。最后,我们验证了合成和真实数据集的理论发现。
translated by 谷歌翻译
贝叶斯优化和Lipschitz优化已经开发出用于优化黑盒功能的替代技术。它们各自利用关于函数的不同形式的先验。在这项工作中,我们探索了这些技术的策略,以便更好地进行全局优化。特别是,我们提出了在传统BO算法中使用Lipschitz连续性假设的方法,我们称之为Lipschitz贝叶斯优化(LBO)。这种方法不会增加渐近运行时间,并且在某些情况下会大大提高性能(而在最坏的情况下,性能类似)。实际上,在一个特定的环境中,我们证明使用Lipschitz信息产生与后悔相同或更好的界限,而不是单独使用贝叶斯优化。此外,我们提出了一个简单的启发式方法来估计Lipschitz常数,并证明Lipschitz常数的增长估计在某种意义上是“无害的”。我们对具有4个采集函数的15个数据集进行的实验表明,在最坏的情况下,LBO的表现类似于底层BO方法,而在某些情况下,它的表现要好得多。特别是汤普森采样通常看到了极大的改进(因为Lipschitz信息已经得到了很好的修正) - 探索“现象”及其LBO变体通常优于其他采集功能。
translated by 谷歌翻译
在现实世界中,学习系统可以接收看起来像在训练期间看到的任何东西的输入,这可能导致不可预测的行为。因此,我们需要知道任何给定的输入是否属于训练数据的人口分布,以防止在部署的系统中出现不可预测的行为。最近对这个问题的兴趣激增促使深度学习文学中的复杂技术的发展。然而,由于缺乏标准化的问题制定或详尽的评估,我们在实践中是否可以依赖这些方法并不明显。使这个问题与典型的监督学习环境不同的是,我们无法在实践中模拟分布式样本的多样性。训练中使用的异常值的分布可能与应用程序中遇到的异常值的分布不同。因此,学习内部函数与仅使用twodatasets的异常值的经典方法可以产生乐观的结果。我们引入了OD测试,这是一种三数据评估方案,作为评估该问题进展的实用且更可靠的策略。 OD测试基准提供了一种简单的比较方法,用于解决分布式样本检测问题的方法。我们对图像分类任务相关领域的广泛方法进行了详尽的评估。此外,我们表明,对于高维图像的现实应用,现有方法具有较低的准确性。我们的分析揭示了每种方法的优点和缺点。
translated by 谷歌翻译
对象计数是计算机视觉中的一项重要任务,因为它在监视,交通监控和日常物品计数等应用中的需求日益增长。最先进的方法使用基于回归的优化,他们明确地学会计算感兴趣的对象。这些方法通常比基于检测的方法更好,这些方法需要学习预测每个对象的位置,大小和形状的更困难的任务。然而,我们提出了一种基于检测的方法,不需要估计对象的大小和形状。它的表现优于基于回归的方法。我们的贡献是三方面的:(1)我们提出了一种新的损失函数,它鼓励网络仅使用点级注释输出每个对象实例的单个blob; (2)我们设计了两种在对象实例之间拆分大预测blob的方法; (3)我们证明我们的方法在几个具有挑战性的数据集上获得了最新的最新结果,包括Pascal VOC和Penguins数据集。我们的方法甚至优于那些使用更强监督的方法,如深度特征,多点注释和边框标签。
translated by 谷歌翻译
1963年,Polyak提出了一个简单的条件,足以显示梯度下降的全局线性收敛速度。这个条件是同年提出的\ L {} ojasiewicz不等式的特殊情况,并且它不需要强凸性(或甚至凸性)。在这项工作中,我们表明,这个更古老的Polyak- \ L {} ojasiewicz(PL)不等式实际上已经超过了过去25年中已经探索出来的主要条件,以显示没有强凸性的线性收敛。我们还使用PLinequality对经典设置中的随机和贪婪坐标下降方法,基于符号的梯度下降方法和随机梯度方法进行了新的分析(具有递减或恒定的步长)以及方差减少的设置。我们进一步提出了一种应用于非光滑优化的近似梯度方法的推广,从而导致这些方法的线性收敛的简单证明。在此过程中,我们给机器学习中的各种问题提供简单的收敛结果:最小二乘,逻辑回归,增强,弹性反向传播,L1正则化,支持向量机,随机双坐标上升和随机方差减少梯度方法。
translated by 谷歌翻译
最近有关于随机坐标下降算法的理论和应用的重要工作,从Nesterov [SIAM J. Optim。,22(2),2012]的工作开始,他们表明随机坐标选择规则达到了相同的收敛速度。作为Gauss-Southwell选择规则。这个结果表明我们不应该使用Gauss-Southwell规则,因为它通常比随机选择贵得多。然而,这些算法的经验性行为与该理论结果相矛盾:在选择规则的计算成本可比较的应用中,高斯 - 南韦尔选择规则倾向于比随机坐标选择实质上更好。我们对Gauss-Southwell规则进行了简单分析,表明---除极端情况外 - 其收敛速度比选择随机坐标快。此外,在这项工作中,我们(i)表明精确的坐标优化提高了收敛速度,从而避免了稀疏问题。(ii)提出了一个Gauss-Southwell-Lipschitz规则,给出了偏导数的Lipschitz常数的知识,给出了更快的收敛速度,( iii)分析近似Gauss-Southwell规则的影响,以及(iv)分析Gauss-Southwell规则的近端梯度变体。
translated by 谷歌翻译
我们提出了随机平均梯度(SAG)方法来优化有限数量的平滑凸函数的sum。与随机梯度(SG)方法一样,SAG方法的迭代成本与总和中的数量无关。然而,通过结合先前梯度值的存储器,SAG方法实现比黑盒SG方法更快的收敛速度。收敛速度一般从O(1 / k ^ {1/2})提高到O(1 / k),当和为强凸时,收敛速度从子线性O(1 / k)得到改善。形式为O(p ^ k)forp \ textless {} 1的线性收敛速度。此外,在许多情况下,就梯度评估的数量而言,新方法的收敛速度也快于黑盒确定性梯度方法。 。数值实验表明,新算法通常明显优于现有的SG和确定性梯度方法,并且通过使用非均匀采样策略可以进一步提高性能。
translated by 谷歌翻译
我们提出了一种新的随机梯度法,用于优化平滑函数的有限集和,其中和是强凸的。虽然标准随机梯度方法对于该问题收敛于次线性速率,但是所提出的方法包含先前梯度值的存储器以便实现线性收敛速率。在机器学习环境中,数值实验表明,新算法可以在优化训练误差和快速减少测试误差方面显着地优于标准算法。
translated by 谷歌翻译
深度学习是图像分类大幅改进的基础。为了提高预测的稳健性,贝叶斯近似已被用于学习深度神经网络中的参数。我们采用另一种方法,通过使用高斯过程作为贝叶斯深度学习模型的构建模块,由于卷积和深层结构的推断,这种模型最近变得可行。我们研究了深度卷积高斯过程,并确定了一个保持逆流性能的问题。为了解决这个问题,我们引入了一个转换敏感卷积内核,它消除了对相同补丁输入的要求相同输出的限制。我们凭经验证明,这种卷积核可以改善浅层和深层模型的性能。在ONMNIST,FASHION-MNIST和CIFAR-10上,我们在准确性方面改进了以前的GP模型,增加了更简单的DNN模型的校准预测概率。
translated by 谷歌翻译