我们考虑半监督序数回归问题,其中除了序数标记数据之外还给出了未标记的数据。在序数回归中有许多评估度量,例如平均绝对误差,均方误差和平均分类误差。现有工作没有考虑评估指标,对模型选择有限制,没有理论保证。为了缓解这些问题,我们提出了一种基于经验风险最小化(ERM)框架的方法,该框架适用于优化上述所有指标。此外,我们的方法具有模型,替代损失和优化算法的灵活选择。此外,我们的方法不需要对未标记数据进行限制性假设,例如聚类假设和多种假设。我们提供估计错误绑定,以表明我们的学习方法是一致的。最后,我们通过实验来展示我们框架的实用性。
translated by 谷歌翻译
平面极小值的概念在深度学习模型的泛化性质中起到了关键作用。然而,已知平坦度的现有定义对参数的重新缩放敏感。这些问题表明,先前对平坦度的定义并不一定能得到泛化,因为泛化对于这种重新定位是不变的。在本文中,从PAC-Bayesian的角度来看,我们仔细研究了关于平面最小值的讨论,并引入了归一化平面最小值的概念。没有已知的规模依赖问题。此外,我们还强调了现有基于矩阵规范的泛化误差边界的不足。我们修改的平坦度概念也没有受到效率低下的影响,这表明它更好地捕捉了泛化。
translated by 谷歌翻译
我们考虑从其剪切的观察中恢复低秩矩阵。在许多科学领域中,阻塞是阻碍统计分析的常见禁止因素。另一方面,矩阵完成(MC)方法可以通过使用低秩完成的原则从各种信息缺陷中恢复低秩矩阵。然而,目前对低秩MC的理论保证不适用于限幅矩阵,因为赤字取决于下面的值。因此,剪切矩阵完成(CMC)的可行性并非无足轻重。在本文中,我们首先通过使用跟踪范数最小化算法为CMC的精确恢复提供理论保证。此外,我们通过扩展MC方法引入实用的CMC算法。简单的想法是使用平方铰链损失代替MC方法中的方形损失,以减少对夹子过度估计的惩罚。我们还提出了一个针对CMC定制的新型正则化术语。它是两个跟踪规范项的组合,我们理论上在正则化下约束了恢复误差。我们通过使用合成数据和推荐系统的真实世界基准数据的实验证明了所提出方法的有效性。
translated by 谷歌翻译
输入上的数据无关的准不可察觉的扰动会严重降低深度卷积网络的识别精度。这表明他们的预测结构不稳定,并构成潜在的安全威胁。然而,如果存在这种有害扰动的共享方向的表征仍然是未知的,这使得难以应对安全威胁和性能降级。我们的初步发现是卷积网络对傅立叶基函数的方向敏感。我们通过将灵敏度原因(称为神经网络的线性)的假设专门化为卷积网络并经验验证它来推导出该属性。作为分析的副产品,我们提出了一种快速算法来创建在黑盒设置中可用的移位不变的通用对抗性扰动。
translated by 谷歌翻译
无监督域自适应是问题设置,其中源域和目标域中的数据生成分布不同,并且目标域中的标签不可用。无监督域适应中的一个重要问题是如何衡量源域和目标域之间的差异。先前提出的不使用源域标签的差异需要高计算成本来估计并且可能导致目标域中的松散一般化误差限制。为了缓解这些问题,我们提出了一个新的差异,称为源引导差异($ S $ -disc),其中包括源域中的标签。因此,可以通过有限的样本收敛保证有效地计算$ S $ -disc。此外,我们证明$ S $ -disc可以提供比基于现有差异更严格的泛化误差限制。最后,我们报告了实验结果,证明了$ S $ -disc优于现有差异的优势。
translated by 谷歌翻译
In Bayesian inference, the posterior distributions are difficult to obtain analytically for complex models such as neural networks. Variational inference usually uses a parametric distribution for approximation, from which we can easily draw samples. Recently discrete approximation by particles has attracted attention because of its high expression ability. An example is Stein variational gradient descent (SVGD), which iteratively optimizes particles. Although SVGD has been shown to be computationally efficient empirically, its theoretical properties have not been clarified yet and no finite sample bound of the convergence rate is known. Another example is the Stein points (SP) method, which minimizes kernelized Stein discrepancy directly. Although a finite sample bound is assured theoretically, SP is computationally inefficient empirically , especially in high-dimensional problems. In this paper, we propose a novel method named maximum mean discrepancy minimization by the Frank-Wolfe algorithm (MMD-FW), which minimizes MMD in a greedy way by the FW algorithm. Our method is computationally efficient empirically and we show that its finite sample convergence bound is in a linear order in finite dimensions.
translated by 谷歌翻译
虽然众包已经成为标记数据的重要手段,但人们很有兴趣从群体工作者制作的不可靠标签中估计基本事实。 Dawid和Skene(DS)模型是众包研究中最着名的模型之一。尽管它具有实用性,但DS模型的理论误差分析仅在类别先验,混淆矩阵或每个工人提供的标签数量的限制性假设下进行。在本文中,我们根据更广泛的众包模型(包括DS模型作为特例)的更实际设置得出最小极大误差率。我们进一步提出了工作集群模型,它比真实存储设置下的DS模型更实用。我们的理论分析的广泛适用性使我们能够立即研究这个模型的行为,现有研究无法对其进行分析。实验结果表明,理论分析得到的极小极大误差率的下界与估计值的经验误差之间存在很强的相似性。
translated by 谷歌翻译
神经网络对输入上的恶意扰动的高灵敏度会引起安全问题。为了向稳健的分类器迈出稳定的一步,我们需要创建可以从扰动中捍卫的神经网络模型。预认证工作需要对网络结构和大量计算成本进行强有力的假设,因此其应用范围是有限的。根据Lipschitz常数和预测准则之间的关系,我们提出了一种计算上有效的计算技术,它可以欺骗网络的对抗性扰动的大小,并且广泛适用于各种复杂的网络。此外,我们提出了一种有效的培训程序,可以使网络变得合理,并显着改善数据点周围可证实保护的区域。在实验评估中,我们的方法显示了它能够提供一个简单的保证并增强甚至大型网络的稳健性。
translated by 谷歌翻译
分布式鲁棒监督学习(DRSL)是构建可靠机器学习系统所必需的。当在该世界中部署机器学习时,其性能可能显着降低,因为测试数据可能跟随训练数据的不同分布。具有f-分歧的DRSL通过最小化对侧重新加权的训练损失来明确地考虑最坏情况的分布偏移。在本文中,我们分析了这个DRSL,重点是分类场景。由于DRSL是针对分布式移位场景而明确规划的,因此我们自然希望它能够提供可以积极处理移位分布的自我分类器。然而,令人惊讶的是,我们证明DRSL最终给出的分类器非常符合给定的训练分布,这太过于悲观。这种紧张主义来自两个来源:分类中使用的特定损失以及DRSL试图确定的各种分布过于宽泛的事实。在我们的分析的推动下,我们提出了简单的DRSL,它可以克服这种悲观情绪并凭经验证明其有效性。
translated by 谷歌翻译
图神经网络(GNN)的最新进展已经在各种应用中引领了最先进的性能,包括化学信息学,问答系统和推荐系统等等。然而,使这些方法可扩展到诸如网络挖掘之类的巨大图形仍然是一个挑战。特别地,现有的加速GNN的方法在理论上不能在近似误差方面得到保证,或者至少需要线性时间计算成本。在本文中,我们提出了一种用于GNN推理和训练的恒定时间近似算法,从理论上保证任意精度的任意概率。所提出的算法的关键优点是复杂性完全独立于输入的节点,边缘和邻居的数量。据我们所知,这是GNN的第一个恒定时间近似算法,具有理论保证。通过使用合成和真实数据集的实验,我们评估了我们提出的近似算法,并表明该算法可以在恒定时间内成功地接近GNN。
translated by 谷歌翻译