Iterative regularization is a classic idea in regularization theory, that has recently become popular in machine learning. On the one hand, it allows to design efficient algorithms controlling at the same time numerical and statistical accuracy. On the other hand it allows to shed light on the learning curves observed while training neural networks. In this paper, we focus on iterative regularization in the context of classification. After contrasting this setting with that of regression and inverse problems, we develop an iterative regularization approach based on the use of the hinge loss function. More precisely we consider a diagonal approach for a family of algorithms for which we prove convergence as well as rates of convergence. Our approach compares favorably with other alternatives, as confirmed also in numerical simulations.
translated by 谷歌翻译
We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystrom approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This unified analysis requires developing new proofs, that use different technical tools, such as sub-gaussian inputs, to achieve fast rates. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance.
translated by 谷歌翻译
深度学习体系结构的令人印象深刻的性能与模型复杂性的大量增加有关。需要对数百万个参数进行调整,并相应地进行训练和推理时间扩展。但是需要进行大规模的微调吗?在本文中,专注于图像分类,我们考虑了一种简单的转移学习方法利用预卷积特征作为快速内核方法的输入。我们将这种方法称为最佳调整,因为只有内核分类器经过培训。通过执行2500多个培训过程,我们表明这种最佳调整方法提供了可比的精度W.R.T.进行微调,训练时间较小在一个和两个数量级之间。这些结果表明,顶级调整为中小型数据集中的微调提供了有用的替代方法,尤其是在训练效率至关重要的情况下。
translated by 谷歌翻译
监测原位浮游生物的种群对于保留水生生态系统至关重要。浮游生物微生物实际上易受较小的环境扰动的影响,可以反映出随之而来的形态学和动力学修饰。如今,高级自动或半自动采集系统的可用性已允许生产越来越多的浮游生物图像数据。由于大量获得的数据和浮游生物的数字,因此,采用机器学习算法来对此类数据进行分类。为了应对这些挑战,我们提出了有效的无监督学习管道,以提供浮游生物微生物的准确分类。我们构建一组图像描述符,利用两步过程。首先,对预先训练的神经网络提取的功能进行了跨自动编码器(VAE)的培训。然后,我们将学习的潜在空间用作聚类的图像描述符。我们将方法与最新的无监督方法进行了比较,其中一组预定义的手工特征用于浮游生物图像的聚类。所提出的管道优于我们分析中包含的所有浮游生物数据集的基准算法,提供了更好的图像嵌入属性。
translated by 谷歌翻译
许多涉及某种形式的3D视觉感知的机器人任务极大地受益于对工作环境的完整知识。但是,机器人通常必须应对非结构化的环境,并且由于工作空间有限,混乱或对象自我划分,它们的车载视觉传感器只能提供不完整的信息。近年来,深度学习架构的形状完成架构已开始将牵引力作为从部分视觉数据中推断出完整的3D对象表示的有效手段。然而,大多数现有的最新方法都以体素电网形式提供了固定的输出分辨率,这与神经网络输出阶段的大小严格相关。尽管这足以完成某些任务,例如导航,抓握和操纵的障碍需要更精细的分辨率,并且简单地扩大神经网络输出在计算上是昂贵的。在本文中,我们通过基于隐式3D表示的对象形状完成方法来解决此限制,该方法为每个重建点提供了置信值。作为第二个贡献,我们提出了一种基于梯度的方法,用于在推理时在任意分辨率下有效地采样这种隐式函数。我们通过将重建的形状与地面真理进行比较,并通过在机器人握把管道中部署形状完成算法来实验验证我们的方法。在这两种情况下,我们将结果与最先进的形状完成方法进行了比较。
translated by 谷歌翻译
动作识别是人形机器人与人类互动和合作的基本能力。该应用程序需要设计动作识别系统,以便可以轻松添加新操作,同时识别和忽略未知的动作。近年来,深度学习的方法代表了行动识别问题的主要解决方案。但是,大多数模型通常需要大量的手动标记样品数据集。在这项工作中,我们针对单发的深度学习模型,因为它们只能处理课堂的一个实例。不幸的是,一击模型假设在推理时,识别的动作落入了支持集中,当动作位于支持集外时,它们会失败。几乎没有射击开放式识别(FSOSR)解决方案试图解决该缺陷,但是当前的解决方案仅考虑静态图像而不是图像序列。静态图像仍然不足以区分诸如坐下和站立之类的动作。在本文中,我们提出了一个新颖的模型,该模型通过一个单发模型来解决FSOSR问题,该模型用拒绝未知动作的歧视器增强。该模型对于人体机器人技术中的应用很有用,因为它允许轻松添加新类并确定输入序列是否是系统已知的序列。我们展示了如何以端到端的方式训练整个模型,并进行定量和定性分析。最后,我们提供现实世界中的例子。
translated by 谷歌翻译
神经操作员是一种深层建筑,可以学会解决(即学习)部分微分方程(PDE)的非线性解决方案操作员。这些模型的当前艺术状态不能提供明确的不确定性量化。可以说,这是这种任务的问题,而不是机器学习中的其他地方,因为PDE通常描述的动态系统通常表现出微妙的多尺度结构,这会使人类难以发现错误。在这项工作中,我们首先在高斯过程的形式主义中首先提供了数学上详细的贝叶斯公式(线性)版本。然后,我们使用贝叶斯深度学习的近似方法将这种分析治疗扩展到一般的深层神经操作员。我们通过为神经操作员提供不确定性量化来扩展对神经操作员的先前结果。结果,我们的方法能够识别病例,并提供结构化的不确定性估计值,而神经操作员无法很好地预测。
translated by 谷歌翻译
机器人的视觉系统根据应用程序的要求不同:它可能需要高精度或可靠性,受到有限的资源的约束或需要快速适应动态变化的环境。在这项工作中,我们专注于实例分割任务,并对不同的技术进行了全面的研究,这些技术允许在存在新对象或不同域的存在下调整对象分割模型。我们为针对数据流入的机器人应用设计的快速实例细分学习提供了一条管道。它基于在预训练的CNN上利用的混合方法,用于特征提取和基于快速培训的基于内核的分类器。我们还提出了一种培训协议,该协议可以通过在数据采集期间执行特征提取来缩短培训时间。我们在两个机器人数据集上基准了提议的管道,然后将其部署在一个真实的机器人上,即iCub类人体。为了这个目的,我们将方法调整为一个增量设置,在该设置中,机器人在线学习新颖对象。复制实验的代码在GitHub上公开可用。
translated by 谷歌翻译
我们介绍和分析结构化的随机零订单下降(S-SZD),这是一种有限的差异方法,该方法在一组$ l \ leq d $正交方向上近似于随机梯度,其中$ d $是环境空间的维度。这些方向是随机选择的,并且可能在每个步骤中发生变化。对于平滑的凸功能,我们几乎可以确保迭代的收敛性和对$ o(d/l k^{ - c})$的功能值的收敛速率,每$ c <1/2 $,这是任意关闭的就迭代次数而言,是随机梯度下降(SGD)。我们的界限还显示了使用$ l $多个方向而不是一个方向的好处。对于满足polyak-{\ l} ojasiewicz条件的非convex函数,我们在这种假设下建立了随机Zeroth Order Order Order算法的第一个收敛速率。我们在数值模拟中证实了我们的理论发现,在数值模拟中,满足假设以及对超参数优化的现实世界问题,观察到S-SZD具有很好的实践性能。
translated by 谷歌翻译
We study a class of dynamical systems modelled as Markov chains that admit an invariant distribution via the corresponding transfer, or Koopman, operator. While data-driven algorithms to reconstruct such operators are well known, their relationship with statistical learning is largely unexplored. We formalize a framework to learn the Koopman operator from finite data trajectories of the dynamical system. We consider the restriction of this operator to a reproducing kernel Hilbert space and introduce a notion of risk, from which different estimators naturally arise. We link the risk with the estimation of the spectral decomposition of the Koopman operator. These observations motivate a reduced-rank operator regression (RRR) estimator. We derive learning bounds for the proposed estimator, holding both in i.i.d. and non i.i.d. settings, the latter in terms of mixing coefficients. Our results suggest RRR might be beneficial over other widely used estimators as confirmed in numerical experiments both for forecasting and mode decomposition.
translated by 谷歌翻译