现代深度学习需要大规模广泛标记的数据集进行培训。少量学习旨在通过有效地从少数标记的例子中学习来缓解这个问题。在先前提出的少量视觉分类器中,假设对分类器决定的特征歧管具有不相关的特征尺寸和均匀特征方差。在这项工作中,我们专注于通过提出以低标签制度运行的差异敏感的模型来解决这一假设引起的限制。第一种方法简单的CNAP,采用基于分层正规的Mahalanobis距离基于距离的分类器,与现有神经自适应特征提取器的状态相结合,以在元数据集,迷你成像和分层图像基准基准上实现强大性能。我们进一步将这种方法扩展到转换学习设置,提出转导压盖。这种转换方法将软k-means参数细化过程与两步任务编码器相结合,以实现使用未标记数据的改进的测试时间分类精度。转导CNAP在元数据集上实现了最先进的性能。最后,我们探讨了我们的方法(简单和转换)的使用“开箱即用”持续和积极的学习。大规模基准的广泛实验表明了这一点的鲁棒性和多功能性,相对说话,简单的模型。所有培训的模型检查点和相应的源代码都已公开可用。
translated by 谷歌翻译
成功的深度学习模型往往涉及培训具有比训练样本数量更多的参数的神经网络架构。近年来已经广泛研究了这种超分子化的模型,并且通过双下降现象和通过优化景观的结构特性,从统计的角度和计算视角都建立了过分统计化的优点。尽管在过上分层的制度中深入学习架构的显着成功,但也众所周知,这些模型对其投入中的小对抗扰动感到高度脆弱。即使在普遍培训的情况下,它们在扰动输入(鲁棒泛化)上的性能也会比良性输入(标准概括)的最佳可达到的性能更糟糕。因此,必须了解如何从根本上影响稳健性的情况下如何影响鲁棒性。在本文中,我们将通过专注于随机特征回归模型(具有随机第一层权重的两层神经网络)来提供超分度化对鲁棒性的作用的精确表征。我们考虑一个制度,其中样本量,输入维度和参数的数量彼此成比例地生长,并且当模型发生前列地训练时,可以为鲁棒泛化误差导出渐近精确的公式。我们的发达理论揭示了过分统计化对鲁棒性的非竞争效果,表明对于普遍训练的随机特征模型,高度公正化可能会损害鲁棒泛化。
translated by 谷歌翻译
本文的目的是描述一种从贝叶斯推理的观点来描述一种新的非参数降噪技术,其可以自动提高一个和二维数据的信噪比,例如例如,例如,天文图像和光谱。该算法迭代地评估数据的可能的平滑版本,平滑模型,获得与嘈杂测量统计上兼容的底层信号的估计。迭代基于最后一个顺利模型的证据和$ \ Chi ^ 2 $统计数据,并且我们将信号的预期值计算为整个平滑模型的加权平均值。在本文中,我们解释了算法的数学形式主义和数值实现,我们在利用真正的天文观测的电池对峰值信号,结构相似性指数和时间有效载荷来评估其性能。我们完全自适应的贝叶斯算法用于数据分析(Fabada)产生结果,没有任何参数调谐,与标准图像处理算法相当,其参数基于要恢复的真实信号进行了优化,在实际应用中不可能。诸如BM3D的最先进的非参数方法,以高信噪比提供稍微更好的性能,而我们的算法对于极其嘈杂的数据显着更准确(高于20-40 \%$相对错误,在天文领域特别兴趣的情况)。在此范围内,通过我们的重建获得的残差的标准偏差可能变得比原始测量值低的数量级。复制本报告中显示的所有结果所需的源代码,包括该方法的实现,在https://github.com/pablolyanala/fabada公开使用
translated by 谷歌翻译
我提出了长期因果推断的内核脊回归估计,其中包含随机治疗和短期替代品的短期实验数据集与包含短期替代和长期结果的长期观测数据集融合。在核矩阵操作方面,我提出了治疗效果,剂量反应和反事实分布的估算方法。我允许协变量,治疗和替代品是离散的或连续的,低,高或无限的尺寸。对于长期治疗效果,我证明$ \ sqrt {n} $一致性,高斯近似和半占用效率。对于长期剂量反应,我证明了具有有限样品速率的均匀稠度。对于长期反事实分布,我证明了分布的收敛性。
translated by 谷歌翻译
数据驱动模型发现中的中央挑战是存在隐藏或潜伏的变量,这些变量不会直接测量,而是动态重要。 TAKENS的定理提供了在可能随时间延迟信息中增加这些部分测量的条件,导致吸引物,这是对原始全状态系统的扩散逻辑。然而,回到原始吸引子的坐标变换通常是未知的,并且学习嵌入空间中的动态仍然是几十年的开放挑战。在这里,我们设计自定义深度AutoEncoder网络,以学习从延迟嵌入空间的坐标转换到一个新的空间,其中可以以稀疏,封闭的形式表示动态。我们在Lorenz,R \“Ossler和Lotka-Volterra系统上,从单个测量变量的学习动态展示了这种方法。作为一个具有挑战性的例子,我们从混乱的水车视频中提取的单个标量变量中学到一个洛伦兹类似物得到的建模框架结合了深入的学习来揭示可解释建模的非线性动力学(SINDY)的揭示有效坐标和稀疏识别。因此,我们表明可以同时学习闭合模型和部分的坐标系观察到的动态。
translated by 谷歌翻译
HyperParameter在监督机器学习算法的拟合中起着重要作用。但是,它可以同时计算所有可调谐的超参数,特别是对于大数据集来调整所有可调谐的超参数昂贵。在本文中,我们给出了通过回忆程序估算的普遍同参数重要性的定义。根据重要性,然后可以更有效地在整个数据集上调整Quand参数。我们从理论上显示了对数据子集的建议重要性与在弱势条件下的人口数据中的一致性一致。数值实验表明,建议的重要性是一致的,可以节省大量的计算资源。
translated by 谷歌翻译
特征回归是将大型神经网络模型蒸馏到较小的功能回归。我们表明,随着网络架构的简单变化,回归可能会优于自我监督模型的知识蒸馏更复杂的最先进方法。令人惊讶的是,即使仅在蒸馏过程中仅使用并且在下游任务中丢弃时,将多层的Perceptron头部添加到CNN骨架上是有益的。因此,更深的非线性投影可以使用在不改变推理架构和时间的情况下准确地模仿老师。此外,我们利用独立的投影头来同时蒸馏多个教师网络。我们还发现,使用与教师和学生网络的输入相同的弱增强图像辅助蒸馏。Imagenet DataSet上的实验证明了各种自我监督蒸馏环境中提出的变化的功效。
translated by 谷歌翻译
神经网络的架构和参数通常独立优化,这需要每当修改体系结构时对参数的昂贵再次再次再次进行验证。在这项工作中,我们专注于在不需要昂贵的再培训的情况下越来越多。我们提出了一种在训练期间添加新神经元的方法,而不会影响已经学到的内容,同时改善了培训动态。我们通过最大化新重量的梯度来实现后者,并通过奇异值分解(SVD)有效地找到最佳初始化。我们称这种技术渐变最大化增长(Gradmax),并展示其各种视觉任务和架构的效力。
translated by 谷歌翻译
我们描述了NordiaChange:挪威的第一个历史语义改变数据集。NordiaChange包括两个新的子集,覆盖了大约80个挪威名词,随着时间的推移,用分级语义变化手动注释。两个数据集都遵循相同的注释程序,可以互换地作为火车和彼此的测试分割。Nordiachange涵盖与战后事件,挪威石油和天然气发现以及技术发展有关的时间段。注释是使用DUREL框架和两个大型历史挪威语料库完成的。NordiaChange在允许许可证下全额发布,完成了原始注释数据和推断仪式单词使用图(DWUG)。
translated by 谷歌翻译
基于学习的边缘检测有很强地监督的是用像素 - 明智的注释进行了强烈监督,这是手动获取的乏味。我们研究了自我训练边缘检测问题,利用了未开发的大型未标记图像数据集。我们设计具有多层正规化和自学的自我监督框架。特别地,我们强加了一个一致性正则化,该正则化强制执行来自多个层中的每一个的输出,以对输入图像及其扰动的对应物一致。我们采用L0平滑作为“扰动”,以鼓励在自我监督学习集群假设之后展示展示突出边界的边缘预测。同时,通过伪标签进行多层监督,网络训练,该伪标签与罐头边缘初始化,然后通过网络迭代地改进,因为培训进行了。正规化和自我教学共同实现了精确和召回的良好平衡,导致对监督方法的显着提升,在目标数据集中轻质细化。此外,我们的方法展示了强大的交叉数据集普遍性。例如,与现有的方法相比,在看不见的数据集上测试时,OCS的ODS提高了4.8%和5.8%。
translated by 谷歌翻译