观察到在训练期间重新定位神经网络,以改善最近的作品中的概括。然而,它既不在深度学习实践中被广泛采用,也不经常用于最先进的培训方案中。这就提出了一个问题,即何时重新定位起作用,以及是否应与正规化技术一起使用,例如数据增强,体重衰减和学习率计划。在这项工作中,我们对标准培训的经验比较进行了广泛的经验比较,并选择了一些重新定位方法来回答这个问题,并在各种图像分类基准上培训了15,000多个模型。我们首先确定在没有任何其他正则化的情况下,这种方法对概括始终有益。但是,当与其他经过精心调整的正则化技术一起部署时,重新定位方法几乎没有给予概括,尽管最佳的概括性能对学习率和体重衰减超参数的选择不太敏感。为了研究重新定位方法对嘈杂数据的影响,我们还考虑在标签噪声下学习。令人惊讶的是,在这种情况下,即使在存在其他经过精心调整的正则化技术的情况下,重新定位也会显着改善标准培训。
translated by 谷歌翻译
尽管最近通过剩余网络的代表学习中的自我监督方法取得了进展,但它们仍然对ImageNet分类基准进行了高度的监督学习,限制了它们在性能关键设置中的适用性。在MITROVIC等人的现有理论上洞察中建立2021年,我们提出了RELICV2,其结合了明确的不变性损失,在各种适当构造的数据视图上具有对比的目标。 Relicv2在ImageNet上实现了77.1%的前1个分类准确性,使用线性评估使用Reset50架构和80.6%,具有较大的Reset型号,优于宽边缘以前的最先进的自我监督方法。最值得注意的是,RelicV2是使用一系列标准Reset架构始终如一地始终优先于类似的对比较中的监督基线的第一个表示学习方法。最后,我们表明,尽管使用Reset编码器,Relicv2可与最先进的自我监控视觉变压器相媲美。
translated by 谷歌翻译
直觉上,人们所期望的训练的神经网络对测试样本进行相关预测与如何密集的该样本是由表示太空中看到的训练样本包围的准确性。在这项工作中,我们提供了理论依据和支持这一假设的实验。我们提出了一种误差函数为分段线性,需要一个局部区域中的网络的输入空间,并输出平滑经验训练误差,这是一个从平均通过网络表示距离加权其他区域经验训练误差的神经网络。甲绑定在预期平滑误差为每个区域尺度成反比地表示空间训练样本密度。根据经验,我们验证这个边界是网络的预测上测试样品不准确的一个强有力的预测。对于看不见的测试设备,包括那些外的分布样本,通过结合当地区域的错误排名测试样品和最高界限丢弃样品提高了20%的绝对数字来看,对图像分类数据集的预测精度。
translated by 谷歌翻译
冠状质量弹出(CME)是最地理化的空间天气现象,与大型地磁风暴有关,有可能引起电信,卫星网络中断,电网损失和故障的干扰。因此,考虑到这些风暴对人类活动的潜在影响,对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法,以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归,k-nearest邻居,支持向量机,向前的人工神经网络以及整体模型开发了二进制分类模型。目前,我们限制了我们的预测专门使用太阳能发作参数,以确保延长警告时间。我们讨论了这项任务的主要挑战,即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明,即使在这种情况下,这些模型也可以达到足够的命中率。
translated by 谷歌翻译
我们讨论VMware如何解决以下挑战来利用数据,以便操作基于ML的异常检测系统,以检测我们的软件定义数据中心(SDDC)企业部署中的性能问题:(i)由于较重依赖,标签稀缺和标签偏差不可提供的人类注释器,和(ii)数据漂移,由于不断变化的工作量模式,软件堆栈和基础硬件。我们的异常检测系统已在生产中部署多年,并已成功检测到许多主要的性能问题。我们证明通过解决这些数据挑战,我们不仅提高了我们的性能异常检测模型的准确性30%,而且还可以确保模型性能永远不会降低时间。
translated by 谷歌翻译
机器学习模型通常培训端到端和监督设置,使用配对(输入,输出)数据。示例包括最近的超分辨率方法,用于在(低分辨率,高分辨率)图像上培训。然而,这些端到端的方法每当输入中存在分布偏移时需要重新训练(例如,夜间图像VS日光)或相关的潜在变量(例如,相机模糊或手动运动)。在这项工作中,我们利用最先进的(SOTA)生成模型(这里是Stylegan2)来构建强大的图像前提,这使得贝叶斯定理应用于许多下游重建任务。我们的方法是通过生成模型(BRGM)的贝叶斯重建,使用单个预先训练的发生器模型来解决不同的图像恢复任务,即超级分辨率和绘画,通过与不同的前向腐败模型相结合。我们将发电机模型的重量保持固定,并通过估计产生重建图像的输入潜在的跳过载体来重建图像来估计图像。我们进一步使用变分推理来近似潜伏向量的后部分布,我们对多种解决方案进行采样。我们在三个大型和多样化的数据集中展示了BRGM:(i)来自Flick的60,000个图像面向高质量的数据集(II)来自MIMIC III的高质量数据集(II)240,000胸X射线,(III)的组合收集5脑MRI数据集,具有7,329个扫描。在所有三个数据集和没有任何DataSet特定的HyperParameter调整,我们的简单方法会在超级分辨率和绘画上对当前的特定任务最先进的方法产生性能竞争力,同时更加稳定,而不需要任何培训。我们的源代码和预先训练的型号可在线获取:https://razvanmarinescu.github.io/brgm/。
translated by 谷歌翻译