多元长序列时间序列预测(M-LSTF)是一个实用但具有挑战性的问题。与传统的计时器序列预测任务不同,M-LSTF任务从两个方面更具挑战性:1)M-LSTF模型需要在多个时间功能之间和多个时间序列之间学习时间序列模式; 2)在滚动预测设置下,两个连续训练样本之间的相似性随着预测长度的增加而增加,这使模型更容易过度拟合。在本文中,我们提出了一个可推广的内存驱动变压器,以靶向M-LSTF问题。具体而言,我们首先提出一个全局级内存组件,以通过集成多个时间序列功能来驱动预测过程。此外,我们采用了一种进步的方式来训练我们的模型以提高其普遍性,在这种情况下,我们逐渐向培训样品引入伯努利的噪音。已经在多个字段上对五个不同的数据集进行了广泛的实验。实验结果表明,我们的方法可以无缝地插入不同的基于变压器的模型中,以提高其性能至大约30%。特别是,这是我们最好的知识专门关注M-LSTF任务的第一项工作。
translated by 谷歌翻译
故障诊断在许多领域至关重要,因为故障可能导致安全威胁或经济损失。在在线服务系统领域中,操作员依靠大量监视数据来检测和减轻故障。快速识别一组基础故障的根本原因指标可以节省大量时间减轻故障。在本文中,我们将根本原因分析问题作为一种新的因果推理任务,称为干预识别。我们提出了一种新型的无监督因果推理的方法,名为基于因果推理的根本原因分析(大约)。核心思想是一个足够的条件,可以使监视变量成为根本原因指标,即,因果关系贝叶斯网络(CBN)中父母的概率分布的变化。在在线服务系统中的应用程序中,大约根据系统体系结构的知识和一组因果假设在监视指标中构建图形。仿真研究说明了大约的理论可靠性。现实世界中数据集的性能进一步表明,大约可以将TOP-1建议的回忆提高到最佳基线方法的25%。
translated by 谷歌翻译
本文的目的是理论上分析具有relu层的分段线性DNN中编码的特征转换的复杂性。我们建议指标根据信息理论衡量转换的三种复杂性。我们进一步发现并证明了转换的复杂性和分离之间的密切相关性。根据提议的指标,我们分析了训练过程中转换复杂性变化的两个典型现象,并探索DNN复杂性的上限。所提出的指标也可以用作学习具有最小复杂性的DNN的损失,这也控制DNN的过度拟合水平并影响对抗性的鲁棒性,对抗性转移性和知识一致性。全面的比较研究为了解DNN提供了新的观点。
translated by 谷歌翻译
本文提出了分层和符号和或图形(AOG),客观地解释由训练有素的深层模型进行推理的内部逻辑。我们首先定义博弈论中解释器模型的客观性,我们开发了深层模型编码的逻辑和逻辑的严格表示。AOG解释者的客观性和可信度在理论上和实验验证。此外,我们提出了几种技术来提升解释的简明。
translated by 谷歌翻译
本文提出了一种可视化DNN编码的中间层视觉模式的辨别力的方法。具体而言,我们可视化(1)DNN在训练过程中如何逐渐学习各个中间层中的区域视觉模式,(2)DNN使用低层中的非辨别模式的效果来构建中/高层中的剥离图案通过前向传播。基于我们的可视化方法,我们可以量化DNN学习的知识点(即,判别视觉模式的数量)来评估DNN的表示能力。此外,该方法还提供了新的洞察现有的深度学习技术的信号处理行为,例如对抗攻击和知识蒸馏。
translated by 谷歌翻译
主要包含基于灵敏度的鲁棒性和空间稳健性的对抗鲁棒性,在鲁棒的广泛化中起不可或缺的部分。在本文中,我们努力设计策略以实现普遍的对抗性鲁棒性。为了达到这个目标,我们首先通过将本地和全球空间漏洞结合到一种空间攻击和对抗训练来实现现有的空间鲁棒性方法的较少研究的空间鲁棒性。基于这一探索,我们进一步提出了自然准确性,敏感性和不同的空间稳健性之间的全面关系,从强大的表现的角度支持的强大证据支持。更重要的是,为了将不同稳健性的相互影响平衡到一个统一的框架中,我们将\ Textit {Pareto标准}纳入对抗的鲁棒性分析,产生了一种称为\ Texit {Pareto对抗性培训}的新策略。由此产生的Pareto Front,这组最佳解决方案,在天然精度和不同的对抗鲁棒性中提供了最佳平衡,在未来普遍鲁棒性的解决方案中脱落。据我们所知,我们是第一个通过多目标优化考虑普遍对抗的鲁棒性。
translated by 谷歌翻译
When facing changing environments in the real world, the lightweight model on client devices suffers from severe performance drops under distribution shifts. The main limitations of the existing device model lie in (1) unable to update due to the computation limit of the device, (2) the limited generalization ability of the lightweight model. Meanwhile, recent large models have shown strong generalization capability on the cloud while they can not be deployed on client devices due to poor computation constraints. To enable the device model to deal with changing environments, we propose a new learning paradigm of Cloud-Device Collaborative Continual Adaptation, which encourages collaboration between cloud and device and improves the generalization of the device model. Based on this paradigm, we further propose an Uncertainty-based Visual Prompt Adapted (U-VPA) teacher-student model to transfer the generalization capability of the large model on the cloud to the device model. Specifically, we first design the Uncertainty Guided Sampling (UGS) to screen out challenging data continuously and transmit the most out-of-distribution samples from the device to the cloud. Then we propose a Visual Prompt Learning Strategy with Uncertainty guided updating (VPLU) to specifically deal with the selected samples with more distribution shifts. We transmit the visual prompts to the device and concatenate them with the incoming data to pull the device testing distribution closer to the cloud training distribution. We conduct extensive experiments on two object detection datasets with continually changing environments. Our proposed U-VPA teacher-student framework outperforms previous state-of-the-art test time adaptation and device-cloud collaboration methods. The code and datasets will be released.
translated by 谷歌翻译
在装满静态或动态障碍物的混乱环境中,机器人手臂对快速移动物体的实时拦截只允许几十毫秒的反应时间,因此,对先进的机器人计划算法非常具有挑战性和艰巨例如,多种机器人技能并行捕获动态对象并避免障碍。本文提出了一个统一的机器人路径计划框架,该框架通过嵌入事件流中包含的高维时间信息,以将安全的轨迹和碰撞轨迹区分到具有预先构造的2D密度连接图的低维空间中。然后,我们利用快速的图形传感策略来生成必要的电动机命令,以有效地避免接近障碍物,同时拦截快速移动的对象。我们方法论的最独特的特征是在基于深层流形学习的相同算法框架内进行对象截距和避免障碍物。通过利用高效的基于扩散图的变异自动编码和扩展的卡尔曼滤波器(EKF),我们仅使用板载感应和计算来证明我们的方法在自主的7-DOF机器人臂上的有效性。我们的机器人操纵器能够避免使用不同尺寸和形状的多个障碍,同时成功捕获了以正常速度以不同角度手动扔的快速移动的软球。可以在https://sites.google.com/view/multirobotskill/home中找到我们实验的完整视频演示。
translated by 谷歌翻译
随着深度学习模型和数据集的迅速扩展,网络培训非常耗时和资源成本。使用小型合成数据集学习并没有在整个数据集中进行培训,而是一种有效的解决方案。广泛的研究已在数据集凝结的方向上进行了探索,其中梯度匹配可以达到最先进的性能。梯度匹配方法在原始和合成数据集上训练时通过匹配梯度直接靶向训练动力学。但是,对该方法的原理和有效性进行了有限的深入研究。在这项工作中,我们从全面的角度深入研究了梯度匹配方法,并回答了什么,如何和何处的关键问题。我们建议将多级梯度匹配,以涉及类内和类间梯度信息。我们证明,距离函数应集中在角度上,考虑到同时延迟过度拟合的幅度。还提出了一种过度拟合的自适应学习步骤策略,以修剪不必要的优化步骤,以提高算法效率。消融和比较实验表明,与先前的工作相比,我们提出的方法具有优越的准确性,效率和概括性。
translated by 谷歌翻译
测试时间适应(TTA)是指适应神经网络以进行分配变化,仅在测试时间内从新域中访问未标记的测试样本。先前的TTA方法优化了无监督的目标,例如帐篷中的模型预测的熵[Wang等,2021],但目前尚不清楚到底是什么使TTA损失良好。在本文中,我们首先提出一个令人惊讶的现象:如果我们尝试在广泛的功能上衡量最佳的TTA损失,那么我们恢复了与(温度缩放版本的)非常相似的函数帐篷采用的软磁性 - 凝集。但是,只有在我们正在适应的分类器通过跨凝结训练的情况下,这才能保持;如果通过平方损失训练,则会出现不同的最佳TTA损失。为了解释这一现象,我们通过训练损失的凸结合物分析了TTA。我们表明,在自然条件下,这种(无监督的)共轭功能可以看作是对原始监督损失的局部近似值,实际上,它恢复了元学习发现的最佳损失。这导致了一种通用食谱,可用于为通用类的任何给定监督培训损失功能找到良好的TTA损失。从经验上讲,我们的方法始终在广泛的基准测试中统治其他基线。当应用于新型损失功能的分类器时,我们的方法尤其令人感兴趣,例如,最近所传播的polyloss与基于熵的损失有很大的不同。此外,我们表明我们的方法也可以用非常特定的软标签解释为一种自我训练,我们将其称为共轭伪标记。总体而言,我们的方法为更好地理解和改善测试时间适应提供了广泛的框架。代码可在https://github.com/locuslab/tta_conjugate上找到。
translated by 谷歌翻译