有效的模型选择,用于向下游任务识别合适的预先训练的神经网络是深度学习中的基本但具有挑战性的任务。目前的实践需要昂贵的计算成本在模型训练中进行性能预测。在本文中,我们通过在训练期间分析突触连接(边缘)的控制动态来提出一个新颖的神经网络选择框架。我们的框架是基于神经网络培训期间的回波传播相当于突触连接的动态演变。因此,融合的神经网络与由那些边缘组成的网络系统的平衡状态相关联。为此,我们构建一个网络映射$ \ phi $,将神经网络$ g_a $转换为定向行图$ g_b $,它在$ g_a $中定义。接下来,我们推导出神经电容度量标准$ \ beta _ {\ rm upf} $普遍捕获下游任务上的预测措施,仅使用少数早期训练结果。我们使用17个流行的预先训练的Imagenet模型和五个基准数据集进行了广泛的实验,包括CiFar10,CiFar100,SVHN,时尚Mnist和鸟类,以评估我们框架的微调性能。我们的神经电容度量显示为仅基于早期训练结果的模型选择的强大指标,比最先进的方法更有效。
translated by 谷歌翻译
在复杂的任务中,奖励函数并不简单,并且由一组目标,多种强化学习(RL)策略充分地执行任务,但可以通过调整个人目标对奖励功能的影响来训练不同的策略。了解政策之间的策略差异是必要的,使用户能够在提供的策略之间进行选择,可以帮助开发人员了解从各种奖励功能中出现的不同行为,并在RL系统中培训QuantEnparameters。在这项工作中,我们可以比较两项训练在同一任务的两项政策的行为,但在目标中具有不同的偏好。我们提出了一种区分源自来自不同能力的行为的差异的方法,这是两种R1代理商的偏好的结果。此外,我们只使用基于优先级的差异数据,以便产生关于代理偏好的对比解释。最后,我们在自主驾驶任务上测试和评估我们的方法,并比较安全导向政策的行为和更喜欢速度的行为。
translated by 谷歌翻译