考虑到其协变量$ \ boldsymbol x $的连续或分类响应变量$ \ boldsymbol y $的分布是统计和机器学习中的基本问题。深度神经网络的监督学习算法在预测给定$ \ boldsymbol x $的$ \ boldsymbol y $的平均值方面取得了重大进展,但是他们经常因其准确捕捉预测的不确定性的能力而受到批评。在本文中,我们引入了分类和回归扩散(卡)模型,该模型结合了基于扩散的条件生成模型和预训练的条件估计器,以准确预测给定$ \ boldsymbol y $的分布,给定$ \ boldsymbol x $。我们证明了通过玩具示例和现实世界数据集的有条件分配预测的卡片的出色能力,实验结果表明,一般的卡在一般情况下都优于最先进的方法,包括基于贝叶斯的神经网络的方法专为不确定性估计而设计,尤其是当给定$ \ boldsymbol y $的条件分布给定的$ \ boldsymbol x $是多模式时。
translated by 谷歌翻译
离线增强学习(RL)将经典RL算法的范式扩展到纯粹从静态数据集中学习,而无需在学习过程中与基础环境进行交互。离线RL的一个关键挑战是政策培训的不稳定,这是由于离线数据的分布与学习政策的未结束的固定状态分配之间的不匹配引起的。为了避免分配不匹配的有害影响,我们将当前政策的未静置固定分配正规化在政策优化过程中的离线数据。此外,我们训练动力学模型既实施此正规化,又可以更好地估计当前策略的固定分布,从而减少了分布不匹配引起的错误。在各种连续控制的离线RL数据集中,我们的方法表示竞争性能,从而验证了我们的算法。该代码公开可用。
translated by 谷歌翻译
本文提出了概率共形预测(PCP),这是一种预测推理算法,该算法通过不连续的预测集估算目标变量。给定输入,PCP基于估计生成模型的随机样品构建预测集。它有效且与显式或隐式有条件生成模型兼容。从理论上讲,我们表明PCP可以保证使用有限样品正确的边际覆盖范围。从经验上讲,我们研究了PCP在各种模拟和真实数据集上。与现有的共形推断方法相比,PCP提供了更清晰的预测集。
translated by 谷歌翻译
为了稳定地训练生成对抗网络(GAN),将实例噪声注入歧视器的输入中被认为是理论上的声音解决方案,但是,在实践中尚未实现其承诺。本文介绍了采用高斯混合物分布的扩散 - 在正向扩散链的所有扩散步骤中定义,以注入实例噪声。从观察到或生成的数据扩散的混合物中的随机样品被作为歧视器的输入。通过将其梯度通过前向扩散链进行反向传播来更新,该链的长度可自适应地调节以控制每个训练步骤允许的最大噪声与数据比率。理论分析验证了所提出的扩散gan的声音,该扩散器提供了模型和域 - 不可分割的可区分增强。在各种数据集上进行的一系列实验表明,扩散 - GAN可以提供稳定且具有数据效率的GAN训练,从而使对强GAN基准的性能保持一致,以综合构成照片现实的图像。
translated by 谷歌翻译
扩散概率模型采用前向马尔可夫扩散链逐渐将数据映射到噪声分布,学习如何通过推断一个反向马尔可夫扩散链来生成数据以颠倒正向扩散过程。为了实现竞争性数据生成性能,他们需要一条长长的扩散链,这使它们在培训中不仅在培训中而且发电。为了显着提高计算效率,我们建议通过废除将数据扩散到随机噪声的要求来截断正向扩散链。因此,我们从隐式生成分布而不是随机噪声启动逆扩散链,并通过将其与截断的正向扩散链损坏的数据的分布相匹配来学习其参数。实验结果表明,就发电性能和所需的逆扩散步骤的数量而言,我们的截短扩散概率模型对未截断的概率模型提供了一致的改进。
translated by 谷歌翻译
对比学习已成为图形结构数据的自我监督学习方法的关键组成部分。然而,尽管取得了成功,但是现有的图形对比学习方法对于节点表示或其下游任务无能为力地定量,这限制了它们在高赌场域中的应用。在本文中,我们提出了一种新颖的贝叶斯视角,曲线图对比学习方法,显示随机增强导致随机编码器。结果,我们所提出的方法通过将每个节点嵌入到确定性矢量的现有技术对比潜空间中的分布来表示每个节点。通过学习分配表示,我们在下游图分析任务中提供不确定性估计,并提高预测模型的表现力。此外,我们提出了一个贝叶斯框架,以推断对比模型的每种视图中扰动的概率,消除了对普通参数调谐的计算昂贵的搜索需要。与在多个基准数据集上的现有最先进方法相比,我们经验凭经验显示了相当大的性能。
translated by 谷歌翻译
近年来,最终用户的多个(边缘)设备中有大量分散数据,而由于法律或法规,分散数据的聚合对机器学习工作仍然困难。联合学习(FL)作为处理分散数据而不分享敏感原始数据的有效方法,同时协作培训全球机器学习模型。 FL中的服务器需要在培训过程中选择(和计划)设备。但是,具有FL的多个作业的设备的调度仍然是一个关键和打开的问题。在本文中,我们提出了一种新的多工作FL框架,以实现多个作业的并行培训过程。该框架包括系统模型和两个调度方法。在系统模型中,我们提出了多个作业的并行培训过程,并根据各种工作培训过程基于培训时间和各种设备的数据公平构建成本模型。我们提出了一种基于钢筋的基于学习的方法和基于贝叶斯优化的方法,以便为多个作业调度设备,同时最小化成本。我们通过多个工作和数据集进行广泛的实验。实验结果表明,我们提出的方法在培训时间(速度越快8.67倍)和准确性(高度高达44.6%)方面显着优于基线。
translated by 谷歌翻译
由于LIDAR传感器捕获的精确深度信息缺乏准确的深度信息,单眼3D对象检测是一个关键而挑战的自主驾驶任务。在本文中,我们提出了一种立体引导的单目3D对象检测网络,称为SGM3D,其利用立体图像提取的鲁棒3D特征来增强从单眼图像中学到的特征。我们创新地研究了多粒度域适配模块(MG-DA)以利用网络的能力,以便仅基于单手套提示产生立体模拟功能。利用粗均衡特征级以及精细锚级域适配,以引导单眼分支。我们介绍了一个基于IOO匹配的对齐模块(iou-ma),用于立体声和单眼域之间的对象级域适应,以减轻先前阶段中的不匹配。我们对最具挑战性的基蒂和Lyft数据集进行了广泛的实验,并实现了新的最先进的性能。此外,我们的方法可以集成到许多其他单眼的方法中以提高性能而不引入任何额外的计算成本。
translated by 谷歌翻译
我们在王等人开发的正规化探索制剂下,研究政策梯度(PG),以便在连续时间和空间中进行加强学习。 (2020)。我们代表值函数的梯度相对于给定的参数化随机策略,作为可以使用样本和当前值函数进行评估的辅助运行奖励函数的预期集成。这有效地将PG转化为策略评估(PE)问题,使我们能够应用贾和周最近开发的Martingale方法来解决我们的PG问题。基于此分析,我们为RL提出了两种类型的演员 - 批评算法,在那里我们同时和交替地学习和更新值函数和策略。第一类型直接基于上述表示,涉及未来的轨迹,因此是离线的。专为在线学习的第二种类型使用了政策梯度的一阶条件,并将其转化为Martingale正交状态。然后在更新策略时使用随机近似并入这些条件。最后,我们通过模拟在两个具体示例中展示了算法。
translated by 谷歌翻译
周等人提出了一个无人监督,轻质和高性能的单一对象追踪器,称为UHP-SOT。最近。作为一个扩展,我们在这项工作中介绍了一个增强版本并将其命名为UHP-SOT ++。基于基于鉴别相关滤波器的(基于DCF的)跟踪器的基础,在UHP-SOT和UHP-SOT ++中引入了两种新成分:1)背景运动建模和2)对象盒轨迹建模。 UHP-SOT和UHP-SOT ++之间的主要区别是来自三种模型的提案的融合策略(即DCF,背景运动和对象盒轨迹模型)。 UHP-SOT ++采用了一种改进的融合策略,可针对大规模跟踪数据集更加强大的跟踪性能。我们的第二件贡献在于通过在四个SOT基准数据集 - OTB2015,TC128,UAV123和LASOT上进行测试,对最先进的监督和无监督方法进行了广泛的评估。实验表明,UHP-SOT ++优于所有先前的无监督方法和几种深度学习(DL)方法,以跟踪准确性。由于UHP-SOT ++具有极小的模型大小,高跟踪性能和低计算复杂性(即使在I5 CPU上以20 fps运行,即使没有代码优化),则是资源实时对象跟踪中的理想解决方案 - 有限平台。基于实验结果,我们比较监督和无监督者的优缺点,并提供了一种新的视角,了解监督和无监督方法之间的性能差距,这是这项工作的第三次贡献。
translated by 谷歌翻译