深度加强学习(深RL)最近在开发泛化算法中看到了显着进展。但是,大多数算法都是针对单一类型的泛化设置。在这项工作中,我们研究了三个不同任务结构的概括:(a)由定期发生的物体运动的空间和时间组成组成的任务; (b)由积极的感知和导航定期发生的3D对象组成的任务; (c)任务由记住目标信息,通过定期发生的对象配置的序列。这些不同的任务结构都分享了合作性的潜在思想:任务完成始终涉及结合任务导向的感知和行为的反复性段。我们假设代理可以在任务结构中概括,如果它可以发现捕获这些重复任务段的表示。对于我们的任务,这对应于识别单个对象动作的表示,用于向3D对象导航,并通过对象配置导航。从认知科学中获取灵感,我们为代理人经验的经常性细分而言,“感知模式”的阶段代表。我们提出了参加经常性模块(农场)的功能,该功能学习了一种状态表示,其中感知模式分布在多个相对较小的复发模块中。我们比较农场到经常性的架构,从而利用空间关注,这将观察特征减少到空间位置的加权平均值。我们的实验表明,我们的特征注意力机制更好地使农场能够通过我们学习的各种对象的域来推广。
translated by 谷歌翻译
在现实世界中经营通常需要代理商来了解复杂的环境,并应用这种理解以实现一系列目标。这个问题被称为目标有条件的强化学习(GCRL),对长地平线的目标变得特别具有挑战性。目前的方法通过使用基于图形的规划算法增强目标条件的策略来解决这个问题。然而,他们努力缩放到大型高维状态空间,并采用用于有效地收集训练数据的探索机制。在这项工作中,我们介绍了继任者功能标志性(SFL),这是一种探索大型高维环境的框架,以获得熟练的政策熟练的策略。 SFL利用继承特性(SF)来捕获转换动态的能力,通过估计状态新颖性来驱动探索,并通过将状态空间作为基于非参数标志的图形来实现高级规划。我们进一步利用SF直接计算地标遍历的目标条件调节策略,我们用于在探索状态空间边缘执行计划“前沿”地标。我们在我们的Minigrid和VizDoom进行了实验,即SFL可以高效地探索大型高维状态空间和优于长地平线GCRL任务的最先进的基线。
translated by 谷歌翻译
This paper develops a clustering method that takes advantage of the sturdiness of model-based clustering, while attempting to mitigate some of its pitfalls. First, we note that standard model-based clustering likely leads to the same number of clusters per margin, which seems a rather artificial assumption for a variety of datasets. We tackle this issue by specifying a finite mixture model per margin that allows each margin to have a different number of clusters, and then cluster the multivariate data using a strategy game-inspired algorithm to which we call Reign-and-Conquer. Second, since the proposed clustering approach only specifies a model for the margins -- but leaves the joint unspecified -- it has the advantage of being partially parallelizable; hence, the proposed approach is computationally appealing as well as more tractable for moderate to high dimensions than a `full' (joint) model-based clustering approach. A battery of numerical experiments on artificial data indicate an overall good performance of the proposed methods in a variety of scenarios, and real datasets are used to showcase their application in practice.
translated by 谷歌翻译
We can protect user data privacy via many approaches, such as statistical transformation or generative models. However, each of them has critical drawbacks. On the one hand, creating a transformed data set using conventional techniques is highly time-consuming. On the other hand, in addition to long training phases, recent deep learning-based solutions require significant computational resources. In this paper, we propose PrivateSMOTE, a technique designed for competitive effectiveness in protecting cases at maximum risk of re-identification while requiring much less time and computational resources. It works by synthetic data generation via interpolation to obfuscate high-risk cases while minimizing data utility loss of the original data. Compared to multiple conventional and state-of-the-art privacy-preservation methods on 20 data sets, PrivateSMOTE demonstrates competitive results in re-identification risk. Also, it presents similar or higher predictive performance than the baselines, including generative adversarial networks and variational autoencoders, reducing their energy consumption and time requirements by a minimum factor of 9 and 12, respectively.
translated by 谷歌翻译
两个随机过程的局部特征的比较可以阐明该过程差异最大的时间或空间。本文提出了一种了解具有一定体积的区域的方法,其中两个过程的边际属性不那么相似。所提出的方法是针对感兴趣的数据本身就是随机过程的设置而完全普遍设计的,因此,在功能数据的背景下,所提出的方法可用于指出与一定体积的最大差异区域的指出。系列和点过程。两个感兴趣的随机过程基础的参数函数是通过基础表示建模的,贝叶斯推断是通过集成的嵌套拉普拉斯近似进行的。数值研究验证了所提出的方法,我们通过犯罪学,金融和医学的案例研究展示了它们的应用。
translated by 谷歌翻译
关于使用ML模型的一个基本问题涉及其对提高决策透明度的预测的解释。尽管已经出现了几种可解释性方法,但已经确定了有关其解释可靠性的一些差距。例如,大多数方法都是不稳定的(这意味着它们在数据中提供了截然不同的解释),并且不能很好地应对无关的功能(即与标签无关的功能)。本文介绍了两种新的可解释性方法,即Varimp和Supclus,它们通过使用局部回归拟合的加权距离来克服这些问题,以考虑可变重要性。 Varimp生成了每个实例的解释,可以应用于具有更复杂关系的数据集,而Supclus解释了具有类似说明的实例集群,并且可以应用于可以找到群集的较简单数据集。我们将我们的方法与最先进的方法进行了比较,并表明它可以根据几个指标产生更好的解释,尤其是在具有无关特征的高维问题中,以及特征与目标之间的关系是非线性的。
translated by 谷歌翻译
灾难性的遗忘是阻碍在持续学习环境中部署深度学习算法的一个重大问题。已经提出了许多方法来解决灾难性的遗忘问题,在学习新任务时,代理商在旧任务中失去了其旧任务的概括能力。我们提出了一项替代策略,可以通过知识合并(CFA)处理灾难性遗忘,该策略从多个专门从事以前任务的多个异构教师模型中学习了学生网络,并可以应用于当前的离线方法。知识融合过程以单头方式进行,只有选定数量的记忆样本,没有注释。教师和学生不需要共享相同的网络结构,可以使异质任务适应紧凑或稀疏的数据表示。我们将我们的方法与不同策略的竞争基线进行比较,证明了我们的方法的优势。
translated by 谷歌翻译
图神经网络(GNN)已成为与图形和类似拓扑数据结构有关的无数任务的骨干。尽管已经在与节点和图形分类/回归任务有关的域中建立了许多作品,但它们主要处理单个任务。在图形上的持续学习在很大程度上没有探索,现有的图形持续学习方法仅限于任务的学习方案。本文提出了一个持续学习策略,该策略结合了基于架构和基于内存的方法。结构学习策略是由强化学习驱动的,在该学习中,对控制器网络进行了这种方式,以确定观察到新任务时从基本网络中添加/修剪的最佳节点,从而确保足够的网络能力。参数学习策略的基础是黑暗体验重播方法的概念,以应对灾难性的遗忘问题。我们的方法在任务收入学习和课堂学习设置中都通过几个图的连续学习基准问题进行了数值验证。与最近发表的作品相比,我们的方法在这两种设置中都表明了性能的提高。可以在\ url {https://github.com/codexhammer/gcl}上找到实现代码。
translated by 谷歌翻译
跨域多式分类是一个具有挑战性的问题,要求快速域适应以处理在永无止境和快速变化的环境中的不同但相关的流。尽管现有的多式分类器在目标流中没有标记的样品,但它们仍然会产生昂贵的标签成本,因为它们需要完全标记的源流样品。本文旨在攻击跨域多发行分类问题中极端标签短缺问题的问题,在过程运行之前,仅提供了很少的标记源流样品。我们的解决方案,即从部分地面真理(Leopard)中学习的流流过程,建立在一个灵活的深度聚类网络上,在该网络中,其隐藏的节点,层和簇被添加并在不同的数据分布方面动态删除。同时的特征学习和聚类技术为群集友好的潜在空间提供了同时的特征学习和聚类技术的基础。域的适应策略依赖于对抗域的适应技术,在该技术中,训练特征提取器以欺骗域分类器对源和目标流进行分类。我们的数值研究证明了豹子的功效,在24例中,与突出算法相比,它可以提高性能的改善。豹子的源代码在\ url {https://github.com/wengweng001/leopard.git}中共享。
translated by 谷歌翻译
推荐系统(RS)在线调节人类体验。大多数RS ACT来优化与最佳用户不完全一致但易于衡量的指标,例如广告单击和用户参与度。这导致了许多难以估量的副作用:政治两极分化,成瘾,假新闻。 RS设计面临着一个建议的对齐问题:将建议与用户,系统设计师和整个社会的目标保持一致。但是,我们如何测试和比较潜在的解决方案以对齐Rs?他们的规模使他们在部署中进行测试的昂贵和风险。我们合成了一个简单的抽象建模框架来指导未来的工作。为了说明它,我们构建了一个玩具实验,我们在其中问:“我们如何评估使用用户保留作为奖励功能的后果?”为了回答这个问题,我们学习通过在玩具环境上控制图形动力学来优化奖励功能的建议策略。根据训练推荐人对环境的影响,我们得出的结论是,最大化者通常会导致比对齐的推荐人更糟糕的结果,但并非总是如此。学习后,我们将RS之间的竞争作为RS对齐的潜在解决方案。我们发现,这通常使我们的玩具社会变得更好,而不是没有建议或最大化器。在这项工作中,我们旨在建立广泛的范围,从表面上触摸许多不同​​的点,以阐明如何对推荐系统进行奖励功能的端到端研究。建议对齐是一个紧迫而重要的问题。尝试的解决方案肯定会产生深远的影响。在这里,我们迈出了开发方法来评估和比较解决方案对社会的影响的第一步。
translated by 谷歌翻译