在本文中,我们通过将新颖的网络安全模拟器与(因果关系)通过优化统一统一,探索网络安全辩护。特别注意最近发表的方法:动态因果贝叶斯优化(DCBO)。我们建议,当提供模拟网络的视图以及红色代理如何在该网络中传播的因果模型时,DCBO可以充当蓝色代理。为了研究DCBO如何对主机节点执行最佳干预措施,以降低红色代理引起的入侵成本。通过此,我们证明了一个完整的网络模拟系统,我们用来生成DCBO的观察数据并提供数值定量结果,从而为未来的工作奠定了基础。
translated by 谷歌翻译
药物的因果模型已用于分析机器学习系统的安全性方面。但是,识别代理是非平凡的 - 通常只是由建模者假设而没有太多理由来实现因果模型 - 建模失败可能会导致安全分析中的错误。本文提出了对代理商的第一个正式因果定义 - 大约是代理人是制度,如果他们的行为以不同的方式影响世界,则可以改善其政策。由此,我们得出了第一个用于从经验数据中发现代理的因果发现算法,并提供了用于在因果模型和游戏理论影响图之间转换的算法。我们通过解决不正确的因果模型引起的一些混乱来证明我们的方法。
translated by 谷歌翻译
本文研究了多武装强盗(MAB)问题的实例,具体而言,若干因果MAB在相同的动态系统中长期操作。实际上每个强盗的奖励分布由相同的非平凡依赖结构管辖,这是一种动态因果模型。动态,因为我们允许每个因果MAB依赖于前面的MAB,并且这样做能够在代理之间传输信息。我们的贡献是时间的日间因果强盗(CCB),在离散决策设置中是有用的,其中因果效应在时间变化,并且可以通过同一系统的早期干预通知。在本文中,我们在玩具问题上表现出一些早期的CCB发现。
translated by 谷歌翻译
我们研究了全球优化因果关系变量的因果关系变量的问题,在该目标变量中可以进行干预措施。这个问题在许多科学领域都引起,包括生物学,运营研究和医疗保健。我们提出了因果熵优化(CEO),该框架概括了因果贝叶斯优化(CBO),以说明所有不确定性来源,包括由因果图结构引起的。首席执行官在因果效应的替代模型中以及用于通过信息理论采集函数选择干预措施的机制中纳入了因果结构的不确定性。所得算法自动交易结构学习和因果效应优化,同时自然考虑观察噪声。对于各种合成和现实世界的结构性因果模型,与CBO相比,CEO可以更快地与全局最佳达到融合,同时还可以学习图形。此外,我们的结构学习和因果优化的联合方法在顺序的结构学习优先方法上改善了。
translated by 谷歌翻译
本文有助于将读者介绍到多功能增强学习(MARL)领域及其与因果关系研究的方法的交叉。我们突出了Marl中的关键挑战,并在因因果方法如何协助解决它们的情况下讨论这些问题。我们促进了对Marl的'因果首先'的透视。具体而言,我们认为因果关系可以提高安全性,可解释性和稳健性,同时还为紧急行为提供了强烈的理论保障。我们讨论潜在的挑战解决方案,并使用这种背景激励未来的研究方向。
translated by 谷歌翻译
因果发现是一项主要任务,对于机器学习至关重要,因为因果结构可以使模型超越基于纯粹的相关推理并显着提高其性能。但是,从数据中找到因果结构在计算工作和准确性方面都构成了重大挑战,更不用说在没有干预的情况下不可能。在本文中,我们开发了一种元强化学习算法,该算法通过学习执行干预措施以构建明确的因果图来执行因果发现。除了对可能的下游应用程序有用外,估计的因果图还为数据生成过程提供了解释。在本文中,我们表明我们的算法估计了与SOTA方法相比,即使在以前从未见过的基本因果结构的环境中也是如此。此外,我们进行了一项消融研究,展示了学习干预措施如何有助于我们方法的整体表现。我们得出的结论是,干预措施确实有助于提高性能,从而有效地对可能看不见的环境的因果结构进行了准确的估计。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
强化学习中的信用作业是衡量行动对未来奖励的影响的问题。特别是,这需要从运气中分离技能,即解除外部因素和随后的行动对奖励行动的影响。为实现这一目标,我们将来自因果关系的反事件的概念调整为无模型RL设置。关键思想是通过学习从轨迹中提取相关信息来应对未来事件的价值函数。我们制定了一系列政策梯度算法,这些算法使用这些未来条件的价值函数作为基准或批评,并表明它们是可怕的差异。为避免对未来信息的调理潜在偏见,我们将后视信息限制为不包含有关代理程序行为的信息。我们展示了我们对许多说明性和具有挑战性问题的算法的功效和有效性。
translated by 谷歌翻译
一个令人着迷的假设是,人类和动物的智力可以通过一些原则(而不是启发式方法的百科全书清单)来解释。如果这个假设是正确的,我们可以更容易地理解自己的智能并建造智能机器。就像物理学一样,原理本身不足以预测大脑等复杂系统的行为,并且可能需要大量计算来模拟人类式的智力。这一假设将表明,研究人类和动物所剥削的归纳偏见可以帮助阐明这些原则,并为AI研究和神经科学理论提供灵感。深度学习已经利用了几种关键的归纳偏见,这项工作考虑了更大的清单,重点是关注高级和顺序有意识的处理的工作。阐明这些特定原则的目的是,它们有可能帮助我们建立从人类的能力中受益于灵活分布和系统概括的能力的AI系统,目前,这是一个领域艺术机器学习和人类智力。
translated by 谷歌翻译
深度加强学习概括(RL)的研究旨在产生RL算法,其政策概括为在部署时间进行新的未经调整情况,避免对其培训环境的过度接受。如果我们要在现实世界的情景中部署强化学习算法,那么解决这一点至关重要,那么环境将多样化,动态和不可预测。该调查是这个新生领域的概述。我们为讨论不同的概括问题提供统一的形式主义和术语,在以前的作品上建立不同的概括问题。我们继续对现有的基准进行分类,以及用于解决泛化问题的当前方法。最后,我们提供了对现场当前状态的关键讨论,包括未来工作的建议。在其他结论之外,我们认为,采取纯粹的程序内容生成方法,基准设计不利于泛化的进展,我们建议快速在线适应和将RL特定问题解决作为未来泛化方法的一些领域,我们推荐在UniTexplorated问题设置中构建基准测试,例如离线RL泛化和奖励函数变化。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
In this review, we discuss approaches for learning causal structure from data, also called causal discovery. In particular, we focus on approaches for learning directed acyclic graphs (DAGs) and various generalizations which allow for some variables to be unobserved in the available data. We devote special attention to two fundamental combinatorial aspects of causal structure learning. First, we discuss the structure of the search space over causal graphs. Second, we discuss the structure of equivalence classes over causal graphs, i.e., sets of graphs which represent what can be learned from observational data alone, and how these equivalence classes can be refined by adding interventional data.
translated by 谷歌翻译
由于数据有限和非识别性,观察性和介入数据的因果发现是具有挑战性的:在估计基本结构因果模型(SCM)时引入不确定性的因素。基于这两个因素引起的不确定性选择实验(干预措施)可以加快SCM的识别。来自有限数据的因果发现实验设计中的现有方法要么依赖于SCM的线性假设,要么仅选择干预目标。这项工作将贝叶斯因果发现的最新进展纳入了贝叶斯最佳实验设计框架中,从而使大型非线性SCM的积极因果发现同时选择了介入目标和值。我们证明了对线性和非线性SCM的合成图(ERDOS-R \'enyi,breetr cable)以及在\ emph {intiLico}单细胞基因调节网络数据集的\ emph {inyeare scms的性能。
translated by 谷歌翻译
有良好的因果建模框架,但是这些框架需要许多人类领域的专业知识来定义因果变量并执行干预措施。为了使自主代理通过互动经验学习抽象的因果模型,需要扩展和澄清现有的理论基础。现有框架没有关于可变选择 /表示形式的指导,更重要的是,没有迹象表明国家空间的行为政策或物理转换不得将其视为干预措施。本文中概述的框架将动作描述为状态空间的转换,例如由运行策略的代理引起的。这使得以统一的方式描述了微型状态空间的转换及其抽象模型,并说后者何时是垂直 /接地 /自然的。然后,我们介绍(因果)变量,将机制定义为不变的预测因子,并说何时可以将动作视为``手术干预'',从而将因果关系和干预技能学习的目标带入了更清晰的焦点。
translated by 谷歌翻译
防御网络攻击的计算机网络需要及时应对警报和威胁情报。关于如何响应的决定涉及基于妥协指标的多个节点跨多个节点协调动作,同时最大限度地减少对网络操作的中断。目前,PlayBooks用于自动化响应过程的部分,但通常将复杂的决策留给人类分析师。在这项工作中,我们在大型工业控制网络中提出了一种深度增强学习方法,以便在大型工业控制网络中进行自主反应和恢复。我们提出了一种基于关注的神经结构,其在保护下灵活地灵活。要培训和评估自治防御者代理,我们提出了一个适合加强学习的工业控制网络仿真环境。实验表明,学习代理可以有效减轻在执行前几个月几个月的可观察信号的进步。所提出的深度加强学习方法优于模拟中完全自动化的Playbook方法,采取更少的破坏性动作,同时在网络上保留更多节点。学习的政策对攻击者行为的变化也比PlayBook方法更加强大。
translated by 谷歌翻译
深入学习的强化学习(RL)的结合导致了一系列令人印象深刻的壮举,许多相信(深)RL提供了一般能力的代理。然而,RL代理商的成功往往对培训过程中的设计选择非常敏感,这可能需要繁琐和易于易于的手动调整。这使得利用RL对新问题充满挑战,同时也限制了其全部潜力。在许多其他机器学习领域,AutomL已经示出了可以自动化这样的设计选择,并且在应用于RL时也会产生有希望的初始结果。然而,自动化强化学习(AutorL)不仅涉及Automl的标准应用,而且还包括RL独特的额外挑战,其自然地产生了不同的方法。因此,Autorl已成为RL中的一个重要研究领域,提供来自RNA设计的各种应用中的承诺,以便玩游戏等游戏。鉴于RL中考虑的方法和环境的多样性,在不同的子领域进行了大部分研究,从Meta学习到进化。在这项调查中,我们寻求统一自动的领域,我们提供常见的分类法,详细讨论每个区域并对研究人员来说是一个兴趣的开放问题。
translated by 谷歌翻译
因果表示学习是识别基本因果变量及其从高维观察(例如图像)中的关系的任务。最近的工作表明,可以从观测的时间序列中重建因果变量,假设它们之间没有瞬时因果关系。但是,在实际应用中,我们的测量或帧速率可能比许多因果效应要慢。这有效地产生了“瞬时”效果,并使以前的可识别性结果无效。为了解决这个问题,我们提出了ICITRI,这是一种因果表示学习方法,当具有已知干预目标的完美干预措施时,可以在时间序列中处理瞬时效应。 Icitris从时间观察中识别因果因素,同时使用可区分的因果发现方法来学习其因果图。在三个视频数据集的实验中,Icitris准确地识别了因果因素及其因果图。
translated by 谷歌翻译
数字化和远程连接扩大了攻击面,使网络系统更脆弱。由于攻击者变得越来越复杂和资源丰富,仅仅依赖传统网络保护,如入侵检测,防火墙和加密,不足以保护网络系统。网络弹性提供了一种新的安全范式,可以使用弹性机制来补充保护不足。一种网络弹性机制(CRM)适应了已知的或零日威胁和实际威胁和不确定性,并对他们进行战略性地响应,以便在成功攻击时保持网络系统的关键功能。反馈架构在启用CRM的在线感应,推理和致动过程中发挥关键作用。强化学习(RL)是一个重要的工具,对网络弹性的反馈架构构成。它允许CRM提供有限或没有事先知识和攻击者的有限攻击的顺序响应。在这项工作中,我们审查了Cyber​​恢复力的RL的文献,并讨论了对三种主要类型的漏洞,即姿势有关,与信息相关的脆弱性的网络恢复力。我们介绍了三个CRM的应用领域:移动目标防御,防守网络欺骗和辅助人类安全技术。 RL算法也有漏洞。我们解释了RL的三个漏洞和目前的攻击模型,其中攻击者针对环境与代理商之间交换的信息:奖励,国家观察和行动命令。我们展示攻击者可以通过最低攻击努力来欺骗RL代理商学习邪恶的政策。最后,我们讨论了RL为基于RL的CRM的网络安全和恢复力和新兴应用的未来挑战。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译