游戏理论一直是控制疾病传播并提出个人和地区级别最佳政策的有效工具。在此AMS通知文章中,我们关注Covid-19的干预的决策制定,旨在提供数学模型和有效的机器学习方法,以及对过去实施的相关政策的理由,并如何解释当局如何解释当局从游戏理论的角度来看,决策会影响其邻近地区。
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
Multiple lines of evidence strongly suggest that infection hotspots, where a single individual infects many others, play a key role in the transmission dynamics of COVID-19. However, most of the existing epidemiological models fail to capture this aspect by neither representing the sites visited by individuals explicitly nor characterizing disease transmission as a function of individual mobility patterns. In this work, we introduce a temporal point process modeling framework that specifically represents visits to the sites where individuals get in contact and infect each other. Under our model, the number of infections caused by an infectious individual naturally emerges to be overdispersed. Using an efficient sampling algorithm, we demonstrate how to estimate the transmission rate of infectious individuals at the sites they visit and in their households using Bayesian optimization and longitudinal case data. Simulations using fine-grained and publicly available demographic data and site locations from Bern, Switzerland showcase the flexibility of our framework. To facilitate research and analyses of other cities and regions, we release an open-source implementation of our framework.
translated by 谷歌翻译
在本文中,我们提出了对罗马尼亚的进化和预测的分析,结合了SIRD的数学模型,Sird的数学模型是经典模型SIR的扩展,其中包括死者作为单独的类别。原因是,由于我们无法完全信任被报告的感染或恢复人数,因此我们基于更可靠的死者人数的分析。此外,我们模型的参数之一包括感染和测试与受感染的比例。由于有许多因素对大流行的演变产生影响,因此我们决定基于前7天的数据来处理估计和预测,在这里尤其重要。我们使用神经网络分两个步骤执行估计和预测。首先,通过使用模型模拟数据,我们训练了几个学习模型参数的神经网络。其次,我们使用这些神经网络中的十个集合来预测罗马尼亚Covid19的真实数据的参数。这些结果中的许多是由定理支持的,该定理可以保证我们可以从报告的数据中恢复参数。
translated by 谷歌翻译
当今许多大型系统的设计,从交通路由环境到智能电网,都依赖游戏理论平衡概念。但是,随着$ n $玩家游戏的大小通常会随着$ n $而成倍增长,标准游戏理论分析实际上是不可行的。最近的方法通过考虑平均场游戏,匿名$ n $玩家游戏的近似值,在这种限制中,玩家的数量是无限的,而人口的状态分布,而不是每个单独的球员的状态,是兴趣。然而,迄今为止研究最多的平均场平衡的平均场nash平衡的实际可计算性通常取决于有益的非一般结构特性,例如单调性或收缩性能,这是已知的算法收敛所必需的。在这项工作中,我们通过开发均值相关和与粗相关的平衡的概念来研究平均场比赛的替代途径。我们证明,可以使用三种经典算法在\ emph {ash All Games}中有效地学习它们,而无需对游戏结构进行任何其他假设。此外,我们在文献中已经建立了对应关系,从而获得了平均场 - $ n $玩家过渡的最佳范围,并经验证明了这些算法在简单游戏中的收敛性。
translated by 谷歌翻译
流行病学中的数学模型是一种不可或缺的工具,可以确定传染病的动态和重要特征。除了他们的科学价值之外,这些模型通常用于在正在进行的爆发期间提供政治决策和干预措施。然而,通过将复杂模型连接到真实数据来可靠地推断正在进行的爆发的动态仍然很难,并且需要费力的手动参数拟合或昂贵的优化方法,这些方法必须从划痕中重复给定模型的每个应用。在这项工作中,我们用专门的神经网络的流行病学建模的新组合来解决这个问题。我们的方法需要两个计算阶段:在初始训练阶段中,描述该流行病的数学模型被用作神经网络的教练,该主管是关于全球可能疾病动态的全球知识。在随后的推理阶段,训练有素的神经网络处理实际爆发的观察到的数据,并且揭示了模型的参数,以便实际地再现观察到的动态并可可靠地预测未来的进展。通过其灵活的框架,我们的仿真方法适用于各种流行病学模型。此外,由于我们的方法是完全贝叶斯的,它旨在纳入所有可用的关于合理参数值的先前知识,并返回这些参数上的完整关节后部分布。我们的方法在德国的早期Covid-19爆发阶段的应用表明,我们能够获得可靠的概率估计对重要疾病特征,例如生成时间,未检测到的感染部分,症状发作前的传播可能性,以及报告延迟非常适中的现实观测。
translated by 谷歌翻译
平均场控制和平均场游戏中的核心问题之一是解决相应的McKean-Vlasov前向后随机微分方程(MV-FBSDES)。大多数现有方法是针对特殊情况量身定制的,在这种情况下,平均场相互作用仅取决于期望或其他时刻,因此当平均场相互作用具有完全分布依赖性时,无法解决问题。在本文中,我们提出了一种新颖的深度学习方法,用于计算具有均值场相互作用的一般形式的MV-FBSDE。具体而言,我们基于虚拟游戏,我们将问题重新验证为重复求解具有明确系数功能的标准FBSDE。这些系数功能用于近似具有完全分布依赖性的MV-FBSDE的模型系数,并通过使用从上次迭代的FBSDE解决方案模拟的培训数据来解决另一个监督学习问题。我们使用深层神经网络来求解标准的BSDE和近似系数功能,以求解高维MV-FBSDE。在对学习功能的适当假设下,我们证明了所提出的方法的收敛性通过使用先前在[HAN,HU和LONG,ARXIV:2104.12036]中开发的一类积分概率指标来免受维数(COD)的诅咒。证明的定理在高维度中显示了该方法的优势。我们介绍了高维MV-FBSDE问题中的数值性能,其中包括众所周知的Cucker-Smale模型的平均场景示例,其成本取决于正向过程的完整分布。
translated by 谷歌翻译
在这项工作中,我们提出了一种称为疾病知识神经网络(Dinns)的方法,可以使用能够有效地预测传染病的传播。这种方法在成功的物理学上建立了已经应用于可以通过线性和非线性普通和部分微分方程建模的各种应用的知识神经网络方法。具体而言,我们建立了Pinns向SIR隔间模型的应用,并扩展了描述各种传染病的脚手架数学模型。我们展示神经网络如何能够学习疾病如何传播,预测其进展,并找到其独特参数(例如死亡率)。为了证明Dinns的稳健性和疗效,我们将这种方法应用于11种高度传染病,这些疾病在增加的复杂程度上进行了建模。我们的计算实验表明,Dinns是有效了解传播动态的可靠候选者,并预测其在可用现实世界数据中的进展中的进展。
translated by 谷歌翻译
我们提出了Crisp(COVID-19风险评分预测),这是一种基于SEIR模型的人群传播的COVID-19感染的概率图形模型,我们假设跨时间跨越各种渠道之间的(1)个体之间的相互接触(1)例如,蓝牙接触轨迹)以及(2)在给定时间的测试结果,以进行感染,暴露和免疫测试。我们的微型模型在每个时间点都跟踪每个人的感染状态,从易感性,暴露,感染性到恢复。我们既开发蒙特卡洛EM,又开发传递算法的消息来推断接触通道特定的感染传输概率。鉴于所有接触和测试结果数据的潜在感染状态,我们的蒙特卡洛算法使用gibbs采样在整个分析时间内绘制每个人的潜在感染状态的样本。使用模拟数据的实验结果表明,我们的清晰模型可以通过繁殖因子$ R_0 $参数化,并展示了与经典SEIR模型相似的人群水平的传染性和恢复时间序列。但是,由于单个接触数据,该模型允许精细的粒度控制和推断各种COVID-19减轻和抑制政策度量。此外,Block-GIBBS采样算法能够在测试过程隔离方法中支持有效的测试,以包含COVID-19的感染扩散。据我们所知,这是第一个基于个人水平的接触数据对Covid-19感染有效推断的模型;大多数流行病模型是宏观模型,这些模型在整个人群中推理。 Crisp的实现可在Python和C ++中获得,网址为https://github.com/zalandoresearch/crisp。
translated by 谷歌翻译
我们提出了一种高效,可靠和可解释的全球解决方案方法$ \ TEXTIT {基于深度学习的异构代理模型,DeepHAM} $的算法,用于求解具有聚合冲击的高尺寸异质剂模型。状态分布大致由一组最佳的广义时刻表示。深度神经网络用于近似值和策略函数,目标通过直接模拟路径进行优化。除了是一个准确的全球求解器,此方法还具有三种附加功能。首先,它是求解复杂的异质剂模型的计算上有效,并且不会遭受维度的诅咒。其次,它提供了对个人国家分布的一般和可解释的代表;这对于解决宏观经济学中的经典问题是否以及如何以及如何在宏观经济中的古代问题。第三,它尽可能容易地解决了受限效率问题,这使得这适用于研究具有聚集震动的异构性药剂模型的最佳货币和财政政策的新可能性。
translated by 谷歌翻译
游戏历史悠久的历史悠久地作为人工智能进步的基准。最近,使用搜索和学习的方法在一系列完美的信息游戏中表现出强烈的表现,并且使用游戏理论推理和学习的方法对特定的不完美信息扑克变体表示了很强的性能。我们介绍游戏玩家,一个通用算法,统一以前的方法,结合导游搜索,自助学习和游戏理论推理。游戏播放器是实现大型完美和不完美信息游戏中强大实证性能的第一个算法 - 这是一项真正的任意环境算法的重要一步。我们证明了游戏玩家是声音,融合到完美的游戏,因为可用的计算时间和近似容量增加。游戏播放器在国际象棋上达到了强大的表现,然后击败了最强大的公开可用的代理商,在头上没有限制德克萨斯州扑克(Slumbot),击败了苏格兰院子的最先进的代理人,这是一个不完美的信息游戏,说明了引导搜索,学习和游戏理论推理的价值。
translated by 谷歌翻译
定量融资中最基本的问题之一是存在适合给定一组选择的市场价格的连续时间扩散模型。传统上,人们采用直觉,理论和经验分析的组合来找到实现精确或近似拟合的模型。我们的贡献是展示该问题的合适游戏理论表述如何通过利用现代深层多代理强化学习中的现有发展来帮助解决这个问题,以在随机过程的空间中进行搜索。更重要的是,我们希望社区可以利用和扩展我们的技术来解决该领域的重要问题,例如SPX-VIX校准问题。我们的实验表明,我们能够学习局部波动性,以及在波动率过程中所需的路径依赖性,以最大程度地降低百慕大选项的价格。在一句话中,我们的算法可以看作是粒子方法\`{a} la Guyon et henry-labordere,而粒子而不是被设计为确保$ \ sigma_ {loc}}(t,s_t)^2 = \ mathbb { e} [\ sigma_t^2 | s_t] $,正在学习与更通用校准目标合作的RL驱动的代理。这是第一批使用衍生校准问题桥接加固学习的工作。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
游戏理论到目前为止在各个领域都发现了许多应用,包括经济学,工业,法学和人工智能,每个玩家都只关心自己对非合作或合作方式的兴趣,但对其他玩家没有明显的恶意。但是,在许多实际应用中,例如扑克,国际象棋,逃避者追求,毒品拦截,海岸警卫队,网络安全和国防,球员通常都具有对抗性立场,也就是说,每个球员的自私行动不可避免地或故意造成损失或对其他球员造成严重破坏。沿着这条线,本文对在对抗性游戏中广泛使用的三种主要游戏模型(即零和零正常形式和广泛形式游戏,stackelberg(Security)游戏,零和差异游戏)提供了系统的调查。观点,包括游戏模型的基本知识,(近似)平衡概念,问题分类,研究前沿,(近似)最佳策略寻求技术,普遍的算法和实际应用。最后,还讨论了有关对抗性游戏的有希望的未来研究方向。
translated by 谷歌翻译
在这项工作中,引入了SVEIDR模型及其变体(老年,疫苗接种模型),以编码不同年龄段和疫苗接种状态的社会接触影响。然后,我们在模拟和现实世界数据上实现了物理信息的神经网络。本文显示了包括从神经网络中学到的COVID-19的传播和预测分析的结果。
translated by 谷歌翻译
已经引入了平均野外游戏(MFG),以有效地近似战略代理人。最近,MFG中学习平衡的问题已经获得了动力,尤其是使用无模型增强学习(RL)方法。使用RL进一步扩展的一个限制因素是,解决MFG的现有算法需要混合近似数量的策略或$ Q $价值。在非线性函数近似的情况下,这远非微不足道的属性,例如,例如神经网络。我们建议解决这一缺点的两种方法。第一个从历史数据蒸馏到神经网络的混合策略,将其应用于虚拟游戏算法。第二种是基于正规化的在线混合方法,不需要记忆历史数据或以前的估计。它用于扩展在线镜下降。我们从数值上证明,这些方法有效地可以使用深RL算法来求解各种MFG。此外,我们表明这些方法的表现优于文献中的SOTA基准。
translated by 谷歌翻译
我们将仔细研究道德,并尝试以可能成为工具的抽象属性的形式提取见解。我们想将道德与游戏联系起来,谈论道德的表现,将好奇心引入竞争和协调良好的伦理学之间的相互作用,并提供可能统一实体汇总的可能发展的看法。所有这些都是由计算复杂性造成的长阴影,这对游戏来说是负面的。该分析是寻找建模方面的第一步,这些方面可能在AI伦理中用于将现代AI系统整合到人类社会中。
translated by 谷歌翻译
钢筋学习(RL)最近在许多人工智能应用中取得了巨大成功。 RL的许多最前沿应用涉及多个代理,例如,下棋和去游戏,自主驾驶和机器人。不幸的是,古典RL构建的框架不适合多代理学习,因为它假设代理的环境是静止的,并且没有考虑到其他代理的适应性。在本文中,我们介绍了动态环境中的多代理学习的随机游戏模型。我们专注于随机游戏的简单和独立学习动态的发展:每个代理商都是近视,并为其他代理商的战略选择最佳响应类型的行动,而不与对手进行任何协调。为随机游戏开发收敛最佳响应类型独立学习动态有限的进展。我们展示了我们最近提出的简单和独立的学习动态,可保证零汇率随机游戏的融合,以及对此设置中的动态多代理学习的其他同时算法的审查。一路上,我们还重新审视了博弈论和RL文学的一些古典结果,以适应我们独立的学习动态的概念贡献,以及我们分析的数学诺克特。我们希望这篇审查文件成为在博弈论中研究独立和自然学习动态的重新训练的推动力,对于具有动态环境的更具挑战性的环境。
translated by 谷歌翻译
Strategic test allocation plays a major role in the control of both emerging and existing pandemics (e.g., COVID-19, HIV). Widespread testing supports effective epidemic control by (1) reducing transmission via identifying cases, and (2) tracking outbreak dynamics to inform targeted interventions. However, infectious disease surveillance presents unique statistical challenges. For instance, the true outcome of interest - one's positive infectious status, is often a latent variable. In addition, presence of both network and temporal dependence reduces the data to a single observation. As testing entire populations regularly is neither efficient nor feasible, standard approaches to testing recommend simple rule-based testing strategies (e.g., symptom based, contact tracing), without taking into account individual risk. In this work, we study an adaptive sequential design involving n individuals over a period of {\tau} time-steps, which allows for unspecified dependence among individuals and across time. Our causal target parameter is the mean latent outcome we would have obtained after one time-step, if, starting at time t given the observed past, we had carried out a stochastic intervention that maximizes the outcome under a resource constraint. We propose an Online Super Learner for adaptive sequential surveillance that learns the optimal choice of tests strategies over time while adapting to the current state of the outbreak. Relying on a series of working models, the proposed method learns across samples, through time, or both: based on the underlying (unknown) structure in the data. We present an identification result for the latent outcome in terms of the observed data, and demonstrate the superior performance of the proposed strategy in a simulation modeling a residential university environment during the COVID-19 pandemic.
translated by 谷歌翻译
数字化和远程连接扩大了攻击面,使网络系统更脆弱。由于攻击者变得越来越复杂和资源丰富,仅仅依赖传统网络保护,如入侵检测,防火墙和加密,不足以保护网络系统。网络弹性提供了一种新的安全范式,可以使用弹性机制来补充保护不足。一种网络弹性机制(CRM)适应了已知的或零日威胁和实际威胁和不确定性,并对他们进行战略性地响应,以便在成功攻击时保持网络系统的关键功能。反馈架构在启用CRM的在线感应,推理和致动过程中发挥关键作用。强化学习(RL)是一个重要的工具,对网络弹性的反馈架构构成。它允许CRM提供有限或没有事先知识和攻击者的有限攻击的顺序响应。在这项工作中,我们审查了Cyber​​恢复力的RL的文献,并讨论了对三种主要类型的漏洞,即姿势有关,与信息相关的脆弱性的网络恢复力。我们介绍了三个CRM的应用领域:移动目标防御,防守网络欺骗和辅助人类安全技术。 RL算法也有漏洞。我们解释了RL的三个漏洞和目前的攻击模型,其中攻击者针对环境与代理商之间交换的信息:奖励,国家观察和行动命令。我们展示攻击者可以通过最低攻击努力来欺骗RL代理商学习邪恶的政策。最后,我们讨论了RL为基于RL的CRM的网络安全和恢复力和新兴应用的未来挑战。
translated by 谷歌翻译