在本文中,我们提出了一种基于游戏理论方法的分散,隐私友好的能源交易平台(PFET) - 特别是Stackelberg竞争。与现有的交易计划不同,PFET提供了竞争力的市场,其中基于竞争确定的价格和需求,并以分散的方式执行计算,这些方式不依赖于可信第三方。它使用同性恋加密密码系统来加密买家和卖家等敏感信息,如卖家$价格和买家$'$要求。买家使用加密数据计算对特定卖方的总需求,并将敏感的买方配置文件数据隐藏在卖家中。因此,保留了卖家和买家的隐私。通过隐私分析和绩效评估,我们展示了PFET以有效的方式保留了用户$'$隐私。
translated by 谷歌翻译
联邦学习(FL)变得流行,并在训练大型机器学习(ML)模型的情况下表现出很大的潜力,而不会使所有者的原始数据曝光。在FL中,数据所有者可以根据其本地数据培训ML模型,并且仅将模型更新发送到模型更新,而不是原始数据到模型所有者进行聚合。为了提高模型准确性和培训完成时间的学习绩效,招募足够的参与者至关重要。同时,数据所有者是理性的,可能不愿意由于资源消耗而参与协作学习过程。为了解决这些问题,最近有各种作品旨在激励数据业主贡献其资源。在本文中,我们为文献中提出的经济和游戏理论方法提供了全面的审查,以设计刺激数据业主参加流程培训过程的各种计划。特别是,我们首先在激励机制设计中常用的佛罗里达州的基础和背景,经济理论。然后,我们审查博弈理论和经济方法应用于FL的激励机制的应用。最后,我们突出了一些开放的问题和未来关于FL激励机制设计的研究方向。
translated by 谷歌翻译
Microgrids(MGS)是未来的缩小能量系统的重要参与者,其中许多智能的东西(物联网)设备在智能电网中的能量管理中相互作用。虽然MG能源管理有许多作品,但大多数研究都假设了一个完美的通信环境,其中不考虑通信故障。在本文中,我们将MG视为具有IOT设备的多智能传播环境,其中AI代理与其同行交换信息以进行协作。但是,由于通信故障或分组丢失,协作信息可能会丢失。这些事件可能会影响整个MG的操作。为此,我们提出了一种多种子体贝叶斯深增强学习(BA-DRL)方法,用于MG能量管理下的通信故障。我们首先定义多个代理部分观察到的马尔可夫决策过程(MA-POMDP)来描述在通信失败下的代理商,其中每个代理人可以更新其对同龄人的行动的信念。然后,我们在BA-DRL中应用用于Q值估计的双深度Q学习(DDQN)架构,并提出了基于信念的相关性平衡,用于多助剂BA-DRL的关节动作选择。最后,仿真结果表明,BA-DRL对供电不确定度和通信故障不确定性强大。 BA-DRL的奖励比NASH Deep Q-Learning(NASH-DQN)和乘法器(ADMM)的交替方向方法分别在1%的通信失效概率下进行4.1%和10.3%。
translated by 谷歌翻译
联合学习(FL)是一个有前途的分布式框架,用于协作人工智能模型培训,同时保护用户隐私。引起大量研究关注的引导组件是激励机制刺激佛罗里达用户协作的设计。大多数作品采用以经纪人为中心的方法来帮助中央运营商吸引参与者并进一步获得训练有素的模型。很少有作品认为参与者之间以参与者为中心的合作来追求其共同利益的FL模型,这会引起以经纪人FL的激励机制设计的显着差异。为了协调自私和异质参与者,我们提出了一个新颖的分析框架,以激励以参与者为中心的FL有效,有效的合作。具体而言,我们分别提出了两个新型游戏模型,用于贡献符合贡献的FL(COFL)和贡献感知的FL(CAFL),后者在其中实现了最低贡献阈值机制。我们进一步分析了COFL和CAFL游戏的NASH平衡的独特性和存在,并设计有效的算法以实现平衡溶液。广泛的绩效评估表明,COFL中存在自由骑行现象,通过采用CAFL模型具有优化的最低阈值,可以极大地缓解这种现象。
translated by 谷歌翻译
分布式能源的广泛采用以及智能电网技术的出现使传统上被动的电力系统用户得以积极参与能源交易。认识到传统的集中式网格驱动能源市场为这些用户提供最低盈利能力的事实,最近的研究已将重点转移到分散的点对点(P2P)能源市场上。在这些市场中,用户彼此交易能源,比买卖网格的收益更高。但是,假设持续的可用性,参与和完全合规性,大多数P2P能源交易中的研究很大程度上忽略了交易过程中用户的看法。结果,这些方法可能会导致负面态度和随着时间的推移参与度的减少。在本文中,我们设计了一个自动化的P2P能源市场,该市场将用户感知考虑在内。我们采用前景理论来对用户的看法进行建模并制定优化框架,以最大程度地提高买方的感知,同时匹配需求和生产。鉴于优化问题的非线性和非凸性性质,我们提出了基于差分进化的算法,用于交易能源,称为辩论。此外,我们推出了一种具有风险敏感的Q学习算法,该算法名为“ Q-学习和风险敏感性”(PQR),该算法(PQR)得知考虑其感知到的实用程序的卖家的最佳价格。基于真正的能耗和生产的真实痕迹以及现实的前景理论的功能,表明我们的方法可为买家带来26%的感知价值,并为卖方产生7%的奖励,与最新的最新状态相比。
translated by 谷歌翻译
本文考虑了用于训练机器学习模型的物联网(IoT)数据的市场。数据通过网络提供给市场平台,并根据其给机器学习模型带来的价值来控制数据的价格。我们在游戏理论环境中探索数据的相关性属性,最终为数据交易机制提供了简化的分布解决方案,该解决方案强调了设备和市场的共同利益。关键建议是针对市场的有效算法,该算法共同解决了参与中的可用性和异质性的挑战,以及信任的转移以及物联网网络中数据交换的经济价值。提出的方法通过通过相关数据加强设备之间的协作机会来建立数据市场,以避免信息泄漏。在其中,我们开发了一个整个网络优化问题,可最大程度地提高相似数据类型的IoT设备之间联盟的社会价值;同时,它最大程度地减少了由于网络外部性而引起的成本,即由于数据相关性而引起的信息泄漏的影响以及机会成本。最后,我们揭示了该法式问题作为分布式联盟游戏的结构,并根据简化的分裂和合并算法解决了它。仿真结果表明,我们提出的机制设计对值得信赖的物联网数据市场的功效,每个卖方的平均收益高达32.72%。
translated by 谷歌翻译
我们考虑战略设置,其中几个用户在重复的在线互动中聘用,辅助最小化的代理商代表他们反复发挥“游戏”。我们研究了代理人的重复游戏的动态和平均结果,并将其视为诱导用户之间的元游戏。我们的主要焦点是用户可以在此元游戏中从“操纵”他们自己的代理商中可以受益于他们自己的代理商。我们正式定义了普通游戏的这种“用户代理元荟萃游戏”模型,讨论了自动化代理动态的不同概念下的属性,并分析了2x2游戏中用户的均衡,其中动态收敛到a单均衡。
translated by 谷歌翻译
为了通过使用可再生能源来取代化石燃料,间歇性风能和光伏(PV)功率的资源不平衡是点对点(P2P)功率交易的关键问题。为了解决这个问题,本文介绍了增强学习(RL)技术。对于RL,图形卷积网络(GCN)和双向长期记忆(BI-LSTM)网络由基于合作游戏理论的纳米簇之间的P2P功率交易共同应用于P2P功率交易。柔性且可靠的DC纳米醇适合整合可再生能源以进行分配系统。每个局部纳米粒子群都采用了生产者的位置,同时着重于功率生产和消费。对于纳米级簇的电源管理,使用物联网(IoT)技术将多目标优化应用于每个本地纳米群集群。考虑到风和光伏发电的间歇性特征,进行电动汽车(EV)的充电/排放。 RL算法,例如深Q学习网络(DQN),深度复发Q学习网络(DRQN),BI-DRQN,近端策略优化(PPO),GCN-DQN,GCN-DQN,GCN-DRQN,GCN-DRQN,GCN-BI-DRQN和GCN-PPO用于模拟。因此,合作P2P电力交易系统利用使用时间(TOU)基于关税的电力成本和系统边际价格(SMP)最大化利润,并最大程度地减少电网功耗的量。用P2P电源交易的纳米簇簇的电源管理实时模拟了分配测试馈线,并提议的GCN-PPO技术将纳米糖簇的电量降低了36.7%。
translated by 谷歌翻译
我们研究供应商和零售商之间的重复游戏,他们希望在不了解问题参数的情况下最大化各自的利润。在用完整的信息表征了舞台游戏的Stackelberg平衡的独特性之后,我们表明,即使有部分了解需求和生产成本的联合分配,自然学习动态也可以保证供应商和零售商共同策略概况的收敛,舞台游戏的平衡。我们还证明了供应商对零售商的遗憾的遗憾和渐近界限的有限时间界限,在该零售商的遗憾中,特定费率取决于玩家初步可用的知识类型。在特殊情况下,当供应商不是战略性的(垂直整合)时,我们证明,当成本和需求是在对抗性和需求时,零售商的遗憾(或等同于社会福利)对零售商的遗憾(或等效地是社会福利)的最佳遗憾。
translated by 谷歌翻译
想象一组愿意集体贡献他们的个人数据的公民,以获得共同的益处,以产生社会有用的信息,由数据分析或机器学习计算产生。使用执行计算的集中式服务器共享原始的个人数据可能会引发对隐私和感知风险的担忧。相反,公民可以相互信任,并且他们自己的设备可以参与分散的计算,以协同生成要共享的聚合数据释放。在安全计算节点在运行时在安全信道交换消息的上下文中,密钥安全问题是保护对观察流量的外部攻击者,其对数据的依赖可以揭示个人信息。现有解决方案专为云设置而设计,目标是隐藏底层数据集的所有属性,并且不解决上述背景下出现的特定隐私和效率挑战。在本文中,我们定义了一般执行模型,以控制用户侧分散计算中通信的数据依赖性,其中通过组合在局部节点的局部集群上的保证来分析全局执行计划中的差异隐私保证。我们提出了一系列算法,可以在隐私,效用和效率之间进行权衡。我们的正式隐私保障利用,并通过洗牌延长隐私放大的结果。我们说明了我们对具有数据依赖通信的分散执行计划的两个代表性示例的提案的有用性。
translated by 谷歌翻译
在线电子商务平台上的算法定价引起了人们对默认勾结的关注,在这种情况下,强化学习算法学会以分散的方式设定合格价格,而无非是利润反馈。这就提出了一个问题,即是否可以通过设计合适的“购买盒子”来防止合格定价,即通过设计管理电子商务网站要素的规则,这些规则将特定产品和价格推向消费者。在本文中,我们证明了平台也可以使用增强学习(RL)来学习有效防止RL卖家勾结的框规则。为此,我们采用了Stackelberg POMDP的方法,并在学习强大的规则方面取得了成功,这些规则继续提供高昂的消费者福利,以及采用不同行为模型或对商品的分发费用的卖家。
translated by 谷歌翻译
互联网连接系统的指数增长产生了许多挑战,例如频谱短缺问题,需要有效的频谱共享(SS)解决方案。复杂和动态的SS系统可以接触不同的潜在安全性和隐私问题,需要保护机制是自适应,可靠和可扩展的。基于机器学习(ML)的方法经常提议解决这些问题。在本文中,我们对最近的基于ML的SS方法,最关键的安全问题和相应的防御机制提供了全面的调查。特别是,我们详细说明了用于提高SS通信系统的性能的最先进的方法,包括基于ML基于ML的基于的数据库辅助SS网络,ML基于基于的数据库辅助SS网络,包括基于ML的数据库辅助的SS网络,基于ML的LTE-U网络,基于ML的环境反向散射网络和其他基于ML的SS解决方案。我们还从物理层和基于ML算法的相应防御策略的安全问题,包括主要用户仿真(PUE)攻击,频谱感测数据伪造(SSDF)攻击,干扰攻击,窃听攻击和隐私问题。最后,还给出了对ML基于ML的开放挑战的广泛讨论。这种全面的审查旨在为探索新出现的ML的潜力提供越来越复杂的SS及其安全问题,提供基础和促进未来的研究。
translated by 谷歌翻译
Min-Max优化问题(即,最大游戏)一直在吸引大量的注意力,因为它们适用于各种机器学习问题。虽然最近取得了重大进展,但迄今为止的文献已经专注于独立战略集的比赛;难以解决与依赖策略集的游戏的知识,可以被称为Min-Max Stackelberg游戏。我们介绍了两种一阶方法,解决了大类凸凹MIN-Max Stackelberg游戏,并表明我们的方法会聚在多项式时间。 Min-Max Stackelberg游戏首先由Wald研究,在Wald的Maximin模型的Posthumous名称下,一个变体是强大的优化中使用的主要范式,这意味着我们的方法同样可以解决许多凸起的稳健优化问题。我们观察到Fisher市场中竞争均衡的计算还包括Min-Max Stackelberg游戏。此外,我们通过在不同的公用事业结构中计算Fisher市场的竞争性均衡来证明我们的算法在实践中的功效和效率。我们的实验表明潜在的方法来扩展我们的理论结果,通过展示不同的平滑性能如何影响我们算法的收敛速度。
translated by 谷歌翻译
实际经济体可以被视为一种顺序不完美信息游戏,具有许多异质,互动的各种代理类型的战略代理,例如消费者,公司和政府。动态一般均衡模型是在此类系统中建模经济活动,交互和结果的普通经济工具。然而,当所有代理商是战略和互动时,现有的分析和计算方法努力寻找明确的均衡,而联合学习是不稳定的并且具有挑战性。在其他人中,一个重要的原因是,一个经济代理人的行动可能会改变另一名代理人的奖励职能,例如,当公司更改价格或政府更改税收时,消费者的消费者的消费收入变化。我们表明,多代理深度加强学习(RL)可以发现稳定的解决方案,即通过使用结构的学习课程和高效的GPU,在经济模拟中,在经济仿真中,在经济模拟中,可以发现普遍存器类型的稳定解决方案。仿真和培训。概念上,我们的方法更加灵活,不需要不切实际的假设,例如市场清算,通常用于分析途径。我们的GPU实施使得能够在合理的时间范围内具有大量代理的经济体,例如,在一天内完成培训。我们展示了我们在实际商业周期模型中的方法,这是一个代表性的DGE模型系列,100名工人消费者,10家公司和政府税收和重新分配。我们通过近似最佳响应分析验证了学习的Meta-Game epsilon-Nash均衡,表明RL政策与经济直觉保持一致,我们的方法是建设性的,例如,通过明确地学习Meta-Game epsilon-Nash ePhilia的频谱打开RBC型号。
translated by 谷歌翻译
我们研究了竞争激烈的马尔可夫游戏(MG)环境中的NASH平衡学习,其中多个代理商竞争,并且可以存在多个NASH均衡。特别是,对于寡头的动态定价环境,由于差异性的诅咒,难以获得精确的NASH平衡。我们开发了一种新的无模型方法来找到近似NASH平衡。然后,将无梯度的黑匣子优化应用于估计$ \ epsilon $,这是代理商单方面偏离任何联合政策的最大奖励优势,并估算了任何给定州的$ \ epsilon $降低政策。政策 - $ \ epsilon $通讯和国家对$ \ epsilon $ - 缩小政策的政策由神经网络表示,后者是NASH策略网。在批处理更新期间,我们通过使用NASH策略网调整操作概率在系统上进行NASH Q学习。我们证明可以学习近似的NASH平衡,尤其是在精确溶液通常很棘手的动态定价域中。
translated by 谷歌翻译
在这项工作中,我们引入了一种差异性私有方法,用于从垂直分区的数据\ emph {i.e。}生成合成数据,其中同一个人的数据分布在多个数据持有人或各方之间。我们提出了一种差异性隐私随机梯度下降(DP-SGD)算法,以使用变异推理在此类分区数据上训练混合模型。我们修改了安全的多方计算(MPC)框架,以将MPC与差异隐私(DP)相结合,以便有效地使用差异化的私有MPC来学习DP下在此类垂直分区数据的DP下的概率生成模型。假设混合物组件不包含不同方面的依赖性,则可以将目标函数分解为当事方计算的贡献的产物之和。最后,MPC用于计算不同贡献之间的聚集体。此外,我们严格地定义了系统中不同玩家的隐私保证。为了证明我们的方法的准确性,我们从UCI机器学习存储库上运行算法在成人数据集上,在此我们获得与非分区案例的可比结果。
translated by 谷歌翻译
反事实遗憾最小化(CFR)}是在具有不完美信息的两个玩家零和游戏中查找近似NASH均衡的流行方法。 CFR通过迭代地遍历全游戏树来解决游戏,这限制了其在更大的游戏中的可扩展性。在将CFR应用于以前解决大型游戏时,大型游戏首先被抽象成小型游戏。其次,CFR用于解决抽象游戏。最后,解决方案策略被映射到原始大规模游戏。然而,该过程需要相当大的专家知识,抽象的准确性与专业知识密切相关。此外,抽象还失去了某些信息,最终会影响解决方案策略的准确性。对此问题,最近的方法,\纺织{Deep CFR}通过将深神经网络直接应用于完整游戏中的CFR来缓解抽象和专家知识的需求。在本文中,我们介绍了\ Texit {神经网络反事实遗憾最小化(NNCFR)},一种改进的\ Texit {Deep CFR},通过构造Dueling NetWok作为价值网络而具有更快的收敛性。此外,通过组合价值网络和蒙特卡罗来设计评估模块,这减少了值网络的近似误差。此外,新的损失函数是在提议的\ Texit {NNCFR}中的培训策略网络的过程中设计的,这可能很好,使策略网络更稳定。进行了广泛的实验测试,以表明\ Textit {nncfr}会聚得更快,并且比\ texit {deep cfr}更稳定,并且在测试中倾斜\ yexit {deep cfr} uperforms游戏。
translated by 谷歌翻译
我们考虑了需求侧能源管理的问题,每个家庭都配备了能够在线安排家用电器的智能电表。目的是最大程度地减少实时定价计划下的整体成本。尽管以前的作品引入了集中式方法,在该方法中,调度算法具有完全可观察的性能,但我们提出了将智能网格环境作为马尔可夫游戏的表述。每个家庭都是具有部分可观察性的去中心化代理,可以在现实环境中进行可扩展性和隐私保护。电网操作员产生的价格信号随能量需求而变化。我们提出了从代理商的角度来解决部分可观察性和环境的局部可观察性的扩展,以解决部分可观察性。该算法学习了一位集中批评者,该批评者协调分散的代理商的培训。因此,我们的方法使用集中学习,但分散执行。仿真结果表明,我们的在线深入强化学习方法可以纯粹基于瞬时观察和价格信号来降低所有消耗的总能量的峰值与平均值和所有家庭的电力。
translated by 谷歌翻译
游戏理论到目前为止在各个领域都发现了许多应用,包括经济学,工业,法学和人工智能,每个玩家都只关心自己对非合作或合作方式的兴趣,但对其他玩家没有明显的恶意。但是,在许多实际应用中,例如扑克,国际象棋,逃避者追求,毒品拦截,海岸警卫队,网络安全和国防,球员通常都具有对抗性立场,也就是说,每个球员的自私行动不可避免地或故意造成损失或对其他球员造成严重破坏。沿着这条线,本文对在对抗性游戏中广泛使用的三种主要游戏模型(即零和零正常形式和广泛形式游戏,stackelberg(Security)游戏,零和差异游戏)提供了系统的调查。观点,包括游戏模型的基本知识,(近似)平衡概念,问题分类,研究前沿,(近似)最佳策略寻求技术,普遍的算法和实际应用。最后,还讨论了有关对抗性游戏的有希望的未来研究方向。
translated by 谷歌翻译
The advent of Federated Learning (FL) has ignited a new paradigm for parallel and confidential decentralized Machine Learning (ML) with the potential of utilizing the computational power of a vast number of IoT, mobile and edge devices without data leaving the respective device, ensuring privacy by design. Yet, in order to scale this new paradigm beyond small groups of already entrusted entities towards mass adoption, the Federated Learning Framework (FLF) has to become (i) truly decentralized and (ii) participants have to be incentivized. This is the first systematic literature review analyzing holistic FLFs in the domain of both, decentralized and incentivized federated learning. 422 publications were retrieved, by querying 12 major scientific databases. Finally, 40 articles remained after a systematic review and filtering process for in-depth examination. Although having massive potential to direct the future of a more distributed and secure AI, none of the analyzed FLF is production-ready. The approaches vary heavily in terms of use-cases, system design, solved issues and thoroughness. We are the first to provide a systematic approach to classify and quantify differences between FLF, exposing limitations of current works and derive future directions for research in this novel domain.
translated by 谷歌翻译