多ARM强盗(MAB)是一种经典的在线学习框架,可以研究在不确定的环境中的顺序决策。然而,MAB框架忽略了决策者不能直接采取行动(例如,拉臂)的情况。在许多应用中,这是一种实际重要的场景,例如频谱共享,众脉和边缘计算。在这些申请中,决策者将激励其他自私的代理商进行预期的行动(即,在决策者代表武器上撤销)。本文在此方案中建立了激励的在线学习(IOL)框架。设计IOL框架的关键挑战是未知环境学习和非对称信息启示的紧密耦合。为了解决这个问题,我们基于该特殊的拉格朗日功能,我们提出了一种对IOL框架的社会最优机制。我们的机制满足各种理想的属性,如代理公平,激励兼容性和自愿参与。它达到了与需要额外信息的最先进的基准相同的渐近性能。我们的分析还推出了IOL框架中人群的力量:更大的代理人群使我们的机制能够更接近社会绩效的理论上限。数值结果表明了我们在大型边缘计算中的机制的优点。
translated by 谷歌翻译
移动边缘计算有助于用户将计算任务卸载到边缘服务器,以满足其严格的延迟要求。以前的作品主要探讨给出系统侧信息时的任务卸载(例如,服务器处理速度,蜂窝数据速率)或系统不确定性的集中卸载。但两者普遍跌倒,以处理涉及动态和不确定环境中许多共存用户的任务安置。在本文中,我们开发了考虑未知随机系统侧信息的多用户卸载框架,以实现分散的用户发起的服务放置。具体而言,我们将动态任务放置作为在线多用户多武装强盗过程,并提出基于分散的epoch的卸载(DEBO),以优化在网络延迟下进行的用户奖励。我们表明DEBO可以推断最佳用户服务器分配,从而实现了近距离的服务性能和紧密的O(log t)卸载后悔。此外,我们将DEBO概括为各种常见场景,如未知的奖励差距,动态进入或离开客户,以及公平的奖励分发,同时进一步探索用户卸载任务需要异构计算资源。特别是,我们为这些实例中的每一个完成子线性遗憾。基于实际测量的评估证实了我们在优化延迟敏感奖励的最先进方法中的卸载方案的优势。
translated by 谷歌翻译
我们考虑随机多武装强盗(MAB)问题,延迟影响了行动。在我们的环境中,过去采取的行动在随后的未来影响了ARM奖励。在现实世界中,行动的这种延迟影响是普遍的。例如,为某个社会群体中的人员偿还贷款的能力可能历史上历史上批准贷款申请的频率频率。如果银行将贷款申请拒绝拒绝弱势群体,则可以创建反馈循环,进一步损害该群体中获取贷款的机会。在本文中,我们制定了在多武装匪徒的背景下的行动延迟和长期影响。由于在学习期间,我们将强盗设置概括为对这种“偏置”的依赖性进行编码。目标是随着时间的推移最大化收集的公用事业,同时考虑到历史行动延迟影响所产生的动态。我们提出了一种算法,实现了$ \ tilde {\ mathcal {o}}的遗憾,并显示$ \ omega(kt ^ {2/3})$的匹配遗憾下限,其中$ k $是武器数量,$ t $是学习地平线。我们的结果通过添加技术来补充强盗文献,以处理具有长期影响的行动,并对设计公平算法有影响。
translated by 谷歌翻译
我们解决了在线顺序决策的问题,即在利用当前知识以最大程度地提高绩效和探索新信息以使用多武器的强盗框架获得长期利益之间的权衡平衡。汤普森采样是选择解决这一探索探索困境的动作的启发式方法之一。我们首先提出了一个通用框架,该框架可帮助启发性地调整汤普森采样中的探索与剥削权衡取舍,并使用后部分布中的多个样本进行调整。利用此框架,我们为多臂匪徒问题提出了两种算法,并为累积遗憾提供了理论界限。接下来,我们证明了拟议算法对汤普森采样的累积遗憾表现的经验改善。我们还显示了所提出的算法在现实世界数据集上的有效性。与现有方法相反,我们的框架提供了一种机制,可以根据手头的任务改变探索/开发量。为此,我们将框架扩展到两个其他问题,即,在土匪中最佳的ARM识别和时间敏感学习,并将我们的算法与现有方法进行比较。
translated by 谷歌翻译
通信瓶颈和数据隐私是联邦多武装强盗(MAB)问题中的两个至关重要的问题,例如通过无线连接车辆的决策和建议的情况。在本文中,我们在这些问题中设计了隐私保留的通信有效的算法,并在遗憾方面研究隐私,沟通和学习绩效之间的互动。具体而言,我们设计隐私保留的学习算法和通信协议,并在网络私人代理在主工作人员,分散和混合结构中进行在线强盗学习时,从而导出学习遗憾。我们的强盗学习算法基于每个代理和代理在每个时代结束时与服务器/彼此交换学习知识的庞大的子最优手臂。此外,我们采用差异隐私(DP)方法在交换信息时保护每个代理人的数据隐私;并且我们通过减少频繁的沟通与较少的代理商参与来缩短沟通成本。通过分析我们拟议的算法框架,在硕士劳动,分散和混合结构中的暗示框架,理论上显示了遗憾和沟通成本/隐私之间的权衡。最后,我们经验展示了与我们理论分析一致的这些权衡。
translated by 谷歌翻译
用于配置虚拟化基站(VBS)的开放无线接入网络(O-RAN)的设计对网络运营商来说至关重要。此任务具有挑战性,因为优化VBS调度程序需要了解参数的知识,这些参数是不稳定且要求提前获得的。在本文中,我们提出了一种在线学习算法,用于平衡VBS的性能和能耗。该算法在不可预见的条件下(例如非平稳交通和网络状态)提供了性能保证,并且忽略了VBS操作配置文件。我们以最通用的形式研究了该问题,并证明所提出的技术即使在快速变化的环境中也能达到次线性遗憾(即零平均最佳差距)。通过使用现实世界数据和各种跟踪驱动的评估,我们的发现表明,与最先进的基准相比,VB的功耗最高可节省74.3%。
translated by 谷歌翻译
我们通过审查反馈重复进行一定的第一价格拍卖来研究在线学习,在每次拍卖结束时,出价者只观察获胜的出价,学会了适应性地出价,以最大程度地提高她的累积回报。为了实现这一目标,投标人面临着一个具有挑战性的困境:如果她赢得了竞标 - 获得正收益的唯一方法 - 然后她无法观察其他竞标者的最高竞标,我们认为我们认为这是从中汲取的。一个未知的分布。尽管这一困境让人联想到上下文强盗中的探索探索折衷权,但现有的UCB或汤普森采样算法无法直接解决。在本文中,通过利用第一价格拍卖的结构属性,我们开发了第一个实现$ o(\ sqrt {t} \ log^{2.5} t)$ hearry bund的第一个学习算法(\ sqrt {t} \ log^{2.5} t),这是最小值的最低$ $ \ log $因素,当投标人的私人价值随机生成时。我们这样做是通过在一系列问题上提供算法,称为部分有序的上下文匪徒,该算法将图形反馈跨动作,跨环境跨上下文进行结合,以及在上下文中的部分顺序。我们通过表现出一个奇怪的分离来确定该框架的优势和劣势,即在随机环境下几乎可以独立于动作/背景规模的遗憾,但是在对抗性环境下是不可能的。尽管这一通用框架有限制,但我们进一步利用了第一价格拍卖的结构,并开发了一种学习算法,该算法在存在对手生成的私有价值的情况下,在存在的情况下可以有效地运行样本(并有效地计算)。我们建立了一个$ o(\ sqrt {t} \ log^3 t)$遗憾,以此为此算法,因此提供了对第一价格拍卖的最佳学习保证的完整表征。
translated by 谷歌翻译
在包括在线广告,合同招聘和无线调度的各种应用中,控制器受到可用资源的严格预算约束的限制,这些资源由每个动作以随机量消耗,以及可能施加的随机可行性约束关于决策的重要运作限制。在这项工作中,我们考虑一个常规模型来解决这些问题,每个行动都返回一个随机奖励,成本和罚款从未知的联合分配返回,决策者旨在最大限度地提高预算约束下的总奖励$ B $在总成本和随机限制的时间平均罚款。我们提出了一种基于Lyapunov优化方法的新型低复杂性算法,命名为$ {\ tt lyon} $,并证明它以$ k $武器实现$ o(\ sqrt {kb \ log b})$后悔和零约束 - 当$ B $足够大时。 $ {\ tt lyon} $的计算成本和尖锐性能界限表明,基于Lyapunov的算法设计方法可以有效地解决受约束的强盗优化问题。
translated by 谷歌翻译
联邦学习(FL)变得流行,并在训练大型机器学习(ML)模型的情况下表现出很大的潜力,而不会使所有者的原始数据曝光。在FL中,数据所有者可以根据其本地数据培训ML模型,并且仅将模型更新发送到模型更新,而不是原始数据到模型所有者进行聚合。为了提高模型准确性和培训完成时间的学习绩效,招募足够的参与者至关重要。同时,数据所有者是理性的,可能不愿意由于资源消耗而参与协作学习过程。为了解决这些问题,最近有各种作品旨在激励数据业主贡献其资源。在本文中,我们为文献中提出的经济和游戏理论方法提供了全面的审查,以设计刺激数据业主参加流程培训过程的各种计划。特别是,我们首先在激励机制设计中常用的佛罗里达州的基础和背景,经济理论。然后,我们审查博弈理论和经济方法应用于FL的激励机制的应用。最后,我们突出了一些开放的问题和未来关于FL激励机制设计的研究方向。
translated by 谷歌翻译
多武装强盗(MAB)问题是一个主动学习框架,其旨在通过顺序观察奖励来选择一组动作中最好的选择。最近,它已经在无线网络上的许多应用程序流行,其中通信约束可以形成瓶颈。现有的作品通常无法解决此问题,并且可以在某些应用中变得不可行。在本文中,我们通过优化分布式代理收集的奖励的通信来解决沟通问题。通过提供近乎匹配的上限和下限,我们紧紧地表征了学习者每次奖励所需的比特数,以便在不遭受额外遗憾的情况下准确学习。特别是,我们建立了一个通用奖励量化算法,可以应用于任何(无遗憾)MAB算法的顶部,以形成新的通信有效的对应物,这只需要几个(低至3)位每次迭代时会发送,同时保留相同的遗憾。我们的下限是通过构建来自SubGaussian分布的硬实例来建立。我们的理论在数值实验中进一步证实。
translated by 谷歌翻译
我们考虑一个一般的在线随机优化问题,在有限时间段的视野中具有多个预算限制。在每个时间段内,都会揭示奖励功能和多个成本功能,并且决策者需要从凸面和紧凑型措施中指定行动,以收集奖励并消耗预算。每个成本函数对应于一个预算的消费。在每个时期,奖励和成本函数都是从未知分布中得出的,该分布在整个时间内都是非平稳的。决策者的目的是最大化受预算限制的累积奖励。该配方捕获了广泛的应用程序,包括在线线性编程和网络收入管理等。在本文中,我们考虑了两个设置:(i)一个数据驱动的设置,其中真实分布未知,但可以提供先前的估计(可能不准确); (ii)一个不信息的环境,其中真实分布是完全未知的。我们提出了一项基于统一的浪费距离措施,以量化设置(i)中先验估计值的不准确性和设置(ii)中系统的非平稳性。我们表明,拟议的措施导致在两种情况下都能获得统一后悔的必要条件。对于设置(i),我们提出了一种新的算法,该算法采用了原始的偶视角,并将基础分布的先前信息集成到双重空间中的在线梯度下降过程。该算法也自然扩展到非信息设置(II)。在这两种设置下,我们显示相应的算法实现了最佳秩序的遗憾。在数值实验中,我们演示了如何将所提出的算法与重新溶解技术自然整合,以进一步提高经验性能。
translated by 谷歌翻译
本文提出了一种新的培训建议系统的方法,称为基于偏差的学习。建议者和理性用户有不同的知识。推荐人通过观察用户在收到建议时采取的行动来学习用户知识。最终学习如果推荐人总是建议选择:在推荐人完成学习之前,用户开始盲目地遵循建议,他们的选择并不能反映他们的知识。如果推荐人预测多种替代方案将产生类似的回报,那么学习率和社会福利会大大提高。
translated by 谷歌翻译
我们通过可共享的手臂设置概括了多武器的多臂土匪(MP-MAB)问题,其中几场比赛可以共享同一臂。此外,每个可共享的组都有有限的奖励能力和“每载”奖励分配,这两者都是学习者所不知道的。可共享臂的奖励取决于负载,这是“每载”奖励乘以拉动手臂的戏剧数量或当比赛数量超过容量限制时的奖励能力。当“按负载”奖励遵循高斯分布时,我们证明了样本复杂性的下限,从负载依赖的奖励中学习容量,也遗憾的是这个新的MP-MAB问题的下限。我们设计了一个容量估计器,其样品复杂性上限在奖励手段和能力方面与下限匹配。我们还提出了一种在线学习算法来解决该问题并证明其遗憾的上限。这个遗憾的上界的第一任期与遗憾的下限相同,其第二和第三个术语显然也对应于下边界。广泛的实验验证了我们算法的性能以及其在5G和4G基站选择中的增长。
translated by 谷歌翻译
我们考虑了一个特殊的匪徒问题的情况,即批处理匪徒,其中代理在一定时间段内观察批次的响应。与以前的工作不同,我们考虑了一个更实际相关的以批量学习为中心的情况。也就是说,我们提供了政策不足的遗憾分析,并为候选政策的遗憾展示了上和下限。我们的主要理论结果表明,批处理学习的影响是相对于在线行为的遗憾,批处理大小的多重因素。首先,我们研究了随机线性匪徒的两个设置:有限且无限多手臂的土匪。尽管两种设置的遗憾界限都是相同的,但前者的设置结果在温和的假设下保持。另外,我们为2臂匪徒问题作为重要见解提供了更强大的结果。最后,我们通过进行经验实验并反思最佳批量选择来证明理论结果的一致性。
translated by 谷歌翻译
未来的互联网涉及几种新兴技术,例如5G和5G网络,车辆网络,无人机(UAV)网络和物联网(IOT)。此外,未来的互联网变得异质并分散了许多相关网络实体。每个实体可能需要做出本地决定,以在动态和不确定的网络环境下改善网络性能。最近使用标准学习算法,例如单药强化学习(RL)或深入强化学习(DRL),以使每个网络实体作为代理人通过与未知环境进行互动来自适应地学习最佳决策策略。但是,这种算法未能对网络实体之间的合作或竞争进行建模,而只是将其他实体视为可能导致非平稳性问题的环境的一部分。多机构增强学习(MARL)允许每个网络实体不仅观察环境,还可以观察其他实体的政策来学习其最佳政策。结果,MAL可以显着提高网络实体的学习效率,并且最近已用于解决新兴网络中的各种问题。在本文中,我们因此回顾了MAL在新兴网络中的应用。特别是,我们提供了MARL的教程,以及对MARL在下一代互联网中的应用进行全面调查。特别是,我们首先介绍单代机Agent RL和MARL。然后,我们回顾了MAL在未来互联网中解决新兴问题的许多应用程序。这些问题包括网络访问,传输电源控制,计算卸载,内容缓存,数据包路由,无人机网络的轨迹设计以及网络安全问题。
translated by 谷歌翻译
由于信息不对称,多智能经纪增强学习(Marl)问题是挑战。为了克服这一挑战,现有方法通常需要代理商之间的高度协调或沟通。我们考虑具有在应用中产生的分层信息结构的两个代理多武装匪徒(MAB)和MARKOV决策过程(MDP),我们利用不需要协调或通信的更简单和更高效的算法。在结构中,在每个步骤中,“领导者”首先选择她的行动,然后“追随者”在观察领导者的行动后,“追随者”决定他的行动。这两个代理观察了相同的奖励(以及MDP设置中的相同状态转换),这取决于其联合行动。对于强盗设置,我们提出了一种分层匪盗算法,实现了$ \ widetilde {\ mathcal {o}}(\ sqrt {abt})$和近最佳差距依赖的近乎最佳的差距遗憾$ \ mathcal {o}(\ log(t))$,其中$ a $和$ b $分别是领导者和追随者的行动数,$ t $是步数。我们进一步延伸到多个追随者的情况,并且具有深层层次结构的情况,在那里我们都获得了近乎最佳的遗憾范围。对于MDP设置,我们获得$ \ widetilde {\ mathcal {o}}(\ sqrt {h ^ 7s ^ 2abt})$后悔,其中$ h $是每集的步骤数,$ s $是数量各国,$ T $是剧集的数量。这与$ a,b $和$ t $的现有下限匹配。
translated by 谷歌翻译
躁动不安的多臂土匪(RMAB)是一种恰当的模型,可以代表公共卫生干预措施(例如结核病,母性和儿童保育),反偷猎计划,传感器监测,个性化建议等方面的决策问题。 RMAB的现有研究为各种环境提供了机制和理论结果,其中重点是最大化期望值。在本文中,我们有兴趣确保RMAB决策对不同的武器也很公平,同时最大化了预期价值。在公共卫生环境的背景下,这将确保在做出公共卫生干预决策时公平地代表不同的人和/或社区。为了实现这一目标,我们正式定义了RMAB中的公平限制,并提供计划和学习方法以公平的方式解决RMAB。我们证明了公平RMAB的关键理论特性,并在实验上证明了我们所提出的方法处理公平限制,而无需在溶液质量上显着牺牲。
translated by 谷歌翻译
大多数在线平台都在努力从与用户的互动中学习,许多人从事探索:为了获取新信息而做出潜在的次优选择。我们研究探索与竞争之间的相互作用:这样的平台如何平衡学习探索和用户的竞争。在这里,用户扮演三个不同的角色:他们是产生收入的客户,他们是学习的数据来源,并且是自私的代理商,可以在竞争平台中进行选择。我们考虑了一种风格化的双重垄断模型,其中两家公司面临着相同的多军强盗问题。用户一一到达,并在两家公司之间进行选择,因此,只有在选择它的情况下,每个公司都在其强盗问题上取得进展。通过理论结果和数值模拟的混合,我们研究了竞争是否会激发更好的Bandit算法的采用,以及它是否导致用户增加福利。我们发现,Stark竞争会导致公司致力于导致低福利的“贪婪”强盗算法。但是,通过向公司提供一些“免费”用户来激励更好的探索策略并增加福利来削弱竞争。我们调查了削弱竞争的两个渠道:放松用户的理性并为一家公司带来首次推广优势。我们的发现与“竞争与创新”关系密切相关,并阐明了数字经济中的第一步优势。
translated by 谷歌翻译
当代理偏好未知的先验时,我们研究了在共享资源的稀缺时决策的问题问题,并且必须从数据中学到。将双面匹配市场作为一个跑步的例子,我们专注于分散的环境,代理商不会与中央权威分享他们的学习偏好。我们的方法基于再生内核希尔伯特空间中的偏好的表示,以及偏好的学习算法,其由于市场代理商之间的竞争而占不确定性的偏好。在规律性条件下,我们表明我们的偏好估算器以极少的最佳速率收敛。考虑到这一结果,我们推出了最佳策略,最大化代理商的预期收益,我们通过考虑机会成本来校准不确定的状态。我们还获得了激励兼容性属性,并表明学习策略的结果具有稳定性。最后,我们证明了一个公平性质,称赞根据学到的策略存在没有合理的嫉妒。
translated by 谷歌翻译
在线分配资源限制问题具有丰富的运营研究历史记录。在本文中,我们介绍了\ emph {正常的在线分配问题},该变体包括用于总资源消耗的非线性规范器。在此问题中,请求多次到达,对于每个请求,决策者需要采取生成奖励和消耗资源的操作。目的是同时最大化可分离可分离的奖励和受资源限制的不可分级规范器的值。我们的主要动机是允许决策者履行可分离目标,例如与辅助,不可分配的目标的经济效率,例如分配的公平或公平。我们设计了一种简单,快速,并且具有随机I.I.D的良好性能的算法。〜和对抗的投入。特别是,我们的算法在随机I.I.D下渐近最佳。输入模型并达到固定的竞争比率,当输入是对越野的时,取决于常规管道。此外,算法和分析不需要贡献函数和消耗函数的凸起或凹面,这允许更多的模型灵活性。数值实验证实了算法在互联网广告应用中的算法和正则化的有效性。
translated by 谷歌翻译