我们考虑多用户无线网络中的资源管理问题,可以将其视为优化网络范围的公用事业功能,这受到整个网络用户长期平均性能的限制。我们提出了一种以国家功能为算法来解决上述无线电资源管理(RRM)问题的算法,在此问题中,与瞬时网络状态相同,RRM策略将其作为输入的双重变量集,这些变量对应于约束,这些变量取决于多少,这些变量取决于多少,这些变量取决于多少。执行过程中违反约束。从理论上讲,我们表明,拟议的国有算法会导致可行且近乎最佳的RRM决策。此外,着重于使用图神经网络(GNN)参数化的无线功率控制问题,我们证明了所提出的RRM算法优于基线方法的优越性,跨基线方法。
translated by 谷歌翻译
We consider a radio resource management (RRM) problem in a multi-user wireless network, where the goal is to optimize a network-wide utility function subject to constraints on the ergodic average performance of users. We propose a state-augmented parameterization for the RRM policy, where alongside the instantaneous network states, the RRM policy takes as input the set of dual variables corresponding to the constraints. We provide theoretical justification for the feasibility and near-optimality of the RRM decisions generated by the proposed state-augmented algorithm. Focusing on the power allocation problem with RRM policies parameterized by a graph neural network (GNN) and dual variables sampled from the dual descent dynamics, we numerically demonstrate that the proposed approach achieves a superior trade-off between mean, minimum, and 5th percentile rates than baseline methods.
translated by 谷歌翻译
该工作研究限制了随机函数是凸的,并表示为随机函数的组成。问题是在公平分类,公平回归和排队系统设计的背景下出现的。特别令人感兴趣的是甲骨文提供组成函数的随机梯度的大规模设置,目标是用最小对Oracle的调用来解决问题。由于组成形式,Oracle提供的随机梯度不会产生目标或约束梯度的无偏估计。取而代之的是,我们通过跟踪内部函数评估来构建近似梯度,从而导致准差鞍点算法。我们证明,所提出的算法几乎可以肯定地找到最佳和可行的解决方案。我们进一步确定所提出的算法需要$ \ MATHCAL {O}(1/\ EPSILON^4)$数据样本,以便获得$ \ epsilon $ -Approximate-approximate-apptroximate Pointal点,同时也确保零约束违反。该结果与无约束问题的随机成分梯度下降方法的样品复杂性相匹配,并改善了受约束设置的最著名样品复杂性结果。在公平分类和公平回归问题上测试了所提出的算法的功效。数值结果表明,根据收敛速率,所提出的算法优于最新算法。
translated by 谷歌翻译
随机图神经网络(SGNN)是信息处理体系结构,可从随机图中学习表示表示。 SGNN受到预期性能的培训,这不能保证围绕最佳期望的特定输出实现的偏差。为了克服这个问题,我们为SGNN提出了一个方差约束优化问题,平衡了预期的性能和随机偏差。通过使用梯度下降和梯度上升的双变量更新SGNN参数,进行了交替的原始双偶学习过程,该过程通过更新SGNN参数来解决问题。为了表征方差约束学习的明确效应,我们对SGNN输出方差进行理论分析,并确定随机鲁棒性和歧视能力之间的权衡。我们进一步分析了方差约束优化问题的二元性差距以及原始双重学习过程的融合行为。前者表示双重变换引起的最优性损失,后者是迭代算法的限制误差,这两者都保证了方差约束学习的性能。通过数值模拟,我们证实了我们的理论发现,并观察到具有可控标准偏差的强劲预期性能。
translated by 谷歌翻译
Deep learning-based approaches have been developed to solve challenging problems in wireless communications, leading to promising results. Early attempts adopted neural network architectures inherited from applications such as computer vision. They often yield poor performance in large scale networks (i.e., poor scalability) and unseen network settings (i.e., poor generalization). To resolve these issues, graph neural networks (GNNs) have been recently adopted, as they can effectively exploit the domain knowledge, i.e., the graph topology in wireless communications problems. GNN-based methods can achieve near-optimal performance in large-scale networks and generalize well under different system settings, but the theoretical underpinnings and design guidelines remain elusive, which may hinder their practical implementations. This paper endeavors to fill both the theoretical and practical gaps. For theoretical guarantees, we prove that GNNs achieve near-optimal performance in wireless networks with much fewer training samples than traditional neural architectures. Specifically, to solve an optimization problem on an $n$-node graph (where the nodes may represent users, base stations, or antennas), GNNs' generalization error and required number of training samples are $\mathcal{O}(n)$ and $\mathcal{O}(n^2)$ times lower than the unstructured multi-layer perceptrons. For design guidelines, we propose a unified framework that is applicable to general design problems in wireless networks, which includes graph modeling, neural architecture design, and theory-guided performance enhancement. Extensive simulations, which cover a variety of important problems and network settings, verify our theory and the effectiveness of the proposed design framework.
translated by 谷歌翻译
在本文中,我们研究了加强学习问题的安全政策的学习。这是,我们的目标是控制我们不知道过渡概率的马尔可夫决策过程(MDP),但我们通过经验访问样品轨迹。我们将安全性定义为在操作时间内具有高概率的期望安全集中的代理。因此,我们考虑受限制的MDP,其中限制是概率。由于没有直接的方式来优化关于加强学习框架中的概率约束的政策,因此我们提出了对问题的遍历松弛。拟议的放松的优点是三倍。 (i)安全保障在集界任务的情况下保持,并且它们保持在一个给定的时间范围内,以继续进行任务。 (ii)如果政策的参数化足够丰富,则约束优化问题尽管其非凸起具有任意小的二元间隙。 (iii)可以使用标准策略梯度结果和随机近似工具容易地计算与安全学习问题相关的拉格朗日的梯度。利用这些优势,我们建立了原始双算法能够找到安全和最佳的政策。我们在连续域中的导航任务中测试所提出的方法。数值结果表明,我们的算法能够将策略动态调整到环境和所需的安全水平。
translated by 谷歌翻译
由于处理非covex公式的能力,深入研究深度学习(DL)技术以优化多用户多输入单输出(MU-MISO)下行链接系统。但是,现有的深神经网络(DNN)的固定计算结构在系统大小(即天线或用户的数量)方面缺乏灵活性。本文开发了一个双方图神经网络(BGNN)框架,这是一种可扩展的DL溶液,旨在多端纳纳波束形成优化。首先,MU-MISO系统以两分图为特征,其中两个不相交的顶点集(由传输天线和用户组成)通过成对边缘连接。这些顶点互连状态是通过通道褪色系数建模的。因此,将通用的光束优化过程解释为重量双分图上的计算任务。这种方法将波束成型的优化过程分为多个用于单个天线顶点和用户顶点的子操作。分离的顶点操作导致可扩展的光束成型计算,这些计算不变到系统大小。顶点操作是由一组DNN模块实现的,这些DNN模块共同构成了BGNN体系结构。在所有天线和用户中都重复使用相同的DNN,以使所得的学习结构变得灵活地适合网络大小。 BGNN的组件DNN在许多具有随机变化的网络尺寸的MU-MISO配置上进行了训练。结果,训练有素的BGNN可以普遍应用于任意的MU-MISO系统。数值结果验证了BGNN框架比常规方法的优势。
translated by 谷歌翻译
尽管学习已成为现代信息处理的核心组成部分,但现在有足够的证据表明它可以导致偏见,不安全和有偏见的系统。因此,对学习要求施加要求至关重要,尤其是在达到社会,工业和医疗领域的关键应用程序时。但是,大多数现代统计问题的非跨性别性只有通过限制引入而加剧。尽管通常可以使用经验风险最小化来学习良好的无约束解决方案,即使获得满足统计约束的模型也可能具有挑战性。更重要的是,一个好。在本文中,我们通过在经验双重领域中学习来克服这个问题,在经验的双重领域中,统计学上的统计学习问题变得不受限制和确定性。我们通过界定经验二元性差距来分析这种方法的概括特性 - 即,我们的近似,可拖动解决方案与原始(非凸)统计问题的解决方案之间的差异 - 并提供实用的约束学习算法。这些结果建立了与经典学习理论的约束,从而可以明确地在学习中使用约束。我们说明了这种理论和算法受到速率受限的学习应用,这是在公平和对抗性鲁棒性中产生的。
translated by 谷歌翻译
这项工作将重新审视关节波束形成(BF)和天线选择(AS)问题,以及其在不完美的通道状态信息(CSI)下的稳健光束成型(RBF)版本。在射频链的数量(RF)链的数量小于发射器上的天线元件的情况下,出现了此类问题,这已成为大型阵列时代的关键考虑。关节(r)bf \&作为问题是一个混合整数和非线性程序,因此发现{\ it最佳解决方案}通常是昂贵的,即使不是完全不可能。绝大多数先前的作品都使用基于连续优化的近似来解决这些问题 - 但是这些近似不能确保解决方案的最佳性甚至可行性。这项工作的主要贡献是三倍。首先,提出了一个有效的{\ it分支和绑定}(b \&b)解决感兴趣问题的框架。利用现有的BF和RBF求解器,表明B \&B框架保证了所考虑的问题的全球最优性。其次,为了加快潜在昂贵的B \&B算法,提出了一种基于机器学习(ML)的方案,以帮助跳过B \&B搜索树的中间状态。学习模型具有{\ it图形神经网络}(GNN)的设计,该设计对无线通信中通常遇到的挑战有抵抗力,即,培训和测试中问题大小的变化(例如,用户数量)的变化(例如,用户数量)阶段。第三,提出了全面的性能特征,表明基于GNN的方法在合理的条件下保留了B \&B的全球最佳性,其复杂性可降低。数值模拟还表明,基于ML的加速度通常可以相对于B \&b实现速度的速度。
translated by 谷歌翻译
我们研究在线学习问题,决策者必须采取一系列决策,但要受到$ M $长期约束。决策者的目标是最大程度地提高其总奖励,同时达到小累积约束,在$ t $回合中违规。我们介绍了此一般类问题的第一个最佳世界类型算法,在根据未知随机模型选择奖励和约束的情况下,无需保证,在它们的情况下,在他们的情况下选择了奖励和约束。在每个回合中由对手选择。我们的算法是关于满足长期约束的最佳固定策略的第一个在对抗环境中提供保证的算法。特别是,它保证了$ \ rho/(1+ \ rho)$的最佳奖励和额定性遗憾,其中$ \ rho $是与严格可行的解决方案有关的可行性参数。我们的框架采用传统的遗憾最小化器作为黑盒组件。因此,通过使用适当的遗憾最小化器进行实例化,它可以处理全反馈以及强盗反馈设置。此外,它允许决策者通过非凸奖励和约束无缝处理场景。我们展示了如何在重复拍卖的预算管理机制的背景下应用我们的框架,以保证不包装的长期约束(例如,ROI约束)。
translated by 谷歌翻译
In many sequential decision-making problems one is interested in minimizing an expected cumulative cost while taking into account risk, i.e., increased awareness of events of small probability and high consequences. Accordingly, the objective of this paper is to present efficient reinforcement learning algorithms for risk-constrained Markov decision processes (MDPs), where risk is represented via a chance constraint or a constraint on the conditional value-at-risk (CVaR) of the cumulative cost. We collectively refer to such problems as percentile risk-constrained MDPs. Specifically, we first derive a formula for computing the gradient of the Lagrangian function for percentile riskconstrained MDPs. Then, we devise policy gradient and actor-critic algorithms that (1) estimate such gradient, (2) update the policy in the descent direction, and (3) update the Lagrange multiplier in the ascent direction. For these algorithms we prove convergence to locally optimal policies. Finally, we demonstrate the effectiveness of our algorithms in an optimal stopping problem and an online marketing application.
translated by 谷歌翻译
我们考虑一个多代理网络,其中每个节点具有随机(本地)成本函数,这取决于该节点的决策变量和随机变量,并且进一步的相邻节点的判定变量是成对受约束的。网络具有总体目标函数,其在节点处的本地成本函数的预期值ack,以及网络的总体目标是将该聚合目标函数的最小化解决方案最小化为所有成对约束。这将在节点级别使用分散的信息和本地计算来实现,其中仅具有相邻节点允许的压缩信息的交换。该文件开发算法,并在节点上获得两个不同型号的本地信息可用性模型的性能界限:(i)样本反馈,其中每个节点可以直接访问局部随机变量的样本,以评估其本地成本,(ii)babrit反馈,其中无随机变量的样本不可用,但只有每个节点可用的两个随机点处的本地成本函数的值可用。对于两种模型,具有邻居之间的压缩通信,我们开发了分散的骑马点算法,从没有通信压缩的那些没有不同(符号意义)的表现;具体而言,我们表明,与全局最小值和违反约束的偏差是由$ \ mathcal {o}的大约限制(t ^ { - \ frac {1} {2}})$和$ \ mathcal {o} (t ^ { - \ frac {1} {4}})分别为$ t $是迭代次数。本文中提供的数值例子证实了这些界限并证明了所提出的方法的通信效率。
translated by 谷歌翻译
我们提出了一种数据驱动的电力分配方法,在联邦学习(FL)上的受干扰有限的无线网络中的电力分配。功率策略旨在在通信约束下的流行过程中最大化传输的信息,具有提高全局流动模型的训练精度和效率的最终目标。所提出的功率分配策略使用图形卷积网络进行参数化,并且通过引流 - 双算法解决了相关的约束优化问题。数值实验表明,所提出的方法在传输成功率和流动性能方面优于三种基线方法。
translated by 谷歌翻译
我们研究了在线上下文决策问题,并具有资源约束。在每个时间段,决策者首先根据给定上下文向量预测奖励向量和资源消耗矩阵,然后解决下游优化问题以做出决策。决策者的最终目标是最大程度地利用资源消耗的奖励和效用总结,同时满足资源限制。我们提出了一种算法,该算法将基于“智能预测 - 优化(SPO)”方法的预测步骤与基于镜像下降的双重更新步骤。我们证明了遗憾的界限,并证明了我们方法的总体收敛率取决于$ \ Mathcal {o}(t^{ - 1/2})$在线镜面下降的收敛性以及使用的替代损失功能的风险范围学习预测模型。我们的算法和后悔界限适用于资源约束的一般凸的可行区域,包括硬和软资源约束案例,它们适用于广泛的预测模型,与线性上下文模型或有限策略空间的传统设置相比。我们还进行数值实验,以与传统的仅限预测方法相比,在多维背包和最长的路径实例上,与传统的仅预测方法相比,我们提出的SPO型方法的强度。
translated by 谷歌翻译
资源限制的在线分配问题是收入管理和在线广告中的核心问题。在这些问题中,请求在有限的地平线期间顺序到达,对于每个请求,决策者需要选择消耗一定数量资源并生成奖励的动作。目标是最大限度地提高累计奖励,这是对资源总消费的限制。在本文中,我们考虑一种数据驱动的设置,其中使用决策者未知的输入模型生成每个请求的奖励和资源消耗。我们设计了一般的算法算法,可以在各种输入模型中实现良好的性能,而不知道它们面临的类型类型。特别是,我们的算法在独立和相同的分布式输入以及各种非静止随机输入模型下是渐近的最佳选择,并且当输入是对抗性时,它们达到渐近最佳的固定竞争比率。我们的算法在Lagrangian双色空间中运行:它们为使用在线镜像血管更新的每个资源维护双倍乘数。通过相应地选择参考功能,我们恢复双梯度下降和双乘法权重更新算法。与现有的在线分配问题的现有方法相比,所产生的算法简单,快速,不需要在收入函数,消费函数和动作空间中凸起。我们将应用程序讨论到网络收入管理,在线竞标,重复拍卖,预算限制,与高熵的在线比例匹配,以及具有有限库存的个性化分类优化。
translated by 谷歌翻译
随机成分优化(SCO)引起了人们的关注,因为它在重要的现实问题上的广泛适用性。但是,SCO上的现有作品假设解决方案更新中的投影很简单,对于以期望形式的约束(例如经验性的条件价值危险约束),该预测无法保留。我们研究了一个新型模型,该模型将单层期望值和两级组成约束结合到当前的SCO框架中。我们的模型可以广泛应用于数据驱动的优化和风险管理,包括规避风险的优化和高音阶组合选择,并可以处理多个约束。我们进一步提出了一类Primal-Dual算法,该算法以$ \ co(\ frac {1} {\ sqrt {n}} $的速率生成序列,以$ \ co(\ frac {1}级别组成约束,其中$ n $是迭代计数器,在预期值约束的SCO中建立基准。
translated by 谷歌翻译
在线分配资源限制问题具有丰富的运营研究历史记录。在本文中,我们介绍了\ emph {正常的在线分配问题},该变体包括用于总资源消耗的非线性规范器。在此问题中,请求多次到达,对于每个请求,决策者需要采取生成奖励和消耗资源的操作。目的是同时最大化可分离可分离的奖励和受资源限制的不可分级规范器的值。我们的主要动机是允许决策者履行可分离目标,例如与辅助,不可分配的目标的经济效率,例如分配的公平或公平。我们设计了一种简单,快速,并且具有随机I.I.D的良好性能的算法。〜和对抗的投入。特别是,我们的算法在随机I.I.D下渐近最佳。输入模型并达到固定的竞争比率,当输入是对越野的时,取决于常规管道。此外,算法和分析不需要贡献函数和消耗函数的凸起或凹面,这允许更多的模型灵活性。数值实验证实了算法在互联网广告应用中的算法和正则化的有效性。
translated by 谷歌翻译
在本文中,我们研究了一类二聚体优化问题,也称为简单的双重优化,在其中,我们将光滑的目标函数最小化,而不是另一个凸的约束优化问题的最佳解决方案集。已经开发了几种解决此类问题的迭代方法。 las,它们的收敛保证并不令人满意,因为它们要么渐近,要么渐近,要么是收敛速度缓慢且最佳的。为了解决这个问题,在本文中,我们介绍了Frank-Wolfe(FW)方法的概括,以解决考虑的问题。我们方法的主要思想是通过切割平面在局部近似低级问题的解决方案集,然后运行FW型更新以减少上层目标。当上层目标是凸面时,我们表明我们的方法需要$ {\ mathcal {o}}(\ max \ {1/\ epsilon_f,1/\ epsilon_g \})$迭代才能找到$ \ \ \ \ \ \ epsilon_f $ - 最佳目标目标和$ \ epsilon_g $ - 最佳目标目标。此外,当高级目标是非convex时,我们的方法需要$ {\ MATHCAL {o}}(\ max \ {1/\ epsilon_f^2,1/(\ epsilon_f \ epsilon_g})查找$(\ epsilon_f,\ epsilon_g)$ - 最佳解决方案。我们进一步证明了在“较低级别问题的老年人错误约束假设”下的更强的融合保证。据我们所知,我们的方法实现了所考虑的二聚体问题的最著名的迭代复杂性。我们还向数值实验提出了数值实验。与最先进的方法相比,展示了我们方法的出色性能。
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
在Fisher市场中,代理商(用户)花费(人造)货币预算来购买最大化其公用事业的商品,而中央规划师则将其设定为容量约束的商品,以便市场清算。但是,定价方案在Fisher市场实现平衡结果方面的功效通常取决于用户的预算和公用事业的完全了解,并且要求交易在同时存在所有用户的静态市场中发生。结果,我们研究了Fisher市场的在线变体,其中有私人公用事业和预算参数的预算受限用户,绘制了I.I.D.从分配$ \ Mathcal {d} $,顺序输入市场。在这种情况下,我们开发了一种仅根据用户消费的观察结果来调整价格的算法用户数量和良好的能力量表为$ O(n)$。在这里,我们的遗憾措施是在线算法和离线甲骨文之间的艾森伯格 - 盖尔计划目标的最佳差距,并提供有关用户预算和公用事业的完整信息。为了确定我们方法的功效,我们证明了任何统一(静态)定价算法,包括设定预期平衡价格并完全了解分销$ \ MATHCAL {D} $的算法,既无法实现遗憾和限制的违反比$ \ omega(\ sqrt {n})$。虽然我们揭示的偏好算法不需要对分布$ \ MATHCAL {d} $不了解,但我们表明,如果$ \ Mathcal {d} $是已知的,则是预期的平衡定价Achieves $ O(\ log(\ log(n))的自适应变体)$遗憾和离散分发的恒定容量违反。最后,我们提出了数值实验,以证明相对于几个基准测试的揭示偏好算法的性能。
translated by 谷歌翻译