我们考虑多用户无线网络中的资源管理问题,可以将其视为优化网络范围的公用事业功能,这受到整个网络用户长期平均性能的限制。我们提出了一种以国家功能为算法来解决上述无线电资源管理(RRM)问题的算法,在此问题中,与瞬时网络状态相同,RRM策略将其作为输入的双重变量集,这些变量对应于约束,这些变量取决于多少,这些变量取决于多少,这些变量取决于多少。执行过程中违反约束。从理论上讲,我们表明,拟议的国有算法会导致可行且近乎最佳的RRM决策。此外,着重于使用图神经网络(GNN)参数化的无线功率控制问题,我们证明了所提出的RRM算法优于基线方法的优越性,跨基线方法。
translated by 谷歌翻译
随机图神经网络(SGNN)是信息处理体系结构,可从随机图中学习表示表示。 SGNN受到预期性能的培训,这不能保证围绕最佳期望的特定输出实现的偏差。为了克服这个问题,我们为SGNN提出了一个方差约束优化问题,平衡了预期的性能和随机偏差。通过使用梯度下降和梯度上升的双变量更新SGNN参数,进行了交替的原始双偶学习过程,该过程通过更新SGNN参数来解决问题。为了表征方差约束学习的明确效应,我们对SGNN输出方差进行理论分析,并确定随机鲁棒性和歧视能力之间的权衡。我们进一步分析了方差约束优化问题的二元性差距以及原始双重学习过程的融合行为。前者表示双重变换引起的最优性损失,后者是迭代算法的限制误差,这两者都保证了方差约束学习的性能。通过数值模拟,我们证实了我们的理论发现,并观察到具有可控标准偏差的强劲预期性能。
translated by 谷歌翻译
该工作研究限制了随机函数是凸的,并表示为随机函数的组成。问题是在公平分类,公平回归和排队系统设计的背景下出现的。特别令人感兴趣的是甲骨文提供组成函数的随机梯度的大规模设置,目标是用最小对Oracle的调用来解决问题。由于组成形式,Oracle提供的随机梯度不会产生目标或约束梯度的无偏估计。取而代之的是,我们通过跟踪内部函数评估来构建近似梯度,从而导致准差鞍点算法。我们证明,所提出的算法几乎可以肯定地找到最佳和可行的解决方案。我们进一步确定所提出的算法需要$ \ MATHCAL {O}(1/\ EPSILON^4)$数据样本,以便获得$ \ epsilon $ -Approximate-approximate-apptroximate Pointal点,同时也确保零约束违反。该结果与无约束问题的随机成分梯度下降方法的样品复杂性相匹配,并改善了受约束设置的最著名样品复杂性结果。在公平分类和公平回归问题上测试了所提出的算法的功效。数值结果表明,根据收敛速率,所提出的算法优于最新算法。
translated by 谷歌翻译
在本文中,我们研究了加强学习问题的安全政策的学习。这是,我们的目标是控制我们不知道过渡概率的马尔可夫决策过程(MDP),但我们通过经验访问样品轨迹。我们将安全性定义为在操作时间内具有高概率的期望安全集中的代理。因此,我们考虑受限制的MDP,其中限制是概率。由于没有直接的方式来优化关于加强学习框架中的概率约束的政策,因此我们提出了对问题的遍历松弛。拟议的放松的优点是三倍。 (i)安全保障在集界任务的情况下保持,并且它们保持在一个给定的时间范围内,以继续进行任务。 (ii)如果政策的参数化足够丰富,则约束优化问题尽管其非凸起具有任意小的二元间隙。 (iii)可以使用标准策略梯度结果和随机近似工具容易地计算与安全学习问题相关的拉格朗日的梯度。利用这些优势,我们建立了原始双算法能够找到安全和最佳的政策。我们在连续域中的导航任务中测试所提出的方法。数值结果表明,我们的算法能够将策略动态调整到环境和所需的安全水平。
translated by 谷歌翻译
由于处理非covex公式的能力,深入研究深度学习(DL)技术以优化多用户多输入单输出(MU-MISO)下行链接系统。但是,现有的深神经网络(DNN)的固定计算结构在系统大小(即天线或用户的数量)方面缺乏灵活性。本文开发了一个双方图神经网络(BGNN)框架,这是一种可扩展的DL溶液,旨在多端纳纳波束形成优化。首先,MU-MISO系统以两分图为特征,其中两个不相交的顶点集(由传输天线和用户组成)通过成对边缘连接。这些顶点互连状态是通过通道褪色系数建模的。因此,将通用的光束优化过程解释为重量双分图上的计算任务。这种方法将波束成型的优化过程分为多个用于单个天线顶点和用户顶点的子操作。分离的顶点操作导致可扩展的光束成型计算,这些计算不变到系统大小。顶点操作是由一组DNN模块实现的,这些DNN模块共同构成了BGNN体系结构。在所有天线和用户中都重复使用相同的DNN,以使所得的学习结构变得灵活地适合网络大小。 BGNN的组件DNN在许多具有随机变化的网络尺寸的MU-MISO配置上进行了训练。结果,训练有素的BGNN可以普遍应用于任意的MU-MISO系统。数值结果验证了BGNN框架比常规方法的优势。
translated by 谷歌翻译
尽管学习已成为现代信息处理的核心组成部分,但现在有足够的证据表明它可以导致偏见,不安全和有偏见的系统。因此,对学习要求施加要求至关重要,尤其是在达到社会,工业和医疗领域的关键应用程序时。但是,大多数现代统计问题的非跨性别性只有通过限制引入而加剧。尽管通常可以使用经验风险最小化来学习良好的无约束解决方案,即使获得满足统计约束的模型也可能具有挑战性。更重要的是,一个好。在本文中,我们通过在经验双重领域中学习来克服这个问题,在经验的双重领域中,统计学上的统计学习问题变得不受限制和确定性。我们通过界定经验二元性差距来分析这种方法的概括特性 - 即,我们的近似,可拖动解决方案与原始(非凸)统计问题的解决方案之间的差异 - 并提供实用的约束学习算法。这些结果建立了与经典学习理论的约束,从而可以明确地在学习中使用约束。我们说明了这种理论和算法受到速率受限的学习应用,这是在公平和对抗性鲁棒性中产生的。
translated by 谷歌翻译
我们提出了一种数据驱动的电力分配方法,在联邦学习(FL)上的受干扰有限的无线网络中的电力分配。功率策略旨在在通信约束下的流行过程中最大化传输的信息,具有提高全局流动模型的训练精度和效率的最终目标。所提出的功率分配策略使用图形卷积网络进行参数化,并且通过引流 - 双算法解决了相关的约束优化问题。数值实验表明,所提出的方法在传输成功率和流动性能方面优于三种基线方法。
translated by 谷歌翻译
我们考虑一个多代理网络,其中每个节点具有随机(本地)成本函数,这取决于该节点的决策变量和随机变量,并且进一步的相邻节点的判定变量是成对受约束的。网络具有总体目标函数,其在节点处的本地成本函数的预期值ack,以及网络的总体目标是将该聚合目标函数的最小化解决方案最小化为所有成对约束。这将在节点级别使用分散的信息和本地计算来实现,其中仅具有相邻节点允许的压缩信息的交换。该文件开发算法,并在节点上获得两个不同型号的本地信息可用性模型的性能界限:(i)样本反馈,其中每个节点可以直接访问局部随机变量的样本,以评估其本地成本,(ii)babrit反馈,其中无随机变量的样本不可用,但只有每个节点可用的两个随机点处的本地成本函数的值可用。对于两种模型,具有邻居之间的压缩通信,我们开发了分散的骑马点算法,从没有通信压缩的那些没有不同(符号意义)的表现;具体而言,我们表明,与全局最小值和违反约束的偏差是由$ \ mathcal {o}的大约限制(t ^ { - \ frac {1} {2}})$和$ \ mathcal {o} (t ^ { - \ frac {1} {4}})分别为$ t $是迭代次数。本文中提供的数值例子证实了这些界限并证明了所提出的方法的通信效率。
translated by 谷歌翻译
这项工作将重新审视关节波束形成(BF)和天线选择(AS)问题,以及其在不完美的通道状态信息(CSI)下的稳健光束成型(RBF)版本。在射频链的数量(RF)链的数量小于发射器上的天线元件的情况下,出现了此类问题,这已成为大型阵列时代的关键考虑。关节(r)bf \&作为问题是一个混合整数和非线性程序,因此发现{\ it最佳解决方案}通常是昂贵的,即使不是完全不可能。绝大多数先前的作品都使用基于连续优化的近似来解决这些问题 - 但是这些近似不能确保解决方案的最佳性甚至可行性。这项工作的主要贡献是三倍。首先,提出了一个有效的{\ it分支和绑定}(b \&b)解决感兴趣问题的框架。利用现有的BF和RBF求解器,表明B \&B框架保证了所考虑的问题的全球最优性。其次,为了加快潜在昂贵的B \&B算法,提出了一种基于机器学习(ML)的方案,以帮助跳过B \&B搜索树的中间状态。学习模型具有{\ it图形神经网络}(GNN)的设计,该设计对无线通信中通常遇到的挑战有抵抗力,即,培训和测试中问题大小的变化(例如,用户数量)的变化(例如,用户数量)阶段。第三,提出了全面的性能特征,表明基于GNN的方法在合理的条件下保留了B \&B的全球最佳性,其复杂性可降低。数值模拟还表明,基于ML的加速度通常可以相对于B \&b实现速度的速度。
translated by 谷歌翻译
In many sequential decision-making problems one is interested in minimizing an expected cumulative cost while taking into account risk, i.e., increased awareness of events of small probability and high consequences. Accordingly, the objective of this paper is to present efficient reinforcement learning algorithms for risk-constrained Markov decision processes (MDPs), where risk is represented via a chance constraint or a constraint on the conditional value-at-risk (CVaR) of the cumulative cost. We collectively refer to such problems as percentile risk-constrained MDPs. Specifically, we first derive a formula for computing the gradient of the Lagrangian function for percentile riskconstrained MDPs. Then, we devise policy gradient and actor-critic algorithms that (1) estimate such gradient, (2) update the policy in the descent direction, and (3) update the Lagrange multiplier in the ascent direction. For these algorithms we prove convergence to locally optimal policies. Finally, we demonstrate the effectiveness of our algorithms in an optimal stopping problem and an online marketing application.
translated by 谷歌翻译
在本文中,我们旨在改善干扰限制的无线网络中超级可靠性和低延迟通信(URLLC)的服务质量(QoS)。为了在通道连贯性时间内获得时间多样性,我们首先提出了一个随机重复方案,该方案随机将干扰能力随机。然后,我们优化了每个数据包的保留插槽数量和重复数量,以最大程度地减少QoS违规概率,该概率定义为无法实现URLLC的用户百分比。我们构建了一个级联的随机边缘图神经网络(REGNN),以表示重复方案并开发一种无模型的无监督学习方法来训练它。我们在对称场景中使用随机几何形状分析了QoS违规概率,并应用基于模型的详尽搜索(ES)方法来找到最佳解决方案。仿真结果表明,在对称方案中,通过模型学习方法和基于模型的ES方法实现的QoS违规概率几乎相同。在更一般的情况下,级联的Regnn在具有不同尺度,网络拓扑,细胞密度和频率重复使用因子的无线网络中很好地概括了。在模型不匹配的情况下,它的表现优于基于模型的ES方法。
translated by 谷歌翻译
我们研究在线学习问题,决策者必须采取一系列决策,但要受到$ M $长期约束。决策者的目标是最大程度地提高其总奖励,同时达到小累积约束,在$ t $回合中违规。我们介绍了此一般类问题的第一个最佳世界类型算法,在根据未知随机模型选择奖励和约束的情况下,无需保证,在它们的情况下,在他们的情况下选择了奖励和约束。在每个回合中由对手选择。我们的算法是关于满足长期约束的最佳固定策略的第一个在对抗环境中提供保证的算法。特别是,它保证了$ \ rho/(1+ \ rho)$的最佳奖励和额定性遗憾,其中$ \ rho $是与严格可行的解决方案有关的可行性参数。我们的框架采用传统的遗憾最小化器作为黑盒组件。因此,通过使用适当的遗憾最小化器进行实例化,它可以处理全反馈以及强盗反馈设置。此外,它允许决策者通过非凸奖励和约束无缝处理场景。我们展示了如何在重复拍卖的预算管理机制的背景下应用我们的框架,以保证不包装的长期约束(例如,ROI约束)。
translated by 谷歌翻译
机器学习在解决无线干扰管理问题方面取得了成功。已经培训了不同种类的深神经网络(DNN),以完成功率控制,波束成形和准入控制等关键任务。基于DNNS的干扰管理模型有两个流行的培训范式:监督学习(即,由优化算法产生的拟合标签)和无监督的学习(即,直接优化一些系统性能测量)。虽然这两种范式都在实践中广泛应用,但由于对这些方法缺乏任何理论理解,但目前尚不清楚如何系统地理解和比较他们的性能。在这项工作中,我们开展理论研究,为这两个训练范例提供了一些深入的了解。首先,我们展示了一些令人惊讶的结果,即对于一些特殊的功率控制问题,无监督的学习可以表现比监督对手更糟糕,因为它更有可能陷入一些低质量的本地解决方案。然后,我们提供了一系列理论结果,以进一步了解两种方法的性质。一般来说,我们表明,当有高质量的标签可用时,监督学习不太可能陷入解决方案,而不是无监督的对应物。此外,我们开发了一种半监督的学习方法,可以妥善整合这两个训练范例,可以有效地利用有限数量的标签来找到高质量的解决方案。为了我们的知识,这些是第一种在基于学习的无线通信系统设计中了解不同培训方法的第一组理论结果。
translated by 谷歌翻译
我们考虑一个一般的在线随机优化问题,在有限时间段的视野中具有多个预算限制。在每个时间段内,都会揭示奖励功能和多个成本功能,并且决策者需要从凸面和紧凑型措施中指定行动,以收集奖励并消耗预算。每个成本函数对应于一个预算的消费。在每个时期,奖励和成本函数都是从未知分布中得出的,该分布在整个时间内都是非平稳的。决策者的目的是最大化受预算限制的累积奖励。该配方捕获了广泛的应用程序,包括在线线性编程和网络收入管理等。在本文中,我们考虑了两个设置:(i)一个数据驱动的设置,其中真实分布未知,但可以提供先前的估计(可能不准确); (ii)一个不信息的环境,其中真实分布是完全未知的。我们提出了一项基于统一的浪费距离措施,以量化设置(i)中先验估计值的不准确性和设置(ii)中系统的非平稳性。我们表明,拟议的措施导致在两种情况下都能获得统一后悔的必要条件。对于设置(i),我们提出了一种新的算法,该算法采用了原始的偶视角,并将基础分布的先前信息集成到双重空间中的在线梯度下降过程。该算法也自然扩展到非信息设置(II)。在这两种设置下,我们显示相应的算法实现了最佳秩序的遗憾。在数值实验中,我们演示了如何将所提出的算法与重新溶解技术自然整合,以进一步提高经验性能。
translated by 谷歌翻译
在本文中,我们研究了一类二聚体优化问题,也称为简单的双重优化,在其中,我们将光滑的目标函数最小化,而不是另一个凸的约束优化问题的最佳解决方案集。已经开发了几种解决此类问题的迭代方法。 las,它们的收敛保证并不令人满意,因为它们要么渐近,要么渐近,要么是收敛速度缓慢且最佳的。为了解决这个问题,在本文中,我们介绍了Frank-Wolfe(FW)方法的概括,以解决考虑的问题。我们方法的主要思想是通过切割平面在局部近似低级问题的解决方案集,然后运行FW型更新以减少上层目标。当上层目标是凸面时,我们表明我们的方法需要$ {\ mathcal {o}}(\ max \ {1/\ epsilon_f,1/\ epsilon_g \})$迭代才能找到$ \ \ \ \ \ \ epsilon_f $ - 最佳目标目标和$ \ epsilon_g $ - 最佳目标目标。此外,当高级目标是非convex时,我们的方法需要$ {\ MATHCAL {o}}(\ max \ {1/\ epsilon_f^2,1/(\ epsilon_f \ epsilon_g})查找$(\ epsilon_f,\ epsilon_g)$ - 最佳解决方案。我们进一步证明了在“较低级别问题的老年人错误约束假设”下的更强的融合保证。据我们所知,我们的方法实现了所考虑的二聚体问题的最著名的迭代复杂性。我们还向数值实验提出了数值实验。与最先进的方法相比,展示了我们方法的出色性能。
translated by 谷歌翻译
随机成分优化(SCO)引起了人们的关注,因为它在重要的现实问题上的广泛适用性。但是,SCO上的现有作品假设解决方案更新中的投影很简单,对于以期望形式的约束(例如经验性的条件价值危险约束),该预测无法保留。我们研究了一个新型模型,该模型将单层期望值和两级组成约束结合到当前的SCO框架中。我们的模型可以广泛应用于数据驱动的优化和风险管理,包括规避风险的优化和高音阶组合选择,并可以处理多个约束。我们进一步提出了一类Primal-Dual算法,该算法以$ \ co(\ frac {1} {\ sqrt {n}} $的速率生成序列,以$ \ co(\ frac {1}级别组成约束,其中$ n $是迭代计数器,在预期值约束的SCO中建立基准。
translated by 谷歌翻译
我们研究了在线上下文决策问题,并具有资源约束。在每个时间段,决策者首先根据给定上下文向量预测奖励向量和资源消耗矩阵,然后解决下游优化问题以做出决策。决策者的最终目标是最大程度地利用资源消耗的奖励和效用总结,同时满足资源限制。我们提出了一种算法,该算法将基于“智能预测 - 优化(SPO)”方法的预测步骤与基于镜像下降的双重更新步骤。我们证明了遗憾的界限,并证明了我们方法的总体收敛率取决于$ \ Mathcal {o}(t^{ - 1/2})$在线镜面下降的收敛性以及使用的替代损失功能的风险范围学习预测模型。我们的算法和后悔界限适用于资源约束的一般凸的可行区域,包括硬和软资源约束案例,它们适用于广泛的预测模型,与线性上下文模型或有限策略空间的传统设置相比。我们还进行数值实验,以与传统的仅限预测方法相比,在多维背包和最长的路径实例上,与传统的仅预测方法相比,我们提出的SPO型方法的强度。
translated by 谷歌翻译
安全的加强学习(RL)旨在学习在将其部署到关键安全应用程序中之前满足某些约束的政策。以前的原始双重风格方法遭受了不稳定性问题的困扰,并且缺乏最佳保证。本文从概率推断的角度克服了问题。我们在政策学习过程中介绍了一种新颖的期望最大化方法来自然纳入约束:1)在凸优化(E-step)后,可以以封闭形式计算可证明的最佳非参数变异分布; 2)基于最佳变异分布(M-step),在信任区域内改进了策略参数。提出的算法将安全的RL问题分解为凸优化阶段和监督学习阶段,从而产生了更稳定的培训性能。对连续机器人任务进行的广泛实验表明,所提出的方法比基线获得了更好的约束满意度和更好的样品效率。该代码可在https://github.com/liuzuxin/cvpo-safe-rl上找到。
translated by 谷歌翻译
二重优化发现在现代机器学习问题中发现了广泛的应用,例如超参数优化,神经体系结构搜索,元学习等。而具有独特的内部最小点(例如,内部功能是强烈凸的,都具有唯一的内在最小点)的理解,这是充分理解的,多个内部最小点的问题仍然是具有挑战性和开放的。为此问题设计的现有算法适用于限制情况,并且不能完全保证融合。在本文中,我们采用了双重优化的重新制定来限制优化,并通过原始的双二线优化(PDBO)算法解决了问题。 PDBO不仅解决了多个内部最小挑战,而且还具有完全一阶效率的情况,而无需涉及二阶Hessian和Jacobian计算,而不是大多数现有的基于梯度的二杆算法。我们进一步表征了PDBO的收敛速率,它是与多个内部最小值的双光线优化的第一个已知的非质合收敛保证。我们的实验证明了所提出的方法的预期性能。
translated by 谷歌翻译
许多实际优化问题涉及不确定的参数,这些参数具有概率分布,可以使用上下文特征信息来估算。与首先估计不确定参数的分布然后基于估计优化目标的标准方法相反,我们提出了一个\ textIt {集成条件估计 - 优化}(ICEO)框架,该框架估计了随机参数的潜在条件分布同时考虑优化问题的结构。我们将随机参数的条件分布与上下文特征之间的关系直接建模,然后以与下游优化问题对齐的目标估算概率模型。我们表明,我们的ICEO方法在适度的规律性条件下渐近一致,并以概括范围的形式提供有限的性能保证。在计算上,使用ICEO方法执行估计是一种非凸面且通常是非差异的优化问题。我们提出了一种通用方法,用于近似从估计的条件分布到通过可区分函数的最佳决策的潜在非差异映射,这极大地改善了应用于非凸问题的基于梯度的算法的性能。我们还提供了半代理案例中的多项式优化解决方案方法。还进行了数值实验,以显示我们在不同情况下的方法的经验成功,包括数据样本和模型不匹配。
translated by 谷歌翻译