用于未知非线性系统的学习和合成稳定控制器是现实世界和工业应用的具有挑战性问题。 Koopman操作员理论允许通过直线系统和非线性控制系统的镜头通过线性系统和非线性控制系统的镜头来分析非线性系统。这些方法的关键思想,在于将非线性系统的坐标转换为Koopman可观察,这是允许原始系统(控制系统)作为更高尺寸线性(双线性控制)系统的坐标。然而,对于非线性控制系统,通过应用基于Koopman操作员的学习方法获得的双线性控制模型不一定是稳定的,因此,不保证稳定反馈控制的存在,这对于许多真实世界的应用来说是至关重要的。同时识别基于这些可稳定的Koopman的双线性控制系统以及相关的Koopman可观察到仍然是一个开放的问题。在本文中,我们提出了一个框架,以通过同时学习为基于Koopman的底层未知的非线性控制系统以及基于Koopman的控制Lyapunov函数(CLF)来识别和构造这些可稳定的双线性模型及其相关的可观察能力。双线性模型使用学习者和伪空。我们提出的方法从而为非线性控制系统具有未知动态的非线性控制系统提供了可证明的全球渐近稳定性的保证。提供了数值模拟,以验证我们提出的稳定反馈控制器为未知的非线性系统的效力。
translated by 谷歌翻译
最近被证明在强化学习(RL)设置中显示出的神经形式非常竞争,并且能够减轻基于梯度的方法的一些缺点。本文将专注于使用简单的遗传算法(GA)来应用神经发展,以找到产生最佳表现代理的神经网络的权重。此外,我们提出了两种新颖的修改,以提高与初始实施相比的数据效率和收敛速度。在Openai健身房提供的汇聚环境中评估了修改,并证明明显优于基线方法。
translated by 谷歌翻译
敦促智能技术实现开放式无线电接入网络(O-RAN)中计算资源的自动分配,以节省计算资源,提高它们的利用率并降低延迟。但是,要解决此资源分配问题的现有问题制定是不合适的,因为它定义了以不适当的方式为资源的容量实用性,并且往往会导致太多延迟。此外,只有在贪婪的搜索基于贪婪搜索的情况下才能解决现有问题,这并不理想,因为它可能会被粘在本地最佳擎天。考虑到那些,提出了一种更好地描述问题的新配方。另外,作为众所周知的全球搜索元启发式方法,设计了一种用于解决新问题制定的进化算法(EA),以找到资源分配方案,以主动和动态地部署计算资源以用于处理即将到来的流量数据。在几个现实世界数据集和新生成的人工数据集中进行的实验研究,具有超出现实世界数据集的具有更多特性的实验数据集已经在不同参数设置下显示了基线贪婪算法的显着优越性。此外,采用实验研究来比较所提出的EA和两种变体,以指示不同算法选择的影响。
translated by 谷歌翻译
最近已结合了进化算法(EAS)和深度加强学习(DRL)以集成两个解决方案的优势以获得更好的政策学习。然而,在现有的混合方法中,EA用于直接培训策略网络,这将导致对政策绩效的样本效率和不可预测的影响。为了更好地整合这两种方法并避免引入EA引起的缺点,我们致力于设计更有效和合理的结合EA和DRL的方法。在本文中,我们提出了进化行动选择 - 双胞胎延迟深度确定性政策梯度(EAS-TD3),是EA和DRL的新组合。在EAS中,我们专注于优化策略网络选择的动作,并尝试通过进化算法来指导策略学习的高质量行动。我们对挑战的连续控制任务进行了几个实验。结果表明,EAS-TD3在其他最先进的方法中显示出优异的性能。
translated by 谷歌翻译
排名汇总旨在将许多替代品的偏好排名与不同选民的偏替排名组合成单一共识排名。然而,作为各种实际应用的有用模型,它是一个计算上有挑战性的问题。在本文中,我们提出了一种有效的混合进化排名算法来解决完整和部分排名的排名聚集问题。该算法具有基于协调对的语义交叉,并通过有效的增量评估技术加强了较晚的验收本地搜索。进行实验以评估算法,与最先进的算法相比,表明基准实例上具有高度竞争性能。为了展示其实际有用性,算法应用于标签排名,这是一个重要的机器学习任务。
translated by 谷歌翻译
通过输入修改(即,对抗示例)最近引起了很多关注的神经网络的攻击问题。相对容易生成且难以检测,这些攻击构成了许多建议的防御试图减轻的安全漏洞。但是,对攻击和防御效果的评估通常依赖于传统分类指标,而不适合对抗对抗情景。这些指标中的大多数是基于精度的,因此可能具有有限的范围和低独特的功率。其他度量不考虑神经网络功能的独特特征,或间接地测量攻击的攻击效果(例如,通过他们的发电的复杂性)。在本文中,我们提出了两个专门旨在测量攻击的效果或防御恢复效果,在多字符分类任务中的神经网络输出中的攻击或恢复效果。灵感来自归一化折扣累积增益和信息检索文献中使用的互惠秩指标,我们将神经网络预测视为排名结果的结果。使用关于等级概率的其他信息使我们能够定义适合手头任务的新型度量。我们使用普拉vgg19模型和想象成数据集的各种攻击和防御评估我们的指标。与普通分类指标相比,我们拟议的指标表现出优越的信息性和独特性。
translated by 谷歌翻译
在神经元网络中,使用本地信息单独更新,允许完全分散的学习。相反,人工神经网络(ANN)中的元件通常使用中央处理器同时更新。在这里,我们调查最近引入的分散,物理驱动的学习网络中异步学习的可行性和影响。我们表明,在理想化模拟中,Desynchization Learing Processe不会降低各种任务的性能。在实验中,Des同步实际上通过允许系统更好地探索解决方案的离散状态空间来实现性能。我们在随机梯度下降中的异步和迷你批处理之间绘制了类比,并表明它们对学习过程具有类似的影响。 des同步学习过程将物理驱动的学习网络建立为真正完全分布式的学习机器,在部署中提高更好的性能和可扩展性。
translated by 谷歌翻译
识别网络空间中的异常多媒体流量是分布式服务系统,多代网络和未来所有互联网的大挑战。这封信探讨了Graynet中的多方隐私学习模型的元概括,以提高异常多媒体流量识别的性能。 Graynet中的MultiParty Privacy学习模型是通过交换保留私有数据的多群参数更新来划分,分布和培训的全局共享模型。元概述是指发现学习模型的固有属性,以减少其泛化误差。在实验中,如下测试了三个元概括原理。通过更改字节级嵌入的维度,减少了磨略中的多派隐私学习模型的泛化误差。在此之后,通过调整深度来减少错误以提取分组级别功能。最后,通过调整用于预处理流量级数据的支持集的大小来减少错误。实验结果表明,该提议优于识别异常多媒体流量的最先进的学习模型。
translated by 谷歌翻译
本文提出了一种基于稀疏的计算方法,用于优化用于加强学习(RL)任务的神经网络。该方法结合了两个想法:神经网络修剪并考虑到输入数据相关;只有在它们的变化超过某个阈值时才可以更新神经元状态。运行神经网络时,它显着降低了乘法的数量。我们测试了不同的RL任务,并在乘法数量下实现了20-150倍。没有大量的性能损失;有时表现甚至有所改善。
translated by 谷歌翻译
我们通过投影仪操作员研究较大尺寸的连续动态系统的嵌入。我们称这种技术PED,动态系统的投影嵌入,因为动态的稳定固定点通过从较高尺寸空间的投影回收。在本文中,我们提供了一种通用定义,并证明对于特定类型的Rank-1的投影仪操作者,均匀的平均场投影仪,运动方程成为动态系统的平均场逼近。虽然一般来说,嵌入取决于指定的变量排序,但对于均匀平均字段投影仪而不是真的。此外,我们证明原始稳定的固定点保持稳定的动态的定点,鞍点保持鞍座,但不稳定的固定点变成马鞍。
translated by 谷歌翻译