我们考虑通过连续环境中的加强学习(RL)了解政策背景下的政策简化和验证的挑战。在良好的设置中,RL算法在限制中具有收敛保证。虽然这些保证是有价值的,但它们不足以安全关键型应用。此外,在应用Deep-RL等先进技术时丢失。在将先进的RL算法应用于更复杂的环境时恢复保证,(i)可达性,(ii)安全受限可达性,或(iii)折扣奖励目标,我们建立在Gelada等人介绍的深度框架上。在未知环境和学习的离散潜在模型之间获得新的双刺激界限。我们的BISIMULATION界限能够在马尔可夫决策过程中应用正式方法。最后,我们展示了如何使用通过最先进的RL获得的策略,以有效地训练变形式自动统计器,从而产生离散潜在模型,其具有可释放的近似正确的双刺激保证。此外,我们获得了潜在模型的策略的蒸馏版。
translated by 谷歌翻译
Event cameras are emerging vision sensors and their advantages are suitable for various applications such as autonomous robots. Contrast maximization (CMax), which provides state-of-the-art accuracy on motion estimation using events, may suffer from an overfitting problem called event collapse. Prior works are computationally expensive or cannot alleviate the overfitting, which undermines the benefits of the CMax framework. We propose a novel, computationally efficient regularizer based on geometric principles to mitigate event collapse. The experiments show that the proposed regularizer achieves state-of-the-art accuracy results, while its reduced computational complexity makes it two to four times faster than previous approaches. To the best of our knowledge, our regularizer is the only effective solution for event collapse without trading off runtime. We hope our work opens the door for future applications that unlocks the advantages of event cameras.
translated by 谷歌翻译
Deep Reinforcement Learning (RL) agents are susceptible to adversarial noise in their observations that can mislead their policies and decrease their performance. However, an adversary may be interested not only in decreasing the reward, but also in modifying specific temporal logic properties of the policy. This paper presents a metric that measures the exact impact of adversarial attacks against such properties. We use this metric to craft optimal adversarial attacks. Furthermore, we introduce a model checking method that allows us to verify the robustness of RL policies against adversarial attacks. Our empirical analysis confirms (1) the quality of our metric to craft adversarial attacks against temporal logic properties, and (2) that we are able to concisely assess a system's robustness against attacks.
translated by 谷歌翻译
成功培训端到端的深网进行真实运动去缩合,需要尖锐/模糊的图像对数据集,这些数据集现实且多样化,足以实现概括以实现真实的图像。获得此类数据集仍然是一项具有挑战性的任务。在本文中,我们首先回顾了现有的Deblurring基准数据集的局限性,从泛化到野外模糊图像的角度。其次,我们提出了一种有效的程序方法,以基于一个简单而有效的图像形成模型来生成清晰/模糊的图像对。这允许生成几乎无限的现实和多样化的培训对。我们通过在模拟对上训练现有的DeBlurring架构,并在四个真实模糊图像的标准数据集中对其进行评估,从而证明了所提出的数据集的有效性。我们观察到使用建议方法训练时动态场景的真实运动毛线照片的最终任务的出色概括性能。
translated by 谷歌翻译
本文研究了黑盒安全测试配置中基于方案的安全测试算法。对于与不同采样分布共享相同州行动集覆盖的算法,通常认为优先考虑探索高风险状态现象会提高采样效率。我们的提案通过引入不可能的定理来对上述直觉提出异议,该定理可证明显示上述差异的所有安全测试算法,同样具有相同的预期采样效率。此外,对于涵盖不同状态活动集的测试算法,采样效率标准不再适用,因为不同的算法不一定会收敛到相同的终止条件。然后,我们提出了基于几乎安全集合概念的测试攻击性定义,以及一种无偏和有效的算法,比较了测试算法之间的侵略性。还提出了来自两足球运动控制器和车辆决策模块的安全测试的经验观察,以支持提出的理论意义和方法。
translated by 谷歌翻译
本文介绍了Cool-MC,这是一种集成了最先进的加固学习(RL)和模型检查的工具。具体而言,该工具建立在OpenAI健身房和概率模型检查器风暴上。COOL-MC提供以下功能:(1)模拟器在OpenAI体育馆训练RL政策,用于Markov决策过程(MDPS),这些模拟器定义为暴风雨的输入,(2)使用“ SORM”的新型号构建器,用于使用回调功能要验证(神经网络)RL策略,(3)与OpenAI Gym或Storm中指定的模型和政策相关的正式抽象,以及(4)算法以获得有关所谓允许政策的性能的界限。我们描述了Cool-MC的组件和体系结构,并在多个基准环境中演示了其功能。
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译
几项作品已经研究了主观文本,因为它们可以在用户中引起某些行为。大多数工作都集中在社交网络中的用户生成的文本上,但是其他一些文本也包括对某些主题的观点,可能会影响政治决策期间的判断标准。在这项工作中,我们解决了针对新闻头条领域的有针对性情绪分析的任务,该领域由主要渠道在2019年阿根廷总统大选期间发布。为此,我们介绍了1,976个头条新闻的极性数据集,该数据集在2019年选举中以目标级别提及候选人。基于预训练的语言模型的最先进的分类算法的初步实验表明,目标信息有助于此任务。我们公开提供数据和预培训模型。
translated by 谷歌翻译
卫星图像构成了许多现实世界应用的高价和丰富的资源。但是,训练大多数机器学习模型所需的标签数据稀缺且难以获得。在这种情况下,当前的工作研究了一种完全无监督的方法,鉴于卫星图像的时间顺序,根据其语义属性及其随着时间的推移的进化而形成了地面的分区。图像序列被翻译成嵌入式瓷砖的多元时间序列的网格。这些瓷砖序列的嵌入和分区聚类以两个迭代步骤构造:在第一步中,嵌入能够根据地理位置邻域提取瓷砖序列的信息,将瓷砖分组为群集。在第二步中,通过使用簇定义的邻域来完善嵌入,并获得了瓷砖序列的最终聚类。我们通过进行纳瓦拉(Navarra)区域的20个卫星图像的序列(西班牙)的序列进行语义聚类来说明方法。结果表明,多元时间序列的聚类非常健壮,并且包含有关研究区域的信任时空语义信息。我们揭示了地理和嵌入式空间之间存在的紧密连接,并发现归因于这些类型的嵌入的语义属性被完全利用,甚至通过提议的时间序列的聚类来增强。
translated by 谷歌翻译
蛋白质 - 蛋白质相互作用(PPI)网络由生物体的蛋白质之间的物理和/或功能相互作用组成。由于用于形成PPI网络的生物物理和高通量方法是昂贵的,耗时的,而且通常包含不准确性,因此最终的网络通常不完整。为了推断这些网络中缺少的相互作用,我们提出了基于连续的经典和量子随机步行的新型链接预测方法。在量子步行的情况下,我们检查了网络邻接和拉普拉斯矩阵的用法来控制步行动力学。我们根据相应的过渡概率定义得分函数,并在四个现实世界PPI数据集上执行测试。我们的结果表明,使用网络邻接矩阵的连续时间经典随机步行和量子步行可以成功预测缺失的蛋白质 - 蛋白质相互作用,并且性能与艺术的状态媲美。
translated by 谷歌翻译