这项工作使用熵调查的放松随机控制视角作为设计增强学习(RL)算法的原则框架。本代理通过根据最佳放松政策分配的嘈杂控制来与环境进行交互。一方面,嘈杂的政策探索了空间,因此有助于学习,但另一方面,通过为非最佳行为分配积极的可能性来引入偏见。这种探索解释权取舍取决于熵正规化的强度。我们研究了两种熵正则化公式产生的算法:探索性控制方法,其中熵被添加到成本目标以及近端政策更新方法中,熵惩罚了两个连续事件之间的策略差异。我们分析了有限的地平线连续时间线性季度(LQ)RL问题,这两种算法都产生了高斯轻松的策略。我们量化了高斯政策的价值函数与其嘈杂评估之间的确切差异,并表明执行噪声必须在整个时间内独立。通过调整轻松策略的采样频率和管理熵正则强度的参数,我们证明,对于两种学习算法而言,遗憾是$ \ MATHCAL {O}(\ sqrt {n})的顺序(上升)超过$ n $插曲的对数因素),与文献相符。
translated by 谷歌翻译
我们研究了无限 - 马,连续状态和行动空间的政策梯度的全球融合以及熵登记的马尔可夫决策过程(MDPS)。我们考虑了在平均场状态下具有(单隐层)神经网络近似(一层)神经网络近似的策略。添加了相关的平均场概率度量中的其他熵正则化,并在2-Wasserstein度量中研究了相应的梯度流。我们表明,目标函数正在沿梯度流量增加。此外,我们证明,如果按平均场测量的正则化足够,则梯度流将成倍收敛到唯一的固定溶液,这是正则化MDP物镜的独特最大化器。最后,我们研究了相对于正则参数和初始条件,沿梯度流的值函数的灵敏度。我们的结果依赖于对非线性Fokker-Planck-Kolmogorov方程的仔细分析,并扩展了Mei等人的开拓性工作。 2020和Agarwal等。 2020年,量化表格环境中熵调控MDP的策略梯度的全局收敛速率。
translated by 谷歌翻译
我们开发了一个概率框架,用于分析基于模型的加强学习在整个概念环境中。然后,我们将其应用于使用线性动力学但未知的系数和凸起的有限时间地平线随机控制问题,但可能是不规则的,客观的函数。使用概率表示,我们研究相关成本函数的规律性,并建立精确估计,用于应用估计和真实模型参数的最佳反馈控制之间的性能差距。我们确定这种性能差距是二次,提高近期工作的线性性能差距的条件[X.郭,A. Hu和Y. Zhang,Arxiv预印,arxiv:2104.09311,(2021)],它与随机线性二次问题获得的结果相匹配。接下来,我们提出了一种基于阶段的学习算法,我们展示了如何优化探索剥削权衡,并在高概率和期望中实现索布林遗憾。当对二次性能间隙保持所需的假设时,该算法在一般情况下实现了订单$ \ mathcal {o}(\ sqrt {n \ ln n)$高概率后悔,以及订单$ \ mathcal {o} ((\ ln n)^ 2)$预期遗憾,在自我探索案例中,超过$ n $剧集,匹配文献中的最佳结果。分析需要新的浓度不等式,用于相关的连续时间观察,我们得出。
translated by 谷歌翻译
合成数据是一种新兴技术,可以显着加快AI机器学习管道的开发和部署。在这项工作中,我们通过将连续时间随机模型与新提出的签名$ W_1 $公制组合,开发高保真时间序列发生器,SIGWGAN。前者是基于随机微分方程的Logsig-RNN模型,而后者源自通用和原则性的数学特征,以表征时间序列引起的度量。Sigwgan允许在产生高保真样本的同时在监督学习中转向计算上的GaN Min-Max问题。我们验证了由流行的量化风险模型和经验财务数据产生的合成数据的提出模型。代码在https://github.com/sigcgans/sig-wassersein-gans.git上获得。
translated by 谷歌翻译
逆钢筋学习尝试在马尔可夫决策问题中重建奖励功能,使用代理操作的观察。正如Russell [1998]在Russell [1998]的那样,问题均为不良,即使在存在有关最佳行为的完美信息的情况下,奖励功能也无法识别。我们为熵正则化的问题提供了解决这种不可识别性的分辨率。对于给定的环境,我们完全表征了导致给定政策的奖励函数,并证明,在两个不同的折扣因子下或在足够的不同环境下给出了相同奖励的行动的示范,可以恢复不可观察的奖励。我们还向有限视野进行时间均匀奖励的一般性和充分条件,以及行动无关的奖励,概括Kim等人的最新结果。[2021]和Fu等人。[2018]。
translated by 谷歌翻译
Quantum-enhanced data science, also known as quantum machine learning (QML), is of growing interest as an application of near-term quantum computers. Variational QML algorithms have the potential to solve practical problems on real hardware, particularly when involving quantum data. However, training these algorithms can be challenging and calls for tailored optimization procedures. Specifically, QML applications can require a large shot-count overhead due to the large datasets involved. In this work, we advocate for simultaneous random sampling over both the dataset as well as the measurement operators that define the loss function. We consider a highly general loss function that encompasses many QML applications, and we show how to construct an unbiased estimator of its gradient. This allows us to propose a shot-frugal gradient descent optimizer called Refoqus (REsource Frugal Optimizer for QUantum Stochastic gradient descent). Our numerics indicate that Refoqus can save several orders of magnitude in shot cost, even relative to optimizers that sample over measurement operators alone.
translated by 谷歌翻译
Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
通过磁共振成像(MRI)评估肿瘤负担对于评估胶质母细胞瘤的治疗反应至关重要。由于疾病的高异质性和复杂性,该评估的性能很复杂,并且与高变异性相关。在这项工作中,我们解决了这个问题,并提出了一条深度学习管道,用于对胶质母细胞瘤患者进行全自动的端到端分析。我们的方法同时确定了肿瘤的子区域,包括第一步的肿瘤,周围肿瘤和手术腔,然后计算出遵循神经符号学(RANO)标准的当前响应评估的体积和双相测量。此外,我们引入了严格的手动注释过程,其随后是人类专家描绘肿瘤子区域的,并捕获其分割的信心,后来在训练深度学习模型时被使用。我们广泛的实验研究的结果超过了760次术前和504例从公共数据库获得的神经胶质瘤后患者(2021 - 2020年在19个地点获得)和临床治疗试验(47和69个地点,可用于公共数据库(在19个地点获得)(47和69个地点)术前/术后患者,2009-2011)并以彻底的定量,定性和统计分析进行了备份,表明我们的管道在手动描述时间的一部分中对术前和术后MRI进行了准确的分割(最高20比人更快。二维和体积测量与专家放射科医生非常吻合,我们表明RANO测量并不总是足以量化肿瘤负担。
translated by 谷歌翻译
在分析此类数据中,高光谱脉冲仍然是最具挑战性的任务之一。深度学习一直在田野上盛开,并被证明超过了其他经典的不混合技术,并且可以有效地部署在配备高光谱成像器的地球观察卫星上。在这封信中,我们遵循这一研究途径,并提出了一个多分支卷积神经网络,该网络受益于融合过程中的光谱,空间和光谱空间特征。我们的实验结果得到了消融研究的支持,表明我们的技术从文献中优于其他人,而导致了更高质量的分数丰度估计。此外,我们研究了减少训练集对所有算法及其对噪音的稳健性的影响的影响,因为捕获大型且代表性的地面真相集是耗时且在实践中成本高昂的,尤其是在新兴的地球观察方案中。
translated by 谷歌翻译
通过优化农业管理实践来维持农场的可持续性有助于建立更适合星球的环境。新兴的卫星任务可以获取多光谱图像,从而捕获有关扫描区域的更详细的光谱信息,因此,在农业应用中的分析过程中,我们可以从细微的光谱特征中受益。我们介绍了一种从10 m Sentinel-2多光谱图像系列中提取2.5 m栽培地图的方法,该图像受益于紧凑型卷积神经网络。实验表明,与U-NET相比,我们的模型不仅通过提供更高质量的分割图来超过经典和深度的机器学习技术,而且还可以大大减少内存足迹(我们的模型的几乎可训练的参数,最多具有31m参数的参数U-nets)。在任务中,这种记忆节俭是关键的,这使我们能够在轨道进入轨道后将模型链接到AI驱动的卫星,因为由于时间限制,不可能发送大型网。
translated by 谷歌翻译