我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译
我们改进了用于分析非凸优化随机梯度下降(SGD)的最新工具,以获得香草政策梯度(PG) - 加强和GPOMDP的收敛保证和样本复杂性。我们唯一的假设是预期回报是平滑的w.r.t.策略参数以及其渐变的第二个时刻满足某种\ EMPH {ABC假设}。 ABC的假设允许梯度的第二时刻绑定为\ geq 0 $次的子项优差距,$ b \ geq 0 $乘以完整批量梯度的标准和添加剂常数$ c \ geq 0 $或上述任何组合。我们表明ABC的假设比策略空间上的常用假设更为一般,以证明收敛到静止点。我们在ABC的假设下提供单个融合定理,并表明,尽管ABC假设的一般性,我们恢复了$ \ widetilde {\ mathcal {o}}(\ epsilon ^ {-4})$样本复杂性pg 。我们的融合定理还可在选择超参数等方面提供更大的灵活性,例如步长和批量尺寸的限制$ M $。即使是单个轨迹案例(即,$ M = 1 $)适合我们的分析。我们认为,ABC假设的一般性可以为PG提供理论担保,以至于以前未考虑的更广泛的问题。
translated by 谷歌翻译
在线强化学习(RL)中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾,采样复杂性,状态空间覆盖范围或模型估计,我们都需要攻击不同的勘探开发权衡。在本文中,我们建议在分离方法组成的探索 - 剥削问题:1)“客观特定”算法(自适应)规定哪些样本以收集到哪些状态,似乎它可以访问a生成模型(即环境的模拟器); 2)负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法,我们首先提供一种算法,它给出了每个状态动作对所需的样本$ B(S,a)$的样本数量,需要$ \ tilde {o} (bd + d ^ {3/2} s ^ 2 a)收集$ b = \ sum_ {s,a} b(s,a)$所需样本的$时间步骤,以$ s $各国,$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对,这些策略规定了解决各种设置的样本要求 - 例如,模型估计,稀疏奖励发现,无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。
translated by 谷歌翻译
电报是全球最常用的即时消息传递应用之一。其成功之所以在于提供高隐私保护和社交网络,如频道 - 虚拟房间,其中只有管理员可以发布和广播到所有订户的消息。然而,这些相同的功能促成了边界活动的出现,并且与在线社交网络一样常见,假账户的沉重存在。通过引入频道的验证和诈骗标记,电报开始解决这些问题。不幸的是,问题远未解决。在这项工作中,我们通过收集35,382个不同的渠道和超过130,000,000消息来进行大规模分析电报。我们研究电报标记为验证或骗局的渠道,突出显示类比和差异。然后,我们转到未标记的频道。在这里,我们发现一些臭名昭着的活动也存在于虚拟网络的隐私保存服务,例如梳理,共享非法成人和版权保护内容。此外,我们还确定并分析了另外两种类型的渠道:克隆和假货。克隆是发布另一个频道确切内容的频道,以获得订阅者和促进服务。相反,假货是试图冒充名人或知名服务的渠道。即使是最先进的用户甚至很难确定。要自动检测假频道,我们提出了一种机器学习模型,可以以86%的准确性识别它们。最后,我们研究了Sabmyk,这是一种阴谋理论,即利用假货和克隆在达到超过1000万用户的平台上迅速传播。
translated by 谷歌翻译
随着全球的太阳能能力继续增长,越来越意识到先进的检验系统正度重视安排智能干预措施并最大限度地减少停机时间。在这项工作中,我们提出了一种新的自动多级模型,以通过使用YOLOV3网络和计算机视觉技术来检测由无人机捕获的空中图像上的面板缺陷。该模型结合了面板和缺陷的检测来改进其精度。主要的Noveltize由其多功能性来处理热量或可见图像,并检测各种缺陷及其对屋顶和地面安装的光伏系统和不同面板类型的缺陷。拟议的模型已在意大利南部的两个大型光伏工厂验证,优秀的AP至0.5超过98%,对于面板检测,卓越的AP@0.4(AP@0.5)大约为88.3%(66.95%)的热点红外热成像和MAP@0.5在可见光谱中近70%,用于检测通过污染和鸟粪诱导,分层,水坑的存在和覆盖屋顶板诱导的面板遮蔽的异常谱。还预测了对污染覆盖的估计。最后讨论了对不同yolov3的输出尺度对检测的影响的分析。
translated by 谷歌翻译
对于函数的矩阵或凸起的正半明确度(PSD)的形状约束在机器学习和科学的许多应用中起着核心作用,包括公制学习,最佳运输和经济学。然而,存在很少的功能模型,以良好的经验性能和理论担保来强制执行PSD-NESS或凸起。在本文中,我们介绍了用于在PSD锥中的值的函数的内核平方模型,其扩展了最近建议编码非负标量函数的内核平方型号。我们为这类PSD函数提供了一个代表性定理,表明它构成了PSD函数的普遍近似器,并在限定的平等约束的情况下导出特征值界限。然后,我们将结果应用于建模凸起函数,通过执行其Hessian的核心量子表示,并表明可以因此表示任何平滑且强凸的功能。最后,我们说明了我们在PSD矩阵值回归任务中的方法以及标准值凸起回归。
translated by 谷歌翻译
我们介绍了一种计算关于数据集的学习任务的导数的方法。学习任务是从训练设置到验证错误的函数,可以由培训的深神经网络(DNN)表示。 “数据集导数”是一个线性运算符,围绕培训的模型计算,它通知每个训练样本的权重的扰动如何影响验证误差,通常在单独的验证数据集上计算。我们的方法,DIVA(可微分验证)铰接在预先训练的DNN周围的休假交叉验证误差的闭合形式微分表达上。这种表达构成数据集衍生物。 Diva可用于数据集自动策策,例如用错误的注释删除样本,使用其他相关样本增强数据集或重新平衡。更一般地,DIVA可用于优化数据集,以及模型的参数,作为培训过程的一部分,而无需单独的验证数据集,与AutomL的双层优化方法不同。为了说明DIVA的灵活性,我们向样本自动策展任务报告实验,如异常值拒绝,数据集扩展和多模态数据的自动聚合。
translated by 谷歌翻译
现代应用要求机器人符合多个通常相互冲突的规则,并与其他代理商互动。我们将Posetal Games作为一类游戏,每个玩家通过部分有序的一组指标表达了对结果的偏好。这允许人们将每个玩家的分层优先级与环境的交互性质组合。通过语境化标准游戏理论概念,我们为参与者的偏好提供了两个足够的条件,以便在有限作用集中证明纯NASH均衡的存在。此外,我们在偏好结构上定义正式操作,并将其链接到游戏解决方案的细化,显示如何系统地缩小均衡集合。所提出的结果展示在驾驶游戏中,自主车辆从有限组轨迹中选择。结果证明了对每个玩家最小禁区的结果的可解释性。
translated by 谷歌翻译
生物重建VII轨道3挑战重点是在Twitter用户时间表中识别药物名称。对于我们提交这一挑战,我们通过使用多种数据增强技术扩展了可用的培训数据。然后,增强数据用于微调在一般域推特内容上预先培训的语言模型的集合。拟议的方法优于先前的最先进的算法Kusuri,并在竞争中排名高,为我们所选择的客观函数重叠F1分数。
translated by 谷歌翻译
源代码的AI建模理解任务一直在取得重大进展,并正在生产开发管道中采用。然而,可靠性问题,特别是模型是否实际上是学习源代码的任务相关方面,正在提出。虽然最近的模型探测方法已经观察到许多用于代码模型中的信号意识缺乏信号意识,即,未捕获任务相关信号的模型,它们不提供解决问题的解决方案。在本文中,我们探索了数据驱动的方法来提高模型的模型“信号意识:1)我们将SE概念与课程学习的AI技术相结合; 2)通过自定义Delta调试以生成简化的信号保留程序,将它们纳入AI模型,将SE辅助纳入AI模型。通过我们的技术,我们在模型信号意识方面取得了高达4.8倍的提高。使用代码复杂性的概念,我们进一步从数据集的角度介绍了一种新颖的学习内省方法。
translated by 谷歌翻译