我们考虑组合多臂强盗(CMAB)问题,其中函数是非线性的。在此设置中,代理程序在每一轮中选择一批方法,并从批次的每个分支接收反馈。代理人旨在最大化的奖励是所选武器和期望的函数。在许多应用中,奖励函数是高度非线性的,并且现有算法的性能依赖于全局Lipschitz常数来封装函数的非线性。这可能会导致松散的边界,因为就其本身而言,一个大的梯度并不一定会引起巨大的遗憾,而只是在奖励参数的不确定性很高的地区。为了克服这个问题,我们引入了一个新的平滑度标准,我们称之为\ textit {基尼加权平滑度},它考虑了奖励的非线性和方程的集中属性。我们证明了批量大小不存在算法中遗憾的线性依赖性可以用这个平滑度参数代替。当平滑度参数isbatch-size independent时,这会导致更严格的后悔限制。例如,在具有许多应用的概率最大覆盖(PMC)问题中,包括影响最大化,不同的推荐等等,我们在上限中实现了显着的改进。我们还证明了PMC问题的匹配下限,并表明我们的算法是紧密的,直到问题参数的对数因子。
translated by 谷歌翻译
在电子商务中,产品内容,尤其是产品图像对客户从产品发现到评估以及最终购买决策的过程具有重大影响。由于许多电子商务零售商除了自己以外从其他第三方市场卖家销售商品,因此内部和外部内容创作者发布的内容需要尽可能地进行监控。尽管有指导和警告,但包含令人反感和不合规的图像的产品列表仍会继续进入目录。过度和不合规的内容可能包含各种对象,徽标和横幅,传达暴力,色情,种族主义或促销信息。此类图像可能严重损害客户体验,导致容忍问题,并侵蚀公司品牌。在本文中,我们为超大型电子商务目录提供了机器学习驱动的攻击性和非合规图像检测系统。该系统在将这些内容发布到面向客户的网站之前,主动检测并删除这些内容。本文深入探讨了将机器学习应用于具有数亿产品图像的零售领域的实际数据的独特挑战。我们演示了如何解决出现在数以万计的产品类别中的不合规内容的问题。我们还描述了我们如何处理每个单一不合规情景出现的纯粹多样性。本文展示了一些实用但独特的方法,例如代表性培训数据创建,这对于解决极其严重的问题至关重要。总之,我们的系统结合了最先进的图像分类和对象检测技术,并对内部数据进行了精细调整,以开发针对大规模,多样化和不断发展的产品目录定制的解决方案。
translated by 谷歌翻译
我们考虑梯度反馈下的顺序随机资源分配问题,其中每个资源的奖励是凹的。我们构造了适应问题复杂性的通用算法,该算法使用{\ L} ojasiewicz不等式中的指数进行测量。我们的算法在非强凹面和强凹面率之间进行,而不依赖于强 - 凹度参数,并恢复经典多臂强盗的快速率(大致对应于线性奖励函数)。
translated by 谷歌翻译
如果一项政策在考虑abad甚至是对抗性模型的同时最大化奖励,那么该政策被认为是强有力的。在这项工作中,我们正式确定了两个新的行动不确定性标准。具体来说,我们考虑两个场景,其中代理尝试执行一个动作$ \ mathbf {a} $,以及(i)withprobability $ \ alpha $,另一个对抗动作$ \ bar {\ mathbf {a}} $ istaken,或者(ii)对手在连续行动空间的情况下对所选行动添加扰动。我们证明了我们的标准与机器人领域中的不确定形式有关,例如突发力的发生,以及表格案例中的建议算法。基于建议的算法,我们概括了深度强化学习(DRL)的方法,并在各种MuJoCo域中提供了广泛的实验。 Ourexperiments表明,我们的方法不仅可以产生强大的策略,而且还可以在没有扰动的情况下提高性能。这种一般化表明行为鲁棒性可以被认为是RL问题中的隐式正规化。
translated by 谷歌翻译
我们研究了神经线性强盗模型,用于解决具有高维边信息的顺序决策问题。神经线性带宽利用深度神经网络的表示能力,并结合最后隐藏层顶部的线性上下文绑定设计的高效探索机制。由于在学习期间表示被优化,因此丢失了关于具有“旧”特征的探索的信息。在这里,我们提出了第一个对这种现象具有弹性的有限记忆神经线性带,我们称之为灾难性遗忘。我们在各种现实世界数据集上评估我们的方法,包括回归,分类和情感分析,并观察我们的算法对灾难性遗忘具有弹性并实现卓越的性能。
translated by 谷歌翻译
政策评估是强化学习的关键过程。它使用相应值函数的估计来评估agiven策略。当使用参数化函数来近似该值时,通常通过最小化Bellman时间差分平方和的平方来优化这些参数。但是,这种方法忽略了错误和值参数的某些分布属性。在优化过程中考虑这些分布可以提供关于价值估计的信心量的有用信息。在这项工作中,我们建议通过最小化正则化目标函数来优化价值,该目标函数形成覆盖参数的信任区域。我们提出了一种新的优化方法,即基于扩展卡尔曼滤波器的卡尔曼值近似(KOVA)。 KOV通过对值参数和噪声观测回报采用贝叶斯透视来最小化正则化目标函数。除了价值估计之外,该分布属性还提供关于参数不确定性的信息。我们提供了我们的方法的理论结果,并分析了我们提出的优化器在具有大状态和动作空间的域上的性能。
translated by 谷歌翻译
在多实例学习的背景下,我们分析单实例(SI)学习目标。我们表明,当数据不平衡且分类器的家庭足够丰富时,SI方法是一种有用的学习算法。特别地,我们表明,较大的数据不平衡,即通常被认为是负面的质量,实际上意味着该算法对于袋中物体的统计依赖性具有更好的弹性。此外,我们的结果揭示了SI方法在线性分类器中的一些已知问题,并且我们表明这些问题在神经网络的设置中可能发生很大。我们在合成数据集上展示了我们的结果,并在COCO数据集上展示了从图片派生的弱图像级别标签的补丁分类问题。
translated by 谷歌翻译
强化学习的目标是通过执行行动和观察其长期后果来学习最优政策。不幸的是,获得这样的政策可能是一项艰巨的任务。更严重的是,如果一项政策是最优的,那么就无法进行探索。这被称为勘探 - 剥削权衡。在实践中,这种权衡是通过使用一些固有的探索机制来解决的,例如$ \ epsilon $ -greedy探索,同时仍然试图学习最优策略。在这项工作中,我们采取了不同的方法。我们定义了替代最优性目标:关于勘探方案的最优政策。正如我们在整篇论文中所展示的那样,虽然解决这个标准并不一定会导致最优政策,但问题变得更容易解决。我们继续分析这种最优性的概念,设计从这种方法得出的算法,揭示与现有工作的联系,并在表格和深度强化学习领域中对它们进行经验测试。
translated by 谷歌翻译
当前的模仿学习技术限制性太强,因为它们需要代理和专家共享相同的动作空间。然而,通常与专家行动不同的代理人可以很好地解决任务。例如,提升箱子的人可以通过天花板安装的机器人或基于桌面的机器人臂来模仿。在这两种情况下,都可以使用不同的策略实现提升盒子的最终目标。我们将此设置表示为\ textit {Inspiration Learning} - 在不同动作空间中操作的代理之间的知识转移。由于不再使用国家行动专家演示,灵感学习需要新颖的方法来指导导师实现最终目标。在这项工作中,我们依靠基于优先的强化学习(PbRL)的想法来设计Advantage Actor-Critic算法来解决灵感学习任务。与经典的演员 - 评论体系结构不同,我们使用的评论家由两部分组成:a)状态值估计与普通的行动者 - 评论者算法一样; b)单阶段奖励函数源自专家/代理人分类器。我们证明了我们的方法能够将当前的模仿框架扩展到新的视野。这包括连续到离散的动作模仿,以及原始到宏观的模仿。
translated by 谷歌翻译
卡尔曼滤波器是时间序列预测和分析的关键工具。我们表明,只要过程噪声是非简并的,卡尔曼滤波器预测对过去的依赖就是指数衰减。因此,Kalmanfilter可以通过对最近几次观察的回归来近似。令人惊讶的是,我们还表明,具有一些过程噪声对于指数衰减是必不可少的。在没有过程噪声的情况下,预测可能会发生在所有过去的均匀分布上,这使预测变得更加困难。基于这种见解,我们设计了一种用于线性动力系统(LDS)的不正确学习的在线算法,该算法仅考虑了几个最近的观测。我们使用我们的衰变结果来提供第一个后悔boundsw.r.t。学习LDS的卡尔曼滤波器。也就是说,我们将算法的结果与事后最佳的卡尔曼滤波器进行比较。此外,该算法是实用的:其每次更新运行时间在回归深度中是线性的。
translated by 谷歌翻译