许多支付平台持有大规模的营销活动,为鼓励用户通过他们的申请进行奖励。为了最大限度地提高投资回报,在两阶段程序中通常会解决激励拨款。在训练响应估计模型以估计用户的移动支付概率(MPP)之后,应用线性编程过程来获得最佳激励分配。然而,由先前偏置分配策略生成的训练集中的大量偏置数据导致偏置估计。此偏差劣化响应模型的性能并误导线性编程过程,显着降低了所产生的分配策略的性能。为了克服这种障碍,我们提出了偏置校正对抗性网络。我们的方法利用了在全随机分配策略下获得的一小集非偏见数据来培训一个无偏的模型,然后使用它来减少对抗性学习的偏差。离线和在线实验结果表明,我们的方法优于最先进的方法,并显着提高了现实世界营销活动中所产生的分配政策的绩效。
translated by 谷歌翻译
尽管在一般强化学习(RL)中建立了良好的建立,但很少在受约束的RL(CRL)中探索基于价值的方法,因为它们无法找到可以在多个动作中随机进行随机的策略的能力。为了将基于价值的方法应用于CRL,最新的游戏理论方法采用了混合策略,该策略将一组精心生成的策略之间随机进行随机,以收敛到所需的约束可满足的策略。但是,这些方法需要存储大量的政策,这不是政策效率的,并且可能会在约束深度RL中产生过高的记忆成本。为了解决这个问题,我们提出了一种替代方法。我们的方法首先将CRL重新制定为等效距离优化问题。使用专门设计的线性优化Oracle,我们得出了一个元叠层,该元值使用任何现成的RL算法和任何条件梯度(CG)型算法作为子例程来求解它。然后,我们提出了CG型算法的新变体,该变体概括了最小范数(MNP)方法。所提出的方法与现有游戏理论方法的收敛速率相匹配,并实现了最差的最佳政策效率。导航任务上的实验表明,我们的方法将记忆成本降低了一个数量级,同时达到了更好的性能,并证明了其有效性和效率。
translated by 谷歌翻译
汤普森采样(TS)是解决上下文多武装强盗问题最有效的算法之一。在本文中,我们提出了一种新的算法,称为神经汤普森采样,这适应了深度神经网络,用于勘探和剥削。在我们的算法的核心是一种新的奖励的后分布,其平均值是神经网络近似器,并且其方差建立在相应神经网络的神经切线特征上。我们证明,如果底层奖励函数是有界的,则可以保证所提出的算法来实现$ \ mathcal {o}(t ^ {1/2})$的累积遗憾,它与其他上下文强盗算法的遗憾匹配总轮数量$ t $。各种数据集中其他基准强盗算法的实验比较证实了我们的理论。
translated by 谷歌翻译
基于图像的虚拟试验旨在综合一个穿给定服装的人的图像。为了解决任务,现有的方法会经过衣物项目,以适合该人的身体并生成穿着该物品的人的分割图,然后再将物品与人融合。但是,当扭曲和分割生成阶段在没有信息交换的情况下单独运行时,扭曲的衣服和分割图之间的未对准发生了,从而导致最终图像中的工件。信息断开还会导致在身体部位遮住的衣服区域附近过度翘曲,所谓的像素 - 刺式伪像。为了解决这些问题,我们提出了一个新颖的尝试条件发生器,作为两个阶段的统一模块(即扭曲和分割生成阶段)。条件生成器中新提出的特征融合块实现了信息交换,并且条件生成器不会造成任何未对准或像素 - 平方形工件。我们还介绍了歧视者的拒绝,从而滤除了不正确的细分图预测并确保虚拟试验框架的性能。高分辨率数据集上的实验表明,我们的模型成功处理了未对准和遮挡,并显着优于基线。代码可从https://github.com/sangyun884/hr-viton获得。
translated by 谷歌翻译
我们已经调查了对抗性示例的新应用,即对地标识别系统的位置隐私保护。我们介绍了掩模引导的多模式投影梯度下降(MM-PGD),其中对抗示例在不同的深层模型上进行了培训。图像内容受到分析区域的特性,以识别最适合在对抗示例中混合的区域的性质。我们研究了两种区域识别策略:基于类激活图的MM-PGD,其中训练有素的深层模型的内部行为是针对的;和基于人视觉的MM-PGD,其中吸引人类注意力较少的地区的目标是针对的。Ploce365数据集的实验表明,这些策略在不需要大量图像操作的情况下可能有效地防御Black-Box Landmark识别系统。
translated by 谷歌翻译
尽管在现代深度神经网络(DNN)中的解释技术取得了快速的进步,其中主要重点是处理“如何产生解释”,但先进的研究问题,这些问题研究了解释本身的质量(例如,解释是否准确” )并提高解释质量(例如,“如何调整模型以在解释不准确时生成更准确的解释”)仍然相对较小。为了指导该模型朝着更好的解释,解释监督的技术(在模型解释中增加了监督信号)已开始对提高深度神经网络的普遍性和内在解释性的影响显示出令人鼓舞的影响。然而,由于几个固有的挑战,有关监督解释的研究,特别是在通过显着图代表的基于视觉的应用中,正处于早期阶段:1)人类解释注释边界的不准确,2)人类解释注释区域的不完整, 3)人类注释和模型解释图之间的数据分布不一致。为了应对挑战,我们提出了一个通用的RES框架,用于通过开发一个新的目标来指导视觉解释,该目标可以处理人类注释不准确的边界,不完整的区域和不一致的分布,并具有对模型通用性的理论理由。在两个现实世界图像数据集上进行的广泛实验证明了该框架在增强解释的合理性和骨干DNNS模型的性能方面的有效性。
translated by 谷歌翻译
这项研究提出了一种分布式算法,该算法通过自动决策,平滑的羊群和分布良好的捕获来使代理的自适应分组捕获多个目标。代理商根据环境信息做出自己的决定。提出了一种改进的人工潜在方法,以使代理能够平稳自然地改变形成以适应环境。拟议的策略确保了群体的协调发展在群体上陷入多个目标的现象。我们使用仿真实验和设计指标来验证提出方法的性能,以分析这些模拟和物理实验。
translated by 谷歌翻译
基于范围视图的LIDAR分割方法由于其直接继承了有效的2D CNN体系结构,因此对实际应用具有吸引力。在文献中,大多数基于范围的方法都遵循每个像素分类范式。最近,在图像分割域中,另一个范式将分割作为面具分类问题,并实现了出色的性能。这提出了一个有趣的问题:掩码分类范式是否可以使基于范围的LIDAR分割受益并获得比每个像素范式对应的更好的性能?为了回答这个问题,我们为基于范围视图的LIDAR语义和全景分段提出了一个统一的面膜分类模型MaskRange。除了新的范式外,我们还提出了一种新型的数据增强方法,以应对过度拟合,上下文依赖和班级不平衡问题。大量实验是在Semantickitti基准测试上进行的。在所有基于范围视图的方法中,我们的面具以$ 66.10 $ MIOU的语义细分和有希望的结果以$ 53.10 $ pq的pq pq in Panoptic细分,以高效的效率达到了最新的性能。我们的代码将发布。
translated by 谷歌翻译
线性时间不变的状态空间模型(SSM)是工程和统计数据的经典模型,最近通过结构化状态空间序列模型(S4)证明,在机器学习中非常有前途。 S4的核心成分涉及将SSM状态矩阵初始化为称为HIPPO矩阵的特定矩阵,这对于S4处理长序列的能力在经验上很重要。但是,S4使用的特定矩阵实际上是在特定时间变化的动态系统中得出的,并且将此矩阵用作时间不变的SSM没有已知的数学解释。因此,S4模拟远程依赖性的理论机制实际上仍无法解释。我们得出了河马框架的更一般和直观的公式,该框架将S4作为对指数型的Legendre多项式的分解提供了简单的数学解释,解释了其捕获长依赖性的能力。我们的概括引入了理论上丰富的SSM类,还使我们能够为其他碱基(例如傅立叶基础)得出更直观的S4变体,并解释了训练S4的其他方面,例如如何初始化重要的时间表参数。这些见解将S4的性能提高到远程竞技场基准的86%,在最困难的Path-X任务中,S4的性能为96%。
translated by 谷歌翻译
最近已证明状态空间模型(SSM)是深度学习层非常有效的,它是序列模型(例如RNN,CNN或变压器)的有前途替代方案。第一个显示这种潜力的版本是S4模型,它通过使用称为HIPPO矩阵的规定状态矩阵对涉及长期依赖性的任务特别有效。尽管这具有可解释的数学机制来建模长期依赖性,但它引入了一种自定义表示和算法,可能难以实施。另一方面,最新的S4变体称为DSS,表明将状态矩阵完全对角线限制在使用基于近似S4矩阵的特定初始化时,仍然可以保留原始模型的性能。这项工作旨在系统地了解如何参数化和初始化此类对角线状态空间模型。虽然从经典的结果来看,几乎所有SSM都具有等效的对角线形式,但我们表明初始化对于性能至关重要。我们通过证明S4矩阵的对角线限制出人意料地在无限状态尺寸的极限中恢复了相同的内核来解释为什么DSS在数学上起作用。我们还系统地描述了参数化和计算对角线SSM的各种设计选择,并执行对这些选择的影响的受控经验研究。我们的最终型号S4D是S4的简单对角线版本,其内核计算仅需要2行代码,并且几乎在所有设置中都与S4相当地执行,并具有最新的图像,音频和医疗时间序列域的结果,在远程竞技场基准中平均为85%。
translated by 谷歌翻译