Though transfer learning is promising to increase the learning efficiency, the existing methods are still subject to the challenges from long-horizon tasks, especially when expert policies are sub-optimal and partially useful. Hence, a novel algorithm named EASpace (Enhanced Action Space) is proposed in this paper to transfer the knowledge of multiple sub-optimal expert policies. EASpace formulates each expert policy into multiple macro actions with different execution time period, then integrates all macro actions into the primitive action space directly. Through this formulation, the proposed EASpace could learn when to execute which expert policy and how long it lasts. An intra-macro-action learning rule is proposed by adjusting the temporal difference target of macro actions to improve the data efficiency and alleviate the non-stationarity issue in multi-agent settings. Furthermore, an additional reward proportional to the execution time of macro actions is introduced to encourage the environment exploration via macro actions, which is significant to learn a long-horizon task. Theoretical analysis is presented to show the convergence of the proposed algorithm. The efficiency of the proposed algorithm is illustrated by a grid-based game and a multi-agent pursuit problem. The proposed algorithm is also implemented to real physical systems to justify its effectiveness.
translated by 谷歌翻译
Current advances in recommender systems have been remarkably successful in optimizing immediate engagement. However, long-term user engagement, a more desirable performance metric, remains difficult to improve. Meanwhile, recent reinforcement learning (RL) algorithms have shown their effectiveness in a variety of long-term goal optimization tasks. For this reason, RL is widely considered as a promising framework for optimizing long-term user engagement in recommendation. Despite being a promising approach, the application of RL heavily relies on well-designed rewards, but designing rewards related to long-term user engagement is quite difficult. To mitigate the problem, we propose a novel paradigm, Preference-based Recommender systems (PrefRec), which allows RL recommender systems to learn from preferences about users' historical behaviors rather than explicitly defined rewards. Such preferences are easily accessible through techniques such as crowdsourcing, as they do not require any expert knowledge. With PrefRec, we can fully exploit the advantages of RL in optimizing long-term goals, while avoiding complex reward engineering. PrefRec uses the preferences to automatically train a reward function in an end-to-end manner. The reward function is then used to generate learning signals to train the recommendation policy. Furthermore, we design an effective optimization method for PrefRec, which uses an additional value function, expectile regression and reward model pre-training to improve the performance. Extensive experiments are conducted on a variety of long-term user engagement optimization tasks. The results show that PrefRec significantly outperforms previous state-of-the-art methods in all the tasks.
translated by 谷歌翻译
完全监督的对数异常检测方法需要大量标记的数据才能实现有希望的性能。因此,如何减轻注释大量未标记的日志数据的沉重负担受到了很多关注。最近,已经提出了许多半监督对数异常检测方法,以借助于标记的正常数据解析的模板来降低注释成本。但是,这些方法通常独立考虑每个关键字,这无视日志事件中关键字之间的相关性以及日志序列之间的上下文关系。在本文中,我们提出了一个新型的弱监督的对数异常检测框架,名为Loglg,以探索序列中关键字之间的语义连接。具体而言,我们设计了一个迭代过程,首先提取未标记的日志的关键字以在每次迭代中构造日志事件图。然后,我们构建一个子记录注释,以更改为未标记的日志序列生成伪标签的目的,以注释相应的log-subgraphs。为了改善注释质量,我们采取了自我监督的任务来预先培训子图注释。之后,使用子图注释者生成的伪标签训练对数异常检测模型。在分类结果的条件下,我们从分类的日志序列重新提取关键字,并为下一个迭代更新日志事件图。五个基准的实验验证了LogLG在未标记的日志数据上检测异常的有效性,并证明与现有的半监督方法相比,Loglg作为最新的弱监督方法,可以取得重大改进。
translated by 谷歌翻译
工业推荐系统通常提出包含来自多个子系统的结果的混合列表。实际上,每个子系统都使用自己的反馈数据进行了优化,以避免不同子系统之间的干扰。但是,我们认为,由于\ textit {数据稀疏},此类数据使用可能会导致次优的在线性能。为了减轻此问题,我们建议从包含网络尺度和长期印象数据的\ textit {super-domain}中提取知识,并进一步协助在线推荐任务(下游任务)。为此,我们提出了一个新颖的工业\ textbf {k} nowl \ textbf {e} dge \ textbf {e} xtraction和\ textbf {p} lugging(\ textbf {keep})框架,这是一个两阶段的框架其中包括1)超级域上有监督的预训练知识提取模块,以及2)将提取的知识纳入下游模型的插件网络。这使得对在线推荐的逐步培训变得友好。此外,我们设计了一种有效的经验方法,用于在大规模工业系统中实施Keep时保持和介绍我们的动手经验。在两个现实世界数据集上进行的实验表明,保持可以实现有希望的结果。值得注意的是,Keep也已部署在阿里巴巴的展示广告系统上,带来了$+5.4 \%$ CTR和$+4.7 \%\%$ rpm的提升。
translated by 谷歌翻译
移情是一种自然体现在人类对话中的特征。从理论上讲,慈善反应的诞生是由于认知和情感之间有意识的对准和相互作用而产生的。但是,现有作品仅依赖于单一的情感方面或独立的认知和感情模型,从而限制了产生的反应的同理心能力。为此,基于常识性认知图和情感概念图,构建了涉及常识性和概念知识的构建,我们设计了一种两级策略,以使粗粒度(在上下文认知和上下文情绪状态之间)和细粒度(在每个特定之间)认知和相应的情感反应)认知和情感,以善解人意(案例)。广泛的实验表明,在自动和人类评估方面,案例的表现优于最先进的基线。我们的代码将发布。
translated by 谷歌翻译
贝叶斯优化(BO)是一种良好的方法,可以优化直接评估成本高昂的黑框函数。在本文中,我们解决了将专家知识纳入BO的问题,目的是进一步加速优化,到目前为止,该优化几乎没有得到关注。我们为这项任务设计了多任务学习体系结构,目的是共同吸引专家知识并最大程度地降低目标函数。特别是,这允许将专家知识转移到BO任务中。我们介绍了基于暹罗神经网络的特定体系结构,以处理来自成对查询的知识启发。具有模拟和实际人类专家的各种基准函数的实验表明,即使与目标函数相比,即使专家知识有偏见,提出的方法也会显着加速BO。
translated by 谷歌翻译
尽管发展了排名优化技术,但点式模型仍然是点击率(CTR)预测的主导方法。它可以归因于点式模型的校准能力,因为可以将预测视为点击概率。在实践中,通常还以排名能力来评估CTR预测模型,基于排名损失(例如,成对或列表损失)的预测模型通常比点置损失更好。先前的研究已经实验了两种损失的直接组合,以从损失中获得收益并观察到改善的性能。但是,先前的研究将输出logit的含义作为点击率,这可能会导致次优的解决方案。为了解决这个问题,我们提出了一种可以共同优化排名和校准能力的方法(简称JRC)。 JRC通过将样品的logit值与不同的标签进行对比,并约束预测概率是logit减法的函数,从而提高了排名能力。我们进一步表明JRC巩固了对逻辑的解释,其中逻辑在其中建模关节分布。通过这样的解释,我们证明JRC近似优化了上下文化的混合歧视生成目标。公共和工业数据集以及在线A/B测试的实验表明,我们的方法提高了排名和校准能力。自2022年5月以来,JRC已被部署在阿里巴巴的展示广告平台上,并获得了显着改进的绩效。
translated by 谷歌翻译
几乎没有零件分割的目的是仅给出几个带注释的样本,将对象的不同部分分开。由于数据有限的挑战,现有的作品主要集中在学习分类器上,而不是预先训练的功能,无法学习针对零件细分的任务特定功能。在本文中,我们建议在“预训练” - “微调”范式中学习特定于任务的功能。我们进行及时设计以减少预训练任务(即图像生成)与下游任务(即部分分段)之间的差距,以便可以利用生成的GAN先验进行分割。这是通过将零件分割图投影到RGB空间中并在RGB分割图和原始图像之间进行插值来实现的。具体而言,我们设计了一种微调策略,以逐步将图像发生器调整到分割生成器中,在该机构中,生成器的监督通过插值从图像到分割图各不等。此外,我们提出了一个两流体系结构,即一个分割流以生成特定于任务的特征,以及一个图像流以提供空间约束。图像流可以视为自我监管的自动编码器,这使我们的模型能够从大规模的支持图像中受益。总体而言,这项工作是试图通过及时设计来探索一代任务和感知任务之间的内部相关性。广泛的实验表明,我们的模型可以在几个部分分割数据集上实现最新性能。
translated by 谷歌翻译
点击率(CTR)预测是推荐和广告系统中的基本技术。最近的研究证明,学习一个为多个领域服务的统一模型可有效提高整体性能。但是,在有限的培训数据下,改善跨领域的概括,并且由于其计算复杂性而难以部署当前解决方案仍然是一项挑战。在本文中,我们为多域CTR预测提出了一个简单而有效的框架ADASPARSE,该预测学习了每个域的适应性稀疏结构,从而在跨计算成本较低的域中实现了更好的概括。在Adasparse中,我们引入了域感知的神经元的加权因子来测量神经元的重要性,对于每个域而言,我们的模型可以修剪冗余神经元以改善概括。我们进一步添加了灵活的稀疏性正常,以控制学习结构的稀疏性比。离线和在线实验表明,ADASPARSE的表现高于先前的多域CTR模型。
translated by 谷歌翻译
实时投标(RTB)是现代在线广告系统中的重要机制。广告商在RTB中采用投标策略来优化其广告效果,但根据各种财务要求,其中广泛采用的是投资回报(ROI)约束。在顺序招标过程中,ROI在非单调的情况下变化,通常在约束满意度和客观优化之间具有透视作用。通常在静态或轻微变化的市场中建立了约束 - 目标权衡解决方案。但是,由于无法适应不同的动态和部分可观察性,这些方法在非平稳广告市场中大大失败。在这项工作中,我们专门研究非机构市场的ROI限制招标。基于部分可观察到的马尔可夫决策过程,我们提出了第一个容纳非单调约束的硬屏障解决方案。我们的方法利用了无参数指标的奖励功能,并开发了课程指导的贝叶斯强化学习(CBRL)框架,以适应在非平稳广告市场中的约束目标权衡。在具有两个问题设置的大规模工业数据集上进行的广泛实验表明,CBRL在分布和分发数据制度方面都很好地概括了,并且具有出色的稳定性。
translated by 谷歌翻译