Time-series anomaly detection is an important task and has been widely applied in the industry. Since manual data annotation is expensive and inefficient, most applications adopt unsupervised anomaly detection methods, but the results are usually sub-optimal and unsatisfactory to end customers. Weak supervision is a promising paradigm for obtaining considerable labels in a low-cost way, which enables the customers to label data by writing heuristic rules rather than annotating each instance individually. However, in the time-series domain, it is hard for people to write reasonable labeling functions as the time-series data is numerically continuous and difficult to be understood. In this paper, we propose a Label-Efficient Interactive Time-Series Anomaly Detection (LEIAD) system, which enables a user to improve the results of unsupervised anomaly detection by performing only a small amount of interactions with the system. To achieve this goal, the system integrates weak supervision and active learning collaboratively while generating labeling functions automatically using only a few labeled data. All of these techniques are complementary and can promote each other in a reinforced manner. We conduct experiments on three time-series anomaly detection datasets, demonstrating that the proposed system is superior to existing solutions in both weak supervision and active learning areas. Also, the system has been tested in a real scenario in industry to show its practicality.
translated by 谷歌翻译
Attention-based neural networks, such as Transformers, have become ubiquitous in numerous applications, including computer vision, natural language processing, and time-series analysis. In all kinds of attention networks, the attention maps are crucial as they encode semantic dependencies between input tokens. However, most existing attention networks perform modeling or reasoning based on representations, wherein the attention maps of different layers are learned separately without explicit interactions. In this paper, we propose a novel and generic evolving attention mechanism, which directly models the evolution of inter-token relationships through a chain of residual convolutional modules. The major motivations are twofold. On the one hand, the attention maps in different layers share transferable knowledge, thus adding a residual connection can facilitate the information flow of inter-token relationships across layers. On the other hand, there is naturally an evolutionary trend among attention maps at different abstraction levels, so it is beneficial to exploit a dedicated convolution-based module to capture this process. Equipped with the proposed mechanism, the convolution-enhanced evolving attention networks achieve superior performance in various applications, including time-series representation, natural language understanding, machine translation, and image classification. Especially on time-series representation tasks, Evolving Attention-enhanced Dilated Convolutional (EA-DC-) Transformer outperforms state-of-the-art models significantly, achieving an average of 17% improvement compared to the best SOTA. To the best of our knowledge, this is the first work that explicitly models the layer-wise evolution of attention maps. Our implementation is available at https://github.com/pkuyym/EvolvingAttention
translated by 谷歌翻译
AD相关建模在包括Microsoft Bing在内的在线广告系统中起着至关重要的作用。为了利用强大的变压器在这种低延迟设置中,许多现有方法脱机执行广告端计算。虽然有效,但这些方法无法提供冷启动广告,从而导致对此类广告的相关性预测不佳。这项工作旨在通过结构化修剪设计一种新的低延迟BERT,以在CPU平台上授权实时在线推断对Cold Start Ads相关性。我们的挑战是,以前的方法通常将变压器的所有层都缩减为高,均匀的稀疏性,从而产生无法以可接受的精度实现令人满意的推理速度的模型。在本文中,我们提出了SwiftPruner - 一个有效的框架,利用基于进化的搜索自动在所需的延迟约束下自动找到表现最佳的稀疏BERT模型。与进行随机突变的现有进化算法不同,我们提出了一个具有潜伏意见的多目标奖励的增强突变器,以进行更好的突变,以有效地搜索层稀疏模型的大空间。广泛的实验表明,与均匀的稀疏基线和最先进的搜索方法相比,我们的方法始终达到更高的ROC AUC和更低的潜伏度。值得注意的是,根据我们在1900年的延迟需求,SwiftPruner的AUC比Bert-Mini在大型现实世界数据集中的最先进的稀疏基线高0.86%。在线A/B测试表明,我们的模型还达到了有缺陷的冷启动广告的比例,并获得了令人满意的实时服务延迟。
translated by 谷歌翻译
为了为机器学习模型创建大量的培训标签,有效,有效地,研究人员转向了使用程序化标签源而不是手动注释的弱监督(WS)。 WS用于二进制分类的现有作品通常假设存在能够以大致平衡比例分配正面和负标签的标签源。但是,对于有少数族裔积极阶级的许多感兴趣的任务,负面示例可能太多了,对于开发人员而言,无法生成指示性标签来源。因此,在这项工作中,我们研究了WS在二元分类任务中的应用,仅具有正标源。我们提出了一种武器,这是一种简单而有竞争力的WS方法,用于生产培训标签而无需负标签。在10个基准数据集中,我们显示了武器在合成标签的质量和使用这些标签监督的最终分类器的性能方面取得了最高的平均性能。我们将\方法的实现纳入了现有的基准测试平台扳手。
translated by 谷歌翻译
奖励设计是增强学习应用的关键部分,其性能在很大程度上取决于奖励信号的效果如何,以及信号评估达到该目标的进度的程度。在许多情况下,环境提供的外部奖励(例如,胜利或丢失游戏)非常稀疏,因此很难直接训练代理商。研究人员通常通过在实践中添加一些辅助奖励来帮助学习代理商。但是,设计辅助奖励通常会转向试用搜索奖励设置,从而产生可接受的结果。在本文中,我们建议通过最大程度地提高哪些预期的累积外部奖励可以最大化,以自动生成目标的固有奖励,以学习代理。为此,我们介绍了动机的概念,该概念捕捉了最大化某些奖励并提出基于动机的奖励设计方法的基本目标。基本思想是通过最大程度地减少内在动机和外在动机之间的距离来塑造内在的奖励。我们进行了广泛的实验,并表明我们的方法在处理延迟奖励,探索和信用分配问题方面的最新方法要好。
translated by 谷歌翻译
我们研究了普遍存在的动作,即所有动作都有预设执行持续时间的环境中,研究了无模型的多机械加固学习(MARL)。在执行期间,环境变化受到动作执行的影响但不同步。在许多现实世界中,这种设置无处不在。但是,大多数MAL方法都假定推断后立即执行动作,这通常是不现实的,并且可能导致多机构协调的灾难性失败。为了填补这一空白,我们为MARL开发了一个算法的算法框架。然后,我们为无模型的MARL算法提出了一种新颖的情节记忆,legeM。 Legem通过利用代理人的个人经历来建立代理商的情节记忆。它通过解决了通过我们的新型奖励再分配计划提出的具有挑战性的时间信用分配问题来提高多机构学习,从而减轻了非马克维亚奖励的问题。我们在各种多代理方案上评估了Legem,其中包括猎鹿游戏,采石场游戏,造林游戏和Starcraft II微管理任务。经验结果表明,LegeM显着提高了多机构的协调,并提高了领先的绩效并提高了样本效率。
translated by 谷歌翻译
在复杂的协调问题中,深层合作多智能经纪增强学习(Marl)的高效探索仍然依然存在挑战。在本文中,我们介绍了一种具有奇妙驱动的探索的新型情节多功能钢筋学习,称为EMC。我们利用对流行分解的MARL算法的洞察力“诱导的”个体Q值,即用于本地执行的单个实用程序功能,是本地动作观察历史的嵌入,并且可以捕获因奖励而捕获代理之间的相互作用在集中培训期间的反向化。因此,我们使用单独的Q值的预测误差作为协调勘探的内在奖励,利用集肠内存来利用探索的信息经验来提高政策培训。随着代理商的个人Q值函数的动态捕获了国家的新颖性和其他代理人的影响,我们的内在奖励可以促使对新或有前途的国家的协调探索。我们通过教学实例说明了我们的方法的优势,并展示了在星际争霸II微互动基准中挑战任务的最先进的MARL基础上的其显着优势。
translated by 谷歌翻译
像素级别的2D对象语义理解是计算机视觉中的一个重要主题,可以帮助在日常生活中深入了解对象(例如功能和可折扣)。然而,最先前的方法直接在2D图像中的对应关系上培训,这是端到端,但在3D空间中失去了大量信息。在本文中,我们提出了一种关于在3D域中预测图像对应语义的新方法,然后将它们突出回2D图像以实现像素级别的理解。为了获得当前图像数据集中不存在的可靠的3D语义标签,我们构建一个名为KeyPointNet的大型关键点知识引擎,其中包含103,450个关键点和来自16个对象类别的8,234个3D模型。我们的方法利用3D视觉中的优势,并可以明确地理由对物体自动阻塞和可见性。我们表明我们的方法在标准语义基准上给出了比较甚至卓越的结果。
translated by 谷歌翻译
图形神经网络(GNNS)在各种基于图形的应用中显示了优势。大多数现有的GNNS假设图形结构的强大奇妙并应用邻居的置换不变本地聚合以学习每个节点的表示。然而,它们未能概括到异质图,其中大多数相邻节点具有不同的标签或特征,并且相关节点远处。最近的几项研究通过组合中央节点的隐藏表示(即,基于多跳的方法)的多个跳数来解决这个问题,或者基于注意力分数对相邻节点进行排序(即,基于排名的方法)来解决这个问题。结果,这些方法具有一些明显的限制。一方面,基于多跳的方法没有明确区分相关节点的大量多跳社区,导致严重的过平滑问题。另一方面,基于排名的模型不与结束任务进行联合优化节点排名,并导致次优溶液。在这项工作中,我们呈现图表指针神经网络(GPNN)来解决上述挑战。我们利用指针网络从大量的多跳邻域选择最相关的节点,这根据与中央节点的关系来构造有序序列。然后应用1D卷积以从节点序列中提取高级功能。 GPNN中的基于指针网络的Ranker是以端到端的方式与其他部件进行联合优化的。在具有异质图的六个公共节点分类数据集上进行了广泛的实验。结果表明,GPNN显着提高了最先进方法的分类性能。此外,分析还揭示了拟议的GPNN在过滤出无关邻居并减少过平滑的特权。
translated by 谷歌翻译
为了减轻传统推荐系统(RSS)的数据稀疏和冷启动问题,将知识图(KGS)纳入补充辅助信息,最近引起了相当大的关注。然而,简单地整合了基于KG的RS模型的KGS,这不一定是提高推荐性能的保证,甚至可能削弱整体模型能力。这是因为这些KG的构建与历史用户项相互作用的集合无关;因此,这些KG的信息可能并不总是有助于推荐给所有用户。在本文中,我们提出了具有个性化推荐的协作指导的细心知识意识的图表卷积网络(CG-KGR)。 CG-KGR是一种新颖的知识意识推荐模型,通过我们提出的协作指导机制,可以实现高度和相干的KG和用户项目交互的学习。具体而言,CG-KGR首先封装与交互式信息摘要的历史相互作用。然后CG-kgr利用它作为提取kgs的信息的指导,最终提供更精确的个性化推荐。我们在两个推荐任务中对四个现实数据集进行了广泛的实验,即TOP-K推荐和点击率(CTR)预测。实验结果表明,CG-KGR模型在Top-K推荐的召回度量方面,最近最初的最先进模型明显优于1.4-27.0%。
translated by 谷歌翻译