Time-series anomaly detection is an important task and has been widely applied in the industry. Since manual data annotation is expensive and inefficient, most applications adopt unsupervised anomaly detection methods, but the results are usually sub-optimal and unsatisfactory to end customers. Weak supervision is a promising paradigm for obtaining considerable labels in a low-cost way, which enables the customers to label data by writing heuristic rules rather than annotating each instance individually. However, in the time-series domain, it is hard for people to write reasonable labeling functions as the time-series data is numerically continuous and difficult to be understood. In this paper, we propose a Label-Efficient Interactive Time-Series Anomaly Detection (LEIAD) system, which enables a user to improve the results of unsupervised anomaly detection by performing only a small amount of interactions with the system. To achieve this goal, the system integrates weak supervision and active learning collaboratively while generating labeling functions automatically using only a few labeled data. All of these techniques are complementary and can promote each other in a reinforced manner. We conduct experiments on three time-series anomaly detection datasets, demonstrating that the proposed system is superior to existing solutions in both weak supervision and active learning areas. Also, the system has been tested in a real scenario in industry to show its practicality.
translated by 谷歌翻译
我们提出了Patron,这是一种新方法,它使用基于及时的不确定性估计,用于在冷启动场景下进行预训练的语言模型进行微调的数据选择,即,没有初始标记的数据可用。在顾客中,我们设计(1)一种基于迅速的不确定性传播方法来估计数据点的重要性和(2)分区 - 然后 - 剥离(PTR)策略,以促进对注释的样品多样性。六个文本分类数据集的实验表明,赞助人的表现优于最强的冷启动数据选择基准,高达6.9%。此外,仅具有128个标签,顾客分别基于香草微调和及时的学习,获得了91.0%和92.1%的全面监督性能。我们的赞助人实施可在\ url {https://github.com/yueyu1030/patron}上获得。
translated by 谷歌翻译
为了为机器学习模型创建大量的培训标签,有效,有效地,研究人员转向了使用程序化标签源而不是手动注释的弱监督(WS)。 WS用于二进制分类的现有作品通常假设存在能够以大致平衡比例分配正面和负标签的标签源。但是,对于有少数族裔积极阶级的许多感兴趣的任务,负面示例可能太多了,对于开发人员而言,无法生成指示性标签来源。因此,在这项工作中,我们研究了WS在二元分类任务中的应用,仅具有正标源。我们提出了一种武器,这是一种简单而有竞争力的WS方法,用于生产培训标签而无需负标签。在10个基准数据集中,我们显示了武器在合成标签的质量和使用这些标签监督的最终分类器的性能方面取得了最高的平均性能。我们将\方法的实现纳入了现有的基准测试平台扳手。
translated by 谷歌翻译
图表无处不在地编码许多域中现实世界对象的关系信息。图形生成的目的是从类似于观察到的图形的分布中生成新图形,由于深度学习模型的最新进展,人们的关注越来越大。在本文中,我们对现有的图形生成文献进行了全面综述,从各种新兴方法到其广泛的应用领域。具体来说,我们首先提出了深图生成的问题,并与几个相关的图形学习任务讨论了它的差异。其次,我们根据模型架构将最新方法分为三类,并总结其生成策略。第三,我们介绍了深图生成的三个关键应用领域。最后,我们重点介绍了深图生成的未来研究中的挑战和机遇。
translated by 谷歌翻译
联合学习(FL)是一种培训技术,使客户端设备能够通过聚合本地计算的模型来共同学习共享模型,而无需暴露其原始数据。虽然大多数现有工作侧重于提高流动模型准确性,但在本文中,我们专注于提高培训效率,这往往是采用现实世界应用的流域的障碍。具体而言,我们设计了一个有效的FL框架,该框架共同优化了模型精度,处理延迟和通信效率,所有这些都是FL实际实施的主要设计考虑因素。灵感来自近期多智能经纪增强学习(MARL)在解决复杂控制问题方面的成功,我们呈现\ TEXTIT {FEDMARL},基于MARL为基础的FL框架,它执行有效的运行时客户端选择。实验表明,Fedmarl可以显着提高模型准确性,处理延迟和通信成本要低得多。
translated by 谷歌翻译
尽管在许多自然语言处理(NLP)任务中进行了预先训练的语言模型(LMS),但它们需要过多标记的数据来进行微调以实现令人满意的性能。为了提高标签效率,研究人员采取了活跃的学习(AL),而大多数事先工作则忽略未标记数据的潜力。要释放未标记数据的强大功能以获得更好的标签效率和模型性能,我们开发ATM,一个新的框架,它利用自我训练来利用未标记的数据,并且对于特定的AL算法不可知,用作改善现有的插件模块Al方法。具体地,具有高不确定性的未标记数据暴露于Oracle以进行注释,而具有低不确定性的人则可用于自培训。为了缓解自我训练中的标签噪声传播问题,我们设计一个简单且有效的基于动量的内存库,可以动态地从所有轮次汇总模型预测。通过广泛的实验,我们证明了ATM优于最强大的积极学习和自我训练基线,平均将标签效率提高51.9%。
translated by 谷歌翻译
最近,已经证明了信息理论框架可以获得具有随机噪声的随机梯度Langevin Dynamics(SGLD)训练的大型型号的非持续泛化界限。在本文中,我们通过操纵SGLD中的噪声结构来优化信息 - 理论概括。我们证明,由于限制以保证低经验风险,最佳噪声协方差是预期梯度协方差的平方根,如果先前和后部都是联合优化的。这验证了最佳噪声非常接近经验梯度协方差。从技术上讲,我们开发了一种新的信息 - 理论界,其能够实现这种优化分析。然后,我们应用矩阵分析以导出最佳噪声协方差的形式。呈现的制约和结果是通过经验观察验证的。
translated by 谷歌翻译
实体对齐(EA)在学术界和工业中都引起了广泛的关注,该行业旨在寻求具有不同知识图(KGS)相同含义的实体。 KGS中的实体之间存在实质性的多步关系路径,表明实体的语义关系。但是,现有方法很少考虑路径信息,因为并非所有自然路径都促进EA判断。在本文中,我们提出了一个更有效的实体对齐框架RPR-RHGT,该框架集成了关系和路径结构信息以及KGS中的异质信息。令人印象深刻的是,开发了一种初始可靠的路径推理算法来生成有利于EA任务的路径,从KGS的关系结构中,这是文献中第一个成功使用无限制路径信息的算法。此外,为了有效地捕获实体社区中的异质特征,设计的异质图变压器旨在建模KGS的关系和路径结构。在三个著名数据集上进行的广泛实验表明,RPR-RHGT的表现明显优于11种最佳方法,超过了命中率@1的最佳性能基线最高8.62%。我们还表现出比基线在训练集的不同比率和更难数据集的基线上更好的性能。
translated by 谷歌翻译
已经证明对比学习是有效的,可以减轻医学图像分析中昂贵注释的高需求,这可以捕获图像中的一般图案,并且自然用作各种任务的初始特征提取器。最近的作品主要基于案例明智的歧视,并学习全球歧视特征;然而,他们不能帮助临床医生处理主要由局部相似性分类的微小解剖结构,病变和组织。在这项工作中,我们提出了一般无人监督的框架,以了解来自医学图像的局部歧视特征,以进行模型的初始化。在此事实之后,相同体区域的图像应该共享类似的解剖结构,并且相同结构的像素应该具有类似的语义模式,我们设计神经网络以构建具有相似上下文的像素的局部判别嵌入空间是聚类和异种像素的分散。该网络主要包含两个分支:嵌入分支以生成像素 - WISE Embeddings,以及聚类分支以将相同结构的像素聚集在一起并生成分段。提出了一种区域辨别损失以在互利模式中优化这两个分支,使得通过聚类分支集群聚集在一起的像素共享类似的嵌入式矢量,并且训练模型可以测量像素方面的相似性。当转移到下游任务时,基于我们框架的学习特征提取器显示出更好的泛化能力,这优于来自广泛的最先进的方法,并在彩色眼底和胸部X光中的所有12个下游任务中获胜11。此外,我们利用像素 - 方面的嵌入来测量区域相似度,并提出一种形状引导的跨模块分割框架和中心敏感的单次地标定位算法。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译