文件级关系提取旨在识别整个文件中实体之间的关系。捕获远程依赖性的努力大量依赖于通过(图)神经网络学习的隐式强大的表示,这使得模型不太透明。为了解决这一挑战,在本文中,我们通过学习逻辑规则提出了一种新的文档级关系提取的概率模型。 Logire将逻辑规则视为潜在变量,包括两个模块:规则生成器和关系提取器。规则生成器是生成可能导致最终预测的逻辑规则,并且关系提取器基于所生成的逻辑规则输出最终预测。可以通过期望最大化(EM)算法有效地优化这两个模块。通过将逻辑规则引入神经网络,Logire可以明确地捕获远程依赖项,并享受更好的解释。经验结果表明,Logire在关系性能(1.8 F1得分)和逻辑一致性(超过3.3逻辑得分)方面显着优于几种强大的基线。我们的代码可以在https://github.com/rudongyu/logire提供。
translated by 谷歌翻译
Anomaly detection on time series data is increasingly common across various industrial domains that monitor metrics in order to prevent potential accidents and economic losses. However, a scarcity of labeled data and ambiguous definitions of anomalies can complicate these efforts. Recent unsupervised machine learning methods have made remarkable progress in tackling this problem using either single-timestamp predictions or time series reconstructions. While traditionally considered separately, these methods are not mutually exclusive and can offer complementary perspectives on anomaly detection. This paper first highlights the successes and limitations of prediction-based and reconstruction-based methods with visualized time series signals and anomaly scores. We then propose AER (Auto-encoder with Regression), a joint model that combines a vanilla auto-encoder and an LSTM regressor to incorporate the successes and address the limitations of each method. Our model can produce bi-directional predictions while simultaneously reconstructing the original time series by optimizing a joint objective function. Furthermore, we propose several ways of combining the prediction and reconstruction errors through a series of ablation studies. Finally, we compare the performance of the AER architecture against two prediction-based methods and three reconstruction-based methods on 12 well-known univariate time series datasets from NASA, Yahoo, Numenta, and UCR. The results show that AER has the highest averaged F1 score across all datasets (a 23.5% improvement compared to ARIMA) while retaining a runtime similar to its vanilla auto-encoder and regressor components. Our model is available in Orion, an open-source benchmarking tool for time series anomaly detection.
translated by 谷歌翻译
电子设计自动化(EDA)社区一直在积极探索非常大规模的计算机辅助设计(VLSI CAD)的机器学习。许多研究探索了基于学习的技术,用于设计流中的跨阶段预测任务,以实现更快的设计收敛。尽管建筑机器学习(ML)模型通常需要大量数据,但由于缺乏大型公共数据集,大多数研究只能生成小型内部数据集进行验证。在本文中,我们介绍了第一个用于机器学习任务的开源数据集,称为CircuitNet。该数据集由基于6种开源RISC-V设计的商业设计工具的多功能运行中提取的10K以上样品组成。
translated by 谷歌翻译
强化学习(RL)为可以在现实世界中自主互动的培训代理提供了潜力。但是,一个关键限制是RL算法对核心超参数和网络体系结构选择的脆弱性。此外,诸如不断发展的训练数据和增加的代理复杂性等非平稳性意味着不同的超参数和体系结构在不同的训练点上可能是最佳的。这激发了Autorl,这是一种试图自动化这些设计选择的方法。一类突出的Autorl方法是基于人群的培训(PBT),这在几个大型设置中导致了令人印象深刻的表现。在本文中,我们介绍了PBT式方法中的两项新创新。首先,我们采用基于信任区域的贝叶斯优化,从而可以全面覆盖高维混合参数搜索空间。其次,我们表明,使用世代相传,我们还可以在一次训练中共同学习体系结构和超参数。利用新的高度可行的Brax物理引擎,我们表明这些创新导致了巨大的性能增长,在即时学习整个配置的同时,大大优于调谐基线。代码可在https://github.com/xingchenwan/bgpbt上找到。
translated by 谷歌翻译
我们的目标是为阿里巴巴业务的每个用户和每个产品项目建立一般代表性(嵌入),包括淘宝和Tmall,这是世界上最大的电子商务网站之一。用户和项目的代表性在各种下游应用程序中发挥着关键作用,包括建议系统,搜索,营销,需求预测等。受到自然语言处理(NLP)域中的BERT模型的启发,我们提出了GUIM(与代表的混合物混合在一起)的GUIM(一般用户项目),以实现大量,结构化的多模式数据,包括数亿美元的相互作用用户和项目。我们利用表示(MOR)的混合物作为一种新颖的表示形式来建模每个用户的各种兴趣。此外,我们使用对比度学习中的Infonce,以避免由于众多词汇的大小(令牌)词汇大小,因此避免了棘手的计算成本。最后,我们建议一组代表性的下游任务作为标准基准,以评估学到的用户和/或项目嵌入的质量,类似于NLP域中的胶合基准。我们在这些下游任务中的实验结果清楚地表明了从GUIM模型中学到的嵌入的比较价值。
translated by 谷歌翻译
对象异常的检测对于工业过程至关重要,但是由于难以获得大量有缺陷的样本以及现实生活中无法预测的异常类型,因此无监督的异常检测和定位尤为重要。在现有的无监督异常检测和定位方法中,基于NF的方案取得了更好的结果。但是,两个子网(复杂函数)$ s_ {i}(u_ {i})$和$ t_ {i}(u_ {i})在nf中通常是多层的perceptrons,需要从2D扁平至1D,破坏了特征图中的空间位置关系并丢失空间结构信息。为了保留并有效提取空间结构信息,我们在这项研究中设计了一个复杂的函数模型,该模型具有交替的CBAM嵌入在堆叠的$ 3 \ times3 $全卷积中,该卷积能够保留并有效地在标准化流程模型中提取空间结构信息。 MVTEC AD数据集的广泛实验结果表明,Cainnflow基于CNN和Transformer Backbone网络作为特征提取器达到高级准确性和推理效率,并且Cainnflow可在MVTEC广告中获得$ 98.64 \%的像素级AUC $ 98.64 \%\%。
translated by 谷歌翻译
食源性疾病是一个严重但可以预防的公共卫生问题 - 延迟发现相关的暴发导致生产力损失,昂贵的召回,公共安全危害甚至生命丧失。尽管社交媒体是识别未报告的食源性疾病的有前途的来源,但缺乏标记的数据集来开发有效的爆发检测模型。为了加快基于机器学习的疫苗爆发检测模型的开发,我们提出了推文-FID(Tweet-Foodborne疾病检测),这是第一个用于多种食源性疾病事件检测任务的公开注释的数据集。从Twitter收集的Tweet-FID带有三个方面:Tweet类,实体类型和老虎机类型,并带有专家以及众包工人生产的标签。我们介绍了利用这三个方面的几个域任务:文本相关性分类(TRC),实体提及检测(EMD)和插槽填充(SF)。我们描述了用于支持这些任务模型开发的数据集设计,创建和标签的端到端方法。提供了这些任务的全面结果,以利用Tweet-FID数据集上的最新单项和多任务深度学习方法。该数据集为未来的Foodborne爆发检测提供了机会。
translated by 谷歌翻译
关于现实生活知识图(KGS)的多跳上推理是一个高度挑战的问题,因为传统的子图匹配方法无法处理噪音和缺失信息。为了解决这个问题,最近已经引入了一种有希望的方法,该方法基于将逻辑查询和kgs共同嵌入到一个低维空间中以识别答案实体。但是,现有的提案忽略了KGS中固有可用的关键语义知识,例如类型信息。为了利用类型信息,我们提出了一种新颖的类型感知消息传递(TEMP)模型,该模型可以增强查询中的实体和关系表示形式,并同时改善概括,演绎和归纳推理。值得注意的是,Temp是一种插件模型,可以轻松地将其纳入现有的基于嵌入的模型中以提高其性能。在三个现实世界数据集上进行了广泛的实验证明了温度的有效性。
translated by 谷歌翻译
本文提出了一种基于逆变器的Volt-VAR控制(IB-VVC)的一步两级深度强化学习(OSTC-DRL)方法。首先,考虑IB-VVC可以作为单周期优化问题进行配制,我们将IB-VVC作为单步马尔可夫决策过程而不是标准的Markov决策过程,从而简化了DRL学习任务。然后,我们设计了单步角色批判性DRL方案,该方案是最近DRL算法的简化版本,它可以成功地避免了Q值高估的问题。此外,考虑VVC的两个目标:最大程度地减少功率损耗并消除违反电压,我们利用两个批评家分别近似两个目标的回报。它简化了每个评论家的近似任务,并避免了评论家学习过程中两个目标之间的相互作用效果。 OSTC-DRL方法集成了单步角色批判性DRL方案和两批评技术。基于OSTC-DRL,我们设计了两种集中式DRL算法。此外,我们将OSTC-DRL扩展到分散的IB-VVC的多代理OSTC-DRL并设计两个多代理DRL算法。模拟表明,所提出的OSTC-DRL具有更快的收敛速度和更好的控制性能,并且多代理OSTC-DRL适用于分散的IB-VVC问题。
translated by 谷歌翻译
带有图像级标签的弱监督语义分割(WSSS)是一项重要且具有挑战性的任务。由于高训练效率,WSS的端到端解决方案受到了社区的越来越多的关注。但是,当前方法主要基于卷积神经网络,无法正确探索全局信息,因此通常会导致不完整的对象区域。在本文中,为了解决上述问题,我们介绍了自然整合全局信息的变形金刚,以生成更具不可或缺的初始伪标签,以用于端到端WSSS。由变压器中的自我注意力与语义亲和力之间的固有一致性激发,我们提出了来自注意力(AFA)模块的亲和力,以从变形金刚中的多头自我注意力(MHSA)学习语义亲和力。然后将学习的亲和力借用以完善初始伪标签以进行分割。此外,为了有效地得出可靠的亲和力标签,用于监督AFA并确保伪标签的局部一致性,我们设计了一个像素自适应改进模块,该模块结合了低级图像外观信息,以完善伪标签。我们进行了广泛的实验,我们的方法在Pascal VOC 2012和MS Coco 2014数据集中获得了66.0%和38.9%的MIOU,大大优于最近的端到端方法和几个多阶段竞争对手。代码可在https://github.com/rulixiang/afa上找到。
translated by 谷歌翻译