How can we accurately identify new memory workloads while classifying known memory workloads? Verifying DRAM (Dynamic Random Access Memory) using various workloads is an important task to guarantee the quality of DRAM. A crucial component in the process is open-set recognition which aims to detect new workloads not seen in the training phase. Despite its importance, however, existing open-set recognition methods are unsatisfactory in terms of accuracy since they fail to exploit the characteristics of workload sequences. In this paper, we propose Acorn, an accurate open-set recognition method capturing the characteristics of workload sequences. Acorn extracts two types of feature vectors to capture sequential patterns and spatial locality patterns in memory access. Acorn then uses the feature vectors to accurately classify a subsequence into one of the known classes or identify it as the unknown class. Experiments show that Acorn achieves state-of-the-art accuracy, giving up to 37% points higher unknown class detection accuracy while achieving comparable known class classification accuracy than existing methods.
translated by 谷歌翻译
监督学习已被广​​泛用于攻击分类,需要高质量的数据和标签。但是,数据通常是不平衡的,很难获得足够的注释。此外,有监督的模型应遵守现实世界的部署问题,例如防御看不见的人造攻击。为了应对挑战,我们提出了一个半监督的细粒攻击分类框架,该框架由编码器和两个分支机构结构组成,并且该框架可以推广到不同的监督模型。具有残留连接的多层感知器用作提取特征并降低复杂性的编码器。提出了复发原型模块(RPM)以半监督的方式有效地训练编码器。为了减轻数据不平衡问题,我们将重量任务一致性(WTC)引入RPM的迭代过程中,通过将较大的权重分配给损失函数中较少样本的类别。此外,为了应对现实世界部署中的新攻击,我们提出了一种主动调整重新采样(AAR)方法,该方法可以更好地发现看不见的样本数据的分布并调整编码器的参数。实验结果表明,我们的模型优于最先进的半监督攻击检测方法,分类精度提高了3%,训练时间降低了90%。
translated by 谷歌翻译
开放式识别使深度神经网络(DNN)能够识别未知类别的样本,同时在已知类别的样本上保持高分类精度。基于自动编码器(AE)和原型学习的现有方法在处理这项具有挑战性的任务方面具有巨大的潜力。在这项研究中,我们提出了一种新的方法,称为类别特定的语义重建(CSSR),该方法整合了AE和原型学习的力量。具体而言,CSSR用特定于类的AE表示的歧管替代了原型点。与传统的基于原型的方法不同,CSSR在单个AE歧管上的每个已知类模型,并通过AE的重建误差来测量类归属感。特定于类的AE被插入DNN主链的顶部,并重建DNN而不是原始图像所学的语义表示。通过端到端的学习,DNN和AES互相促进,以学习歧视性和代表性信息。在多个数据集上进行的实验结果表明,所提出的方法在封闭式和开放式识别中都达到了出色的性能,并且非常简单且灵活地将其纳入现有框架中。
translated by 谷歌翻译
无监督的异常检测旨在通过在正常数据上训练来建立模型以有效地检测看不见的异常。尽管以前的基于重建的方法取得了富有成效的进展,但由于两个危急挑战,他们的泛化能力受到限制。首先,训练数据集仅包含正常模式,这限制了模型泛化能力。其次,现有模型学到的特征表示通常缺乏代表性,妨碍了保持正常模式的多样性的能力。在本文中,我们提出了一种称为自适应存储器网络的新方法,具有自我监督的学习(AMSL)来解决这些挑战,并提高无监督异常检测中的泛化能力。基于卷积的AutoEncoder结构,AMSL包含一个自我监督的学习模块,以学习一般正常模式和自适应内存融合模块来学习丰富的特征表示。四个公共多变量时间序列数据集的实验表明,与其他最先进的方法相比,AMSL显着提高了性能。具体而言,在具有9亿个样本的最大帽睡眠阶段检测数据集上,AMSL以精度和F1分数\ TextBF {4} \%+优于第二个最佳基线。除了增强的泛化能力之外,AMSL还针对输入噪声更加强大。
translated by 谷歌翻译
自动日志文件分析可以尽早发现相关事件,例如系统故障。特别是,自我学习的异常检测技术在日志数据中捕获模式,随后向系统操作员报告意外的日志事件事件,而无需提前提供或手动对异常情况进行建模。最近,已经提出了越来越多的方法来利用深度学习神经网络为此目的。与传统的机器学习技术相比,这些方法证明了出色的检测性能,并同时解决了不稳定数据格式的问题。但是,有许多不同的深度学习体系结构,并且编码由神经网络分析的原始和非结构化日志数据是不平凡的。因此,我们进行了系统的文献综述,概述了部署的模型,数据预处理机制,异常检测技术和评估。该调查没有定量比较现有方法,而是旨在帮助读者了解不同模型体系结构的相关方面,并强调未来工作的开放问题。
translated by 谷歌翻译
在开放世界学习中,代理商从一组已知类,检测和管理它不知道的事情,并从非静止数据流中随时间了解它们。开放世界学习与众多其他学习问题不同,本文简要介绍了各种问题之间的关键差异,包括增量学习,广义新奇发现和广义零射击学习。本文规范了各种开放世界学习问题,包括没有标签的开放世界学习。这些开放世界问题可以通过对已知元素的修改来解决,我们提出了一个新的框架,使代理能够组合各种模块用于新颖性检测,新颖性表征,增量学习和实例管理,以从未标记的流学习新类数据以无人监督的方式,调查如何适应一些最先进的技术来符合框架,并使用它们在没有标签问题的情况下为开放世界学习的性能定义七个基线。然后,我们讨论开放世界的学习质量,并分析如何改善实例管理。我们还讨论了没有标签的开放世界学习中发生的一些普遍歧义问题。
translated by 谷歌翻译
越来越多的工作已经认识到利用机器学习(ML)进步的重要性,以满足提取访问控制属性,策略挖掘,策略验证,访问决策等有效自动化的需求。在这项工作中,我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战,例如缺乏公共现实世界数据集,基于ML的访问控制系统的管理,了解黑盒ML模型的决策等,并列举未来的研究方向。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
在开放式识别(OSR)中,分类器应能够拒绝不知名的样本,同时保持高闭合分类的精度。为了有效解决OSR问题,先前的研究试图通过离线分析(例如,基于距离的特征分析或复杂的网络体系结构)限制有限空间外部的潜在特征空间并拒绝位于有限空间之外的数据。为了通过标准分类器体系结构中的简单推理过程(无脱机分析)进行OSR,我们使用基于距离的分类器代替常规的软具有距离分类器。之后,我们设计了一种背景级正则化策略,该策略在训练阶段使用背景级数据作为不知名级的替代物。具体而言,我们制定了适合基于距离的分类器的新型正则化损失,该损失可为已知类别和强制背景类样品远离有限的空间提供足够大的类别的潜在特征空间。通过我们的广泛实验,我们表明所提出的方法可提供强大的OSR结果,同时保持高闭合分类的精度。
translated by 谷歌翻译
用于现实世界应用程序的时间序列分类器的安全部署依赖于检测未从与培训数据相同的分布生成的数据的能力。此任务称为离分布(OOD)检测。我们考虑了时间序列域的OOD检测的新问题。我们讨论了时间序列数据带来的独特挑战,并解释了为什么来自图像域的先前方法会表现不佳。受这些挑战的激励,本文提出了一种新颖的{\ em季节性评分(SRS)}方法。 SRS由三个关键算法步骤组成。首先,将每个输入分解为类别的语义组件和余数。其次,使用这种分解来估计输入的阶级条件可能性和使用深层生成模型的条件。从这些估计值中计算出季节性比率得分。第三,从分布数据中确定阈值间隔以检测OOD示例。对不同现实世界基准的实验表明,与基线方法相比,SRS方法非常适合于时间序列OOD检测。 https://github.com/tahabelkhouja/srs提供了SRS方法的开源代码
translated by 谷歌翻译
鉴定抗微生物肽的靶标是研究先天免疫反应和打击抗生素抗性的基本步骤,更广泛,精确的药物和公共卫生。关于鉴定(I)肽是抗微生物肽(AMP)的统计和计算方法是否有广泛的研究,或者是哪种靶向这些序列(克阳性,革兰氏阴性)的靶序列, 等等。)。尽管存在对此问题的深度学习方法,但大多数都无法处理小型AMP类(抗昆虫,抗寄生虫等)。更重要的是,一些AMP可以有多个目标,前面的方法无法考虑。在这项研究中,我们通过从各种AMP数据库收集和清洁氨基酸来构建多样化和综合的多标签蛋白序列数据库。为了为小类数据集产生有效的表示和特征,我们利用培训的蛋白质语言模型,培训了超过2.5亿蛋白序列。基于此,我们开发了一个端到端的分层多标签深森林框架,HMD-AMP,全面注释放大器。在识别AMP之后,它进一步预测了AMP可以从11个可用类中有效杀死的目标。广泛的实验表明,我们的框架在二进制分类任务和多标签分类任务中占据了最先进的模型,尤其是在次要类上。模型对抗特征和小扰动并产生有前途的结果。我们认为HMD-AMP对不同抗微生物肽的未来湿式实验室调查有助于不同抗菌肽的先天结构性质,并为抗生素进行精确药物构建有前途的实证内衬。
translated by 谷歌翻译
公开意图检测是自然语言理解中的一个重大问题,旨在以仅知道已知意图的先验知识来检测看不见的公开意图。当前方法在此任务中面临两个核心挑战。一方面,他们在学习友好表示方面有局限性来检测公开意图。另一方面,缺乏有效的方法来获得已知意图的特定和紧凑的决策边界。为了解决这些问题,本文介绍了一个原始框架DA-ADB,该框架连续学习了远距离感知的意图表示和自适应决策边界,以进行开放意图检测。具体而言,我们首先利用距离信息来增强意图表示的区别能力。然后,我们设计了一种新颖的损失函数,以通过平衡经验和开放空间风险来获得适当的决策界限。广泛的实验显示了距离了解和边界学习策略的有效性。与最先进的方法相比,我们的方法在三个基准数据集上实现了重大改进。它还具有不同比例的标记数据和已知类别的稳健性能。完整的数据和代码可在https://github.com/thuiar/textoir上获得
translated by 谷歌翻译
反向工程师受益于二进制中的标识符(例如函数名称)的存在,但通常将其删除以释放。训练机器学习模型自动预测功能名称是有希望的,但从根本上讲很难:与自然语言中的单词不同,大多数函数名称仅出现一次。在本文中,我们通过引入极端功能标签(XFL)来解决此问题,这是一种极端的多标签学习方法,可为二进制功能选择适当的标签。 XFL将函数名称分为代币,将每个功能视为具有自然语言标记文本的问题的信息标签。我们将二进制代码的语义与通过dexter进行标签,这是一种新颖的函数,将基于静态分析的特征与来自呼叫图的本地上下文和整个二进制的全局上下文相结合。我们证明,XFL/Dexter在Debian Project的10,047个二进制数据集上的功能标签上优于最新技术,获得了83.5%的精度。我们还研究了XFL与文献中的替代二进制嵌入的组合,并表明Dexter始终为这项任务做得最好。结果,我们证明了二进制函数标记可以通过多标签学习有效地措辞,并且二进制函数嵌入得益于包括明确的语义特征。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
深度学习方法的最新突破引发了人们对基于学习的错误探测器的兴趣。与传统的静态分析工具相比,这些错误检测器是直接从数据中学到的,因此更容易创建。另一方面,它们很难训练,需要大量数据,而这些数据不容易获得。在本文中,我们提出了一种称为Meta Bug检测的新方法,该方法比现有基于学习的错误探测器具有三个至关重要的优势:Bug-Type通用(即,能够捕获在培训期间完全没有观察到的错误类型),可以自我解释(即能够在没有任何外部可解释方法的情况下解释其自身的预测)和样本有效(即,比标准错误检测器所需的培训数据要少得多)。我们的广泛评估表明,我们的元错误检测器(MBD)有效地捕获了各种错误,包括NULL指针解除,阵列索引外部漏洞,文件句柄泄漏甚至是并发程序中的数据竞赛;在此过程中,MBD还大大优于几个值得注意的基线,包括Facebook推断,一种著名的静态分析工具和FICS,即最新的异常检测方法。
translated by 谷歌翻译
Deep networks have produced significant gains for various visual recognition problems, leading to high impact academic and commercial applications. Recent work in deep networks highlighted that it is easy to generate images that humans would never classify as a particular object class, yet networks classify such images high confidence as that given class -deep network are easily fooled with images humans do not consider meaningful. The closed set nature of deep networks forces them to choose from one of the known classes leading to such artifacts. Recognition in the real world is open set, i.e. the recognition system should reject unknown/unseen classes at test time. We present a methodology to adapt deep networks for open set recognition, by introducing a new model layer, OpenMax, which estimates the probability of an input being from an unknown class. A key element of estimating the unknown probability is adapting Meta-Recognition concepts to the activation patterns in the penultimate layer of the network. Open-Max allows rejection of "fooling" and unrelated open set images presented to the system; OpenMax greatly reduces the number of obvious errors made by a deep network. We prove that the OpenMax concept provides bounded open space risk, thereby formally providing an open set recognition solution. We evaluate the resulting open set deep networks using pre-trained networks from the Caffe Model-zoo on ImageNet 2012 validation data, and thousands of fooling and open set images. The proposed OpenMax model significantly outperforms open set recognition accuracy of basic deep networks as well as deep networks with thresholding of SoftMax probabilities.
translated by 谷歌翻译
先进的体积成像方法和遗传编码的活性指标已允许在\ textit {caenorhabditis elegans}中对全脑活性进行全面表征。然而,线虫神经系统的恒定运动和变形对行为动物中的密集填充神经元的一致构成了巨大的挑战。在这里,我们提出了一种级联解决方案,用于在自由移动的\ textit {c中长期和快速识别头发神经节神经元。秀丽隐杆线}。首先,通过深度学习算法检测到来自荧光图像的潜在神经元区。第二,二维神经元区域被融合到三维神经元实体中。第三,通过利用神经元和神经元之间的相对位置信息的神经元密度分布,多级人工神经网络将工程的神经元向量转化为数字神经元身份。有了少量的培训样品,我们的自下而上的方法能够处理每一卷 - $ 1024 \ times 1024 \ times 18 $ in Voxels-少于1秒钟,并获得了$ 91 \%\%$ $ $ 91 \%的神经元检测及以上的准确性$ 80 \%$ in Neuronal跟踪在长时间的视频录制中。我们的工作代表了迈向快速和完全自动化算法的一步,用于解码自然主义行为的全部大脑活动。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
很少有开放式识别旨在对可见类别的培训数据进行有限的培训数据进行分类和新颖的图像。这项任务的挑战是,该模型不仅需要学习判别性分类器,以用很少的培训数据对预定的类进行分类,而且还要拒绝从未见过的培训时间出现的未见类别的输入。在本文中,我们建议从两个新方面解决问题。首先,我们没有像在标准的封闭设置分类中那样学习看到类之间的决策边界,而是为看不见的类保留空间,因此位于这些区域中的图像被认为是看不见的类。其次,为了有效地学习此类决策边界,我们建议利用所见类的背景功能。由于这些背景区域没有显着促进近距离分类的决定,因此自然地将它们用作分类器学习的伪阶层。我们的广泛实验表明,我们提出的方法不仅要优于多个基线,而且还为三个流行的基准测试(即Tieredimagenet,Miniimagenet和Caltech-uscd Birds-birds-2011-2011(Cub))设定了新的最先进结果。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译