恶意软件家庭分类是具有公共安全的重要问题,并通过专家标签的高成本受到阻碍的重要问题。绝大多数公司使用嘈杂的标签方法,阻碍了结果的定量量化和更深的相互作用。为了提供进一步前进所需的数据,我们创建了恶意软件开源威胁情报族(图案)数据集。 MOTIF包含来自454个家庭的3,095个恶意软件样本,使其成为最大,最多样化的公共恶意软件数据集,迄今为止,比以前的Windows恶意软件语料库大于任何先前的专家标记的语料库,近3倍。 MOTIF还附带了从恶意软件样本到威胁报告的映射,以信誉良好的行业来源发布,这两者都验证了标签,并打开了将不透明的恶意软件样本连接到人类可读描述的新的研究机会。这使得重要的评估通常是不可行的,由于行业的非标准化报告。例如,我们提供用于描述相同恶意软件系列的不同名称的别名,允许我们在从不同源获得名称时,为您的第一次准确性进行基准测试。使用MOTIF数据集获得的评估结果表明现有任务具有重要的改进空间,抗病毒多数投票的准确性仅以62.10%和众所周知的高度精度测量。我们的调查结果表明,由于在所考虑的样品中可能无法清楚的类别,因此,恶意软件家庭分类与大多数ML文献中的研究不同的标记噪声遭受任何类型的标记噪声。
translated by 谷歌翻译