NetFlow数据是许多网络分析师和研究人员使用的众所周知的网络日志格式。与PCAP相比,使用此格式的优点是,它包含的数据较少,隐私侵入性较小,并且更易于收集和处理。但是,较少的数据确实意味着这种格式可能无法捕获重要的网络行为,因为将所有信息汇总到统计信息中。许多研究旨在通过使用机器学习来检测网络中的攻击来克服这一缺点。许多方法都可以用于在使用NetFlow数据来训练机器学习算法之前预处理数据。但是,其中许多方法只是将现有方法应用于数据,而不是考虑网络数据的特定属性。我们认为,对于源自软件系统(例如NetFlow或软件日志)的数据,频率和特征值上下文的相似性比值本身的相似性更为重要。因此,在这项工作中,我们提出了一种编码算法,该算法在处理数据时直接考虑特征值的频率和上下文。可以使用此编码来聚集不同类型的网络行为,从而帮助检测网络中的异常。从监视清洁系统获得的这些群集的窗口中,我们学习了状态机器行为模型以进行异常检测。这些模型非常适合建模NetFlow数据中存在的循环和重复模式。我们在一个新数据集上评估了我们为检测Kubernetes群集和两个著名公共NetFlow数据集中的问题而创建的编码。国家机器模型获得的性能结果与使用更多功能的现有作品相媲美,并且需要清洁和受感染的数据作为培训输入。
translated by 谷歌翻译